Comprender la visión computarizada

1

¿Por qué aprender computer vision?

2

¿Qué es la visión computarizada?

3

Tipos de visión computarizada

4

Introducción a object detection: clasificación + localización

5

Aprende a identificar problemas

Dimensionamiento de proyecto de visión computarizada

6

Cómo definir los tiempos de tu proyecto

7

Cómo costear tu proyecto

8

Cómo identificar los roles necesarios en el proyecto

9

Producto mínimo viable en computer vision

Obtención y procesamiento de los datos

10

Obtención de datos para tu proyecto

11

Limpieza de la base de datos

12

Distribución de datos en entrenamiento y testeo

13

Etiquetado de los datos de test

14

Etiquetado de los datos de train

15

Transforma tu base de datos a TFRecord

16

Transformar CSV a TFRecord

Entrena, testea y optimiza tus modelos

17

Librerías a importar durante fase de entrenamiento

18

Fase de entrenamiento del modelo

19

Balanceo de imágenes y data augmentation

20

Entrena, evalua y optimiza con TensorBoard

21

Validación de modelo en un entorno de ejecución

22

Re-entrenamiento del modelo para obtener mejores resultados

23

Seguimiento de centroides con OpenCV

24

Configuración de los centroides con OpenCV

25

Algoritmo de dirección y conteo con OpenCV

26

Crea un ciclo de entrenamiento de tu modelo: MLOps

Producto con visión computarizada en producción

27

Prepara tu entorno en Google Cloud Platform

28

Carga y preprocesamiento de modelos

29

Postprocesamiento de modelos

30

Despliega y consume tu modelo en producción

31

Bonus: aprende a apagar las máquinas de GCP para evitar sobrecostos

Siguientes pasos en inteligencia artificial

32

Siguientes pasos en inteligencia artificial

33

Comparte tu proyecto de detección de vehículos en carretera y certifícate

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Limpieza de la base de datos

11/33
Recursos

Aportes 5

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Cuando se describen las imagenes, no se ve a que imagen esta haciendo referencia (1:51min)

Limpieza de las bases de datos

  • Los datos son lo más importante al momento de llevar a cabo la creación de un modelo.
  • Porque si se tienen malos los datos, malas etiquetas, entonces, el modelo va a arrojar malos resultados.
  • Es importante tomarse un tiempo prudente para poder navegar a través de nuestra base de datos.
  • Encontrar posibles datos duplicados
  • Encontrar posibles imágenes corruptas.
  • Imágenes que no generan valor para el modelo de negocio.
  • En el proceso de selección y limpieza de la base de datos, se recomienda hacerlo en conjunto a un experto; que tenga claro para que se van a aplicar estos datos, porque se van a clasificar y cuál es el resultado final que se está esperando.

Es importante analizar la base de datos por

  • Cada base de datos buscar solucionar un problema diferente. Es muy diferente si se crea un algoritmo que detecte vehículos, motos desde cámaras de seguridad a que lo que haga desde la entrada de un parqueadero (estacionamiento).

  • Lo que se busca con la base de datos es que generalice en un modelo la detección que se piensa hacer y que a su vez este alineada al entorno en el que va a funcionar.

Me emocioné!!!1

La limpieza de una base de datos es una etapa crucial en el procesamiento de datos, especialmente en proyectos de visión computarizada, machine learning y otros análisis que requieren datos de alta calidad. Aquí tienes una guía paso a paso para realizar la limpieza de una base de datos. \### 1. \*\*Identificar y eliminar duplicados\*\* \- Los duplicados pueden sesgar el modelo si están presentes en el conjunto de entrenamiento, y su detección es esencial. \- \*\*Método\*\*: Utiliza funciones para identificar duplicados, como `drop\_duplicates()` en pandas, o elimina imágenes duplicadas mediante hash de archivos (por ejemplo, usando la función `hashlib` en Python para verificar similitudes). \### 2. \*\*Gestionar datos faltantes\*\* \- Los datos incompletos (valores nulos o imágenes con contenido dañado) pueden dificultar el entrenamiento del modelo o distorsionar el análisis. \- \*\*Soluciones\*\*: \- \*\*Eliminar filas/columnas\*\*: Si los datos faltantes son pocos, puedes eliminarlos. \- \*\*Imputación\*\*: Completa valores faltantes usando media, mediana o modelos predictivos. \- \*\*Relleno\*\*: Si el proyecto es de imágenes, asegúrate de que cada archivo de imagen esté accesible y en el formato adecuado. \### 3. \*\*Estandarizar formatos de datos\*\* \- Asegúrate de que los valores en las columnas sigan el mismo formato (fechas, nombres, categorías). \- \*\*Ejemplo\*\*: Convertir todas las fechas a un mismo formato (`YYYY-MM-DD`) y normalizar categorías (p. ej., “auto” y “coche” como “auto”). \### 4. \*\*Corrección de valores atípicos (outliers)\*\* \- Los valores atípicos o extremos pueden afectar el rendimiento del modelo. \- \*\*Método\*\*: Usa estadísticas descriptivas o visualizaciones (como gráficos de caja) para identificar valores atípicos y decidir si deben eliminarse o tratarse. \### 5. \*\*Ajuste de datos inconsistentes o erróneos\*\* \- Asegúrate de que todos los datos sean coherentes (por ejemplo, que las etiquetas y categorías de las imágenes en un proyecto de clasificación de objetos sean precisas). \- \*\*Ejemplo\*\*: En una base de datos de imágenes, verifica que cada imagen etiquetada como "perro" contenga efectivamente un perro. \### 6. \*\*Normalización y escalado de datos\*\* \- La normalización y escalado son especialmente importantes en el preprocesamiento para modelos de machine learning. \- \*\*Métodos comunes\*\*: \- \*\*Escalado Min-Max\*\*: Escala los datos para que estén dentro de un rango (por ejemplo, \[0, 1]). \- \*\*Normalización Z-score\*\*: Ajusta los datos a una distribución con media 0 y desviación estándar 1. \### 7. \*\*Estandarizar la estructura de archivos (si trabajas con datos de imágenes)\*\* \- Organiza los archivos en carpetas o rutas claras, etiquetadas por categorías o clases (como en el caso de proyectos de clasificación de imágenes). \- \*\*Ejemplo\*\*: Crea carpetas como `data/cats/` y `data/dogs/` para clasificar imágenes de gatos y perros, respectivamente. \### 8. \*\*Documentar cambios\*\* \- Lleva un registro de los cambios realizados durante la limpieza de datos, especialmente si estás trabajando en equipo. \- \*\*Método\*\*: Usa herramientas de versionado o archivos de registro (log files) donde anotes los procesos y cambios aplicados a la base de datos. \### Ejemplo de limpieza de base de datos en Python con pandas Para un conjunto de datos en formato tabular, podrías realizar limpieza básica con pandas: ```python import pandas as pd \# Cargar la base de datos df = pd.read\_csv('mi\_base\_de\_datos.csv') \# Eliminar duplicados df = df.drop\_duplicates() \# Eliminar filas con valores nulos en una columna específica df = df.dropna(subset=\['columna\_relevante']) \# Rellenar valores nulos en una columna con la mediana df\['otra\_columna'] = df\['otra\_columna'].fillna(df\['otra\_columna'].median()) \# Estandarizar el formato de fechas df\['fecha'] = pd.to\_datetime(df\['fecha'], errors='coerce') \# Identificar y eliminar valores atípicos (outliers) q\_low = df\["valor"].quantile(0.01) q\_hi = df\["valor"].quantile(0.99) df\_filtered = df\[(df\["valor"] > q\_low) & (df\["valor"] < q\_hi)] \# Guardar la base de datos limpia df\_filtered.to\_csv('mi\_base\_de\_datos\_limpia.csv', index=False) ``` \### Herramientas adicionales Para proyectos más grandes, puedes considerar herramientas especializadas como: \- \*\*OpenRefine\*\*: Para limpieza avanzada y transformaciones en datos tabulares. \- \*\*Dask\*\* o \*\*Apache Spark\*\*: Para limpiar grandes volúmenes de datos. \- \*\*Fastdup\*\*: Para detectar y eliminar imágenes duplicadas en bases de datos visuales. La limpieza de la base de datos es esencial para garantizar que tu modelo o análisis tenga un buen desempeño y esté libre de sesgos o errores involuntarios causados por datos de baja calidad.
Revisión de Datos Faltantes o Incompletos **Corrección de Datos Duplicados** **Normalización de Datos** **Identificación y Manejo de Valores Atípicos (Outliers)** Formateo y Validación de Tipos de Datos Consistencia en Categorización Verificación de Coherencia en los Datos **Herramientas para la Limpieza de Datos** **Pandas** (Python): Permite manipular y limpiar datos de manera flexible. Puedes identificar duplicados, nulos, y realizar transformaciones de datos con facilidad. **OpenRefine**: Herramienta de código abierto para explorar y limpiar datos. Útil si trabajas con grandes volúmenes de datos. **SQL**: Usa consultas SQL para hacer selecciones y transformaciones en tu base de datos. **DBeaver** o **PgAdmin**: Herramientas gráficas para la gestión de bases de datos que permiten explorar y realizar limpieza de datos a nivel SQL. La limpieza de la base de datos es una fase crítica para garantizar que los datos con los que trabajas sean consistentes, precisos y relevantes para tu análisis o modelo.