Limpieza de la base de datos

Clase 11 de 33 • Curso Profesional de Computer Vision con TensorFlow

Contenido del curso

Comprender la visión computarizada

Dimensionamiento de proyecto de visión computarizada

Obtención y procesamiento de los datos

Entrena, testea y optimiza tus modelos

Producto con visión computarizada en producción

Siguientes pasos en inteligencia artificial

Tomar examen

Comentarios

Luis Quiroz Prada

student•

Cuando se describen las imagenes, no se ve a que imagen esta haciendo referencia (1:51min)

Daniel Díaz

student•

Ninguna de las descripciones sabemos de qué imágen es.

Joaquin Romero Flores

student•

Limpieza de las bases de datos

Los datos son lo más importante al momento de llevar a cabo la creación de un modelo.
Porque si se tienen malos los datos, malas etiquetas, entonces, el modelo va a arrojar malos resultados.
Es importante tomarse un tiempo prudente para poder navegar a través de nuestra base de datos.
Encontrar posibles datos duplicados
Encontrar posibles imágenes corruptas.
Imágenes que no generan valor para el modelo de negocio.
En el proceso de selección y limpieza de la base de datos, se recomienda hacerlo en conjunto a un experto; que tenga claro para que se van a aplicar estos datos, porque se van a clasificar y cuál es el resultado final que se está esperando.

Es importante analizar la base de datos por

Cada base de datos buscar solucionar un problema diferente. Es muy diferente si se crea un algoritmo que detecte vehículos, motos desde cámaras de seguridad a que lo que haga desde la entrada de un parqueadero (estacionamiento).
Lo que se busca con la base de datos es que generalice en un modelo la detección que se piensa hacer y que a su vez este alineada al entorno en el que va a funcionar.

Iván Alexis Nocua Benitez

student•

Para el caso de identificacion de plantas, si en un metro cuadrado tengo varias plantas de la misma especie, ¿es una buena práctica etiquetar todas y cada una de las plantas que hay en la imagen (asi sea la misma planta) o con etiquetar una que otra es suficiente?

Adonai Vera

teacher•

Hola Ivan Alexis, ¡qué buena pregunta! Me gustaría compartir contigo una experiencia que tuvo un amigo mío. Él desarrolló un algoritmo para detectar anomalías en plantas de cannabis, pero en las primeras iteraciones utilizó un par de hojas por imagen y un algoritmo de detección de objetos, lo que resultó en resultados desastrosos. Sin embargo, al etiquetar todas las hojas de las plantas presentes en la imagen, el algoritmo mejoró significativamente. Posteriormente, para mejorar aún más, decidió cambiar el modelo de detección de objetos por uno de segmentación de objetos, a pesar de que es más costoso computacionalmente, ya que produce resultados muy precisos en el área de interés.

Espero que esto te sea de ayuda.

Maria Barrera

student•

Me emocioné!!!!!!!!1

Mario Alexander Vargas Celis

student•

La limpieza de una base de datos es una etapa crucial en el procesamiento de datos, especialmente en proyectos de visión computarizada, machine learning y otros análisis que requieren datos de alta calidad. Aquí tienes una guía paso a paso para realizar la limpieza de una base de datos.

### 1. **Identificar y eliminar duplicados**

- Los duplicados pueden sesgar el modelo si están presentes en el conjunto de entrenamiento, y su detección es esencial.

- **Método**: Utiliza funciones para identificar duplicados, como drop\_duplicates() en pandas, o elimina imágenes duplicadas mediante hash de archivos (por ejemplo, usando la función hashlib en Python para verificar similitudes).

### 2. **Gestionar datos faltantes**

- Los datos incompletos (valores nulos o imágenes con contenido dañado) pueden dificultar el entrenamiento del modelo o distorsionar el análisis.

- **Soluciones**:

- **Eliminar filas/columnas**: Si los datos faltantes son pocos, puedes eliminarlos.

- **Imputación**: Completa valores faltantes usando media, mediana o modelos predictivos.

- **Relleno**: Si el proyecto es de imágenes, asegúrate de que cada archivo de imagen esté accesible y en el formato adecuado.

### 3. **Estandarizar formatos de datos**

- Asegúrate de que los valores en las columnas sigan el mismo formato (fechas, nombres, categorías).

- **Ejemplo**: Convertir todas las fechas a un mismo formato (YYYY-MM-DD) y normalizar categorías (p. ej., “auto” y “coche” como “auto”).

### 4. **Corrección de valores atípicos (outliers)**

- Los valores atípicos o extremos pueden afectar el rendimiento del modelo.

- **Método**: Usa estadísticas descriptivas o visualizaciones (como gráficos de caja) para identificar valores atípicos y decidir si deben eliminarse o tratarse.

### 5. **Ajuste de datos inconsistentes o erróneos**

- Asegúrate de que todos los datos sean coherentes (por ejemplo, que las etiquetas y categorías de las imágenes en un proyecto de clasificación de objetos sean precisas).

- **Ejemplo**: En una base de datos de imágenes, verifica que cada imagen etiquetada como "perro" contenga efectivamente un perro.

### 6. **Normalización y escalado de datos**

- La normalización y escalado son especialmente importantes en el preprocesamiento para modelos de machine learning.

- **Métodos comunes**:

- **Escalado Min-Max**: Escala los datos para que estén dentro de un rango (por ejemplo, [0, 1]).

- **Normalización Z-score**: Ajusta los datos a una distribución con media 0 y desviación estándar 1.

### 7. **Estandarizar la estructura de archivos (si trabajas con datos de imágenes)**

- Organiza los archivos en carpetas o rutas claras, etiquetadas por categorías o clases (como en el caso de proyectos de clasificación de imágenes).

- **Ejemplo**: Crea carpetas como data/cats/ y data/dogs/ para clasificar imágenes de gatos y perros, respectivamente.

### 8. **Documentar cambios**

- Lleva un registro de los cambios realizados durante la limpieza de datos, especialmente si estás trabajando en equipo.

- **Método**: Usa herramientas de versionado o archivos de registro (log files) donde anotes los procesos y cambios aplicados a la base de datos.

### Ejemplo de limpieza de base de datos en Python con pandas

Para un conjunto de datos en formato tabular, podrías realizar limpieza básica con pandas:


import pandas as pd



\# Cargar la base de datos

df = pd.read\_csv('mi\_base\_de\_datos.csv')



\# Eliminar duplicados

df = df.drop\_duplicates()



\# Eliminar filas con valores nulos en una columna específica

df = df.dropna(subset=\['columna\_relevante'])



\# Rellenar valores nulos en una columna con la mediana

df\['otra\_columna'] = df\['otra\_columna'].fillna(df\['otra\_columna'].median())



\# Estandarizar el formato de fechas

df\['fecha'] = pd.to\_datetime(df\['fecha'], errors='coerce')



\# Identificar y eliminar valores atípicos (outliers)

q\_low = df\["valor"].quantile(0.01)

q\_hi  = df\["valor"].quantile(0.99)

df\_filtered = df\[(df\["valor"] > q\_low) & (df\["valor"] < q\_hi)]



\# Guardar la base de datos limpia

df\_filtered.to\_csv('mi\_base\_de\_datos\_limpia.csv', index=False)

### Herramientas adicionales

Para proyectos más grandes, puedes considerar herramientas especializadas como:

- **OpenRefine**: Para limpieza avanzada y transformaciones en datos tabulares.

- **Dask** o **Apache Spark**: Para limpiar grandes volúmenes de datos.

- **Fastdup**: Para detectar y eliminar imágenes duplicadas en bases de datos visuales.

La limpieza de la base de datos es esencial para garantizar que tu modelo o análisis tenga un buen desempeño y esté libre de sesgos o errores involuntarios causados por datos de baja calidad.

Jhon Freddy Tavera Blandon

student•

Revisión de Datos Faltantes o Incompletos

Corrección de Datos Duplicados

Normalización de Datos

Identificación y Manejo de Valores Atípicos (Outliers)

Formateo y Validación de Tipos de Datos

Consistencia en Categorización

Verificación de Coherencia en los Datos

Herramientas para la Limpieza de Datos

Pandas (Python): Permite manipular y limpiar datos de manera flexible. Puedes identificar duplicados, nulos, y realizar transformaciones de datos con facilidad.

OpenRefine: Herramienta de código abierto para explorar y limpiar datos. Útil si trabajas con grandes volúmenes de datos.

SQL: Usa consultas SQL para hacer selecciones y transformaciones en tu base de datos.

DBeaver o PgAdmin: Herramientas gráficas para la gestión de bases de datos que permiten explorar y realizar limpieza de datos a nivel SQL.

La limpieza de la base de datos es una fase crítica para garantizar que los datos con los que trabajas sean consistentes, precisos y relevantes para tu análisis o modelo.

import pandas as pd

\# Cargar la base de datos

df = pd.read\_csv('mi\_base\_de\_datos.csv')

\# Eliminar duplicados

df = df.drop\_duplicates()

\# Eliminar filas con valores nulos en una columna específica

df = df.dropna(subset=\['columna\_relevante'])

\# Rellenar valores nulos en una columna con la mediana

df\['otra\_columna'] = df\['otra\_columna'].fillna(df\['otra\_columna'].median())

\# Estandarizar el formato de fechas

df\['fecha'] = pd.to\_datetime(df\['fecha'], errors='coerce')

\# Identificar y eliminar valores atípicos (outliers)

q\_low = df\["valor"].quantile(0.01)

q\_hi  = df\["valor"].quantile(0.99)

df\_filtered = df\[(df\["valor"] > q\_low) & (df\["valor"] < q\_hi)]

\# Guardar la base de datos limpia

df\_filtered.to\_csv('mi\_base\_de\_datos\_limpia.csv', index=False)

Limpieza de la base de datos

Comprender la visión computarizada

¿Por qué aprender computer vision?

¿Qué es la visión computarizada?

Tipos de visión computarizada

Introducción a object detection: clasificación + localización

Aprende a identificar problemas

Dimensionamiento de proyecto de visión computarizada

Cómo definir los tiempos de tu proyecto

Cómo costear tu proyecto

Cómo identificar los roles necesarios en el proyecto

Producto mínimo viable en computer vision

Obtención y procesamiento de los datos

Obtención de datos para tu proyecto