Preprocesamiento y limpieza de datos

Cursos Empresas Blog Live Conf Precios

Contenido del curso

Cómo utilizar TensorFlow 2.0 con Python

Manejo y preprocesamiento de datos para redes neuronales

Optimización de precisión de modelos

Almacenamiento y carga de modelos

Fundamentos de aprendizaje por transferencia

Resultados de entrenamiento

Tomar examen

Preprocesamiento y limpieza de datos

Resumen

El preprocesamiento de los datos es de las etapas más importantes en cualquier proyecto de data science, principalmente porque es un proceso altamente difícil de automatizar y requiere de creatividad e intelecto humano para hacerse correctamente.

Esta etapa determinará la calidad final de tu modelo, por lo que no deberías temer en invertir el tiempo necesario.

Carga y análisis exploratorio de datos

Para esta ocasión usaremos una versión del dataset mnist en CSV que no está limpio, es decir, tiene datos faltantes e incongruencias que solucionaremos a continuación.

train = pd.read_csv('/tmp/databasesLoadData/sign_mnist_train/sign_mnist_train_clean.csv')

Empezaremos con un poco de análisis exploratorio, vamos a entender la densidad de los datos, donde gracias a matplotlib y seaborn podemos obtener una gráfica de la distribución de las etiquetas.

plt.figure(figsize=(10,10))
sns.set_style("darkgrid")
sns.countplot(train['label'])

En general el dataset se encuentra balanceado, donde cada etiqueta tiene de 900 a 1200 ejemplos en promedio.

Limpieza de los datos

Lo primero a realizar será separar las etiquetas de las imágenes, donde bastará con aislar esta columna en concreto en nuevas variables.

y_train = train['label']
y_test = test['label']

del train['label']
del test['label']

Para obtener información general del dataset podemos usar el método info que nos dará detalles de la estructura, su contenido y los tipos de datos que almacena.

train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27455 entries, 0 to 27454
Columns: 784 entries, pixel1 to pixel784
dtypes: object(784)
memory usage: 164.2+ MB

De la misma manera, podemos analizar específicamente cada columna con el atributo dtypes.

train.dtypes

pixel1      object
pixel2      object
pixel3      object
pixel4      object
pixel5      object
             ...  
pixel780    object
pixel781    object
pixel782    object
pixel783    object
pixel784    object
Length: 784, dtype: object

Si queremos conocer qué etiquetas hay, podemos hacer uso de la función unique de numpy.

unique_val = np.array(labels)
np.unique(unique_val)
array([ 0,  1,  2,  3,  4,  5,  6,  7,  8, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24])

Podemos verificar si tenemos valores nulos en nuestra base de datos, esto nos dará información relacionada a negocio que puede ser valiosa, por lo que esta acción no solo ayuda a limpiar el dataset sino a comprender el posible origen del problema.

train.isnull().values.any()
False

Podemos buscar datos duplicados con el método duplicated del dataframe, esto nos retornará una fila por cada elemento.

train[train.duplicated()]

Para borrar registros haremos uso del método drop que recibe como argumentos los index de los elementos a borrar.

train = train.drop([317, 487, 595, 689, 802, 861], axis = 0)

Entre los datos duplicados encontramos uno que traía letras (algo ilógico para imágenes entre 0 y 255), por lo que lo buscaremos y eliminaremos.

train[train['pixel1'] == "fwefew"]
727
train = train.drop([727], axis = 0)

Preprocesamiento y optimización

El paso final será normalizar los datos para sintetizarlos desde el rango inicial al rango 0-1, para esto debemos convertir todos los datos en valores numéricos y luego aplicar la operación.

train = train.astype(str).astype(int)
train = train / 255
test = test / 255

Si verificamos el dataset limpio obtendremos 784 columnas con valores entre 0 y 1.

train.head()
5 rows × 784 columns

Estos datos finales son mucho más procesables que los iniciales, por lo que tu rendimiento final se verá afectando positivamente.

Recuerda siempre dedicar una parte importante del tiempo de desarrollo en revisión y limpieza de datos para obtener resultados exponencialmente mejores.

Contribución creada por Sebastián Franco Gómez.

Stark Solution

student

Hola quisiera hacer una consulta con respecto a la calidad de las imágenes del dataset, la duda es tiene alguna relación el tamaño y la calidad de la imagen para tener mejores predicciones. Gracias!

Adonai Vera

teacher

¡Hola Stark! Tienes una excelente pregunta sobre cómo afecta la resolución de la imagen en los resultados. En general, una mayor resolución de la imagen puede ofrecerte mejores resultados, ya que se pueden capturar más detalles y características. Sin embargo, debes tener en cuenta que a medida que aumenta la resolución, también aumenta el costo computacional necesario para procesarla. Piensa en una imagen como una matriz de píxeles: si la matriz es más grande, se requieren más operaciones matemáticas para recorrerla y analizarla.

Mi recomendación sería encontrar un equilibrio entre el costo computacional y la calidad del algoritmo. Al final, es probable que debas redimensionar las imágenes para que todas tengan el mismo tamaño de entrada para la red neuronal. Por lo tanto, es importante considerar el tipo de datos que se obtendrán en la aplicación real. Por ejemplo, si estás trabajando con imágenes de alta resolución en un proyecto de reconocimiento facial, es posible que desees mantener una resolución alta para capturar detalles finos. Sin embargo, si estás realizando detección de objetos en tiempo real en un dispositivo con recursos limitados, puede ser necesario reducir la resolución para obtener resultados rápidos y eficientes.

Además, las capas convolucionales y de pooling en los algoritmos de visión por computadora pueden ayudarte a reducir el tamaño de la imagen mientras se conservan las características principales. Estas capas permiten extraer características importantes y reducir la dimensionalidad de los datos sin perder información crítica.

Espero que esta explicación te haya resultado clara y útil. Si tienes más preguntas, ¡no dudes en hacerlas!

Saludos.

Stark Solution

student

Excelente, muy clara la respuesta. Muchas gracias.

Saludos.

Nicolas Velasquez Lopez

Aline Danae Campos Galleguillos

Diego Sepúlveda

Carlos García Almodóvar

Tomas Dale

Usuario anónimo

user

Giovany samaca

Jorge Aurelio Valdez Osorio

Sebastian Granda Gallego

Nicolas Cordoba

Nathia .

Tatiana Andrea Sanchez Castaño

Jose de Jesus Herrera Ledon

Cesar Armando Cruz Mendoza

Jorge Andrés Robledo Ariza

Jose Ramon Moreno Sanchez

ASDRUBAL LOPEZ CHAU

Felipe Sebastián Zepeda González

Juan Jose Sepulveda Calderon

Henry Mendiburu Díaz

Gilberto Gutiérrez Gordillo

•

Juan Acevedo

Cómo utilizar TensorFlow 2.0 con Python

Redes Neuronales y TensorFlow: Crea Modelos de IA desde Cero

Programación con TensorFlow 2 y Python: Fundamentos y Aplicaciones

Manejo y preprocesamiento de datos para redes neuronales

Carga y Procesamiento de Bases de Datos en Inteligencia Artificial

Carga de Bases de Datos JSON desde GCP en Google Colab

Codificación Base64 y Gestión de Imágenes en Google Colab