Preprocesamiento y limpieza de datos

Clase 6 de 28 • Curso Profesional de Redes Neuronales con TensorFlow

Resumen

El preprocesamiento de los datos es de las etapas más importantes en cualquier proyecto de data science, principalmente porque es un proceso altamente difícil de automatizar y requiere de creatividad e intelecto humano para hacerse correctamente.

Esta etapa determinará la calidad final de tu modelo, por lo que no deberías temer en invertir el tiempo necesario.

Carga y análisis exploratorio de datos

Para esta ocasión usaremos una versión del dataset mnist en CSV que no está limpio, es decir, tiene datos faltantes e incongruencias que solucionaremos a continuación.

train = pd.read_csv('/tmp/databasesLoadData/sign_mnist_train/sign_mnist_train_clean.csv')

Empezaremos con un poco de análisis exploratorio, vamos a entender la densidad de los datos, donde gracias a matplotlib y seaborn podemos obtener una gráfica de la distribución de las etiquetas.

plt.figure(figsize=(10,10))
sns.set_style("darkgrid")
sns.countplot(train['label'])

En general el dataset se encuentra balanceado, donde cada etiqueta tiene de 900 a 1200 ejemplos en promedio.

Limpieza de los datos

Lo primero a realizar será separar las etiquetas de las imágenes, donde bastará con aislar esta columna en concreto en nuevas variables.

y_train = train['label']
y_test = test['label']

del train['label']
del test['label']

Para obtener información general del dataset podemos usar el método info que nos dará detalles de la estructura, su contenido y los tipos de datos que almacena.

train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27455 entries, 0 to 27454
Columns: 784 entries, pixel1 to pixel784
dtypes: object(784)
memory usage: 164.2+ MB

De la misma manera, podemos analizar específicamente cada columna con el atributo dtypes.

train.dtypes

pixel1      object
pixel2      object
pixel3      object
pixel4      object
pixel5      object
             ...  
pixel780    object
pixel781    object
pixel782    object
pixel783    object
pixel784    object
Length: 784, dtype: object

Si queremos conocer qué etiquetas hay, podemos hacer uso de la función unique de numpy.

unique_val = np.array(labels)
np.unique(unique_val)
array([ 0,  1,  2,  3,  4,  5,  6,  7,  8, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24])

Podemos verificar si tenemos valores nulos en nuestra base de datos, esto nos dará información relacionada a negocio que puede ser valiosa, por lo que esta acción no solo ayuda a limpiar el dataset sino a comprender el posible origen del problema.

train.isnull().values.any()
False

Podemos buscar datos duplicados con el método duplicated del dataframe, esto nos retornará una fila por cada elemento.

train[train.duplicated()]

Para borrar registros haremos uso del método drop que recibe como argumentos los index de los elementos a borrar.

train = train.drop([317, 487, 595, 689, 802, 861], axis = 0)

Entre los datos duplicados encontramos uno que traía letras (algo ilógico para imágenes entre 0 y 255), por lo que lo buscaremos y eliminaremos.

train[train['pixel1'] == "fwefew"]
727
train = train.drop([727], axis = 0)

Preprocesamiento y optimización

El paso final será normalizar los datos para sintetizarlos desde el rango inicial al rango 0-1, para esto debemos convertir todos los datos en valores numéricos y luego aplicar la operación.

train = train.astype(str).astype(int)
train = train / 255
test = test / 255

Si verificamos el dataset limpio obtendremos 784 columnas con valores entre 0 y 1.

train.head()
5 rows × 784 columns

Estos datos finales son mucho más procesables que los iniciales, por lo que tu rendimiento final se verá afectando positivamente.

Recuerda siempre dedicar una parte importante del tiempo de desarrollo en revisión y limpieza de datos para obtener resultados exponencialmente mejores.

Contribución creada por Sebastián Franco Gómez.

Comentarios

Nicolas Velasquez Lopez

student•

Intentas hacer el conteo de labels y te sale algo así?

escribe

sns.countplot(x='label', data=train)

En vez de

sns.countplot(train['label'])

Aline Danae Campos Galleguillos

student•

gracias <3

Diego Sepúlveda

student•

y cual es la explicación de esto?

Carlos García Almodóvar

student•

[

Para que puedan visualizar el balanceado de clases y además tengan una referencia numérica del porcentaje que representa cada una de las clases sobre el total.

Tomas Dale

student•

fig, ax=plt.subplots(nrows=1, ncols=1, figsize=(16,8)) ax=sns.countplot(data=train, x='label', palette='Set1')

for p in ax.patches: ax.annotate(f'{round(p.get_height()/len(train)*100,1)}%', (p.get_x()+p.get_width()/4, p.get_height()*1.01), weight='bold')

plt.xlabel('Labels',weight='bold') plt.ylabel('Count', weight='bold') plt.show()

Usuario anónimo

user•

porque lo multiplicas por 100 y lo divides por 4 no entiendo esas operaciones

Giovany samaca

student•

para saber cuales son los valores unicos de los labels

train['label'].unique()

para hacer un conteo de los labels

train.groupby('label')['label'].count()

Jorge Aurelio Valdez Osorio

student•

Para el conteo de los labels te recomiendo más este metodo, mucho más legible.

train['label'].value_counts()

Tomas Dale

student•

Oigan, no dejen de ver las lecturas recomendadas, estan buenisimas, MIL GRACIAS PROFE

Sebastian Granda Gallego

student•

Para no hacerlo tan manual, yo elimine los duplicados de esta forma:

duplicated = train[train.duplicated(keep=False)]
train.drop(duplicated.index, axis=0, inplace=True)

Y así no debemos poner uno a uno los índices a eliminar.

Nicolas Cordoba

student•

Para este caso el drop se puede hacer usando

train.drop_duplicates(keep=False, inplace=True)

Jorge Aurelio Valdez Osorio

student•

Leer archivos parquet con pandas: Parquet es un format columnar comunmente usado en ambientes big data asi que espero les sirva saber que existe una función en pandas para leerlo

pd.read_parquet('/path/to/file')

Stark Solution

student•

Hola quisiera hacer una consulta con respecto a la calidad de las imágenes del dataset, la duda es tiene alguna relación el tamaño y la calidad de la imagen para tener mejores predicciones. Gracias!

Adonai Vera

teacher•

¡Hola Stark! Tienes una excelente pregunta sobre cómo afecta la resolución de la imagen en los resultados. En general, una mayor resolución de la imagen puede ofrecerte mejores resultados, ya que se pueden capturar más detalles y características. Sin embargo, debes tener en cuenta que a medida que aumenta la resolución, también aumenta el costo computacional necesario para procesarla. Piensa en una imagen como una matriz de píxeles: si la matriz es más grande, se requieren más operaciones matemáticas para recorrerla y analizarla.

Mi recomendación sería encontrar un equilibrio entre el costo computacional y la calidad del algoritmo. Al final, es probable que debas redimensionar las imágenes para que todas tengan el mismo tamaño de entrada para la red neuronal. Por lo tanto, es importante considerar el tipo de datos que se obtendrán en la aplicación real. Por ejemplo, si estás trabajando con imágenes de alta resolución en un proyecto de reconocimiento facial, es posible que desees mantener una resolución alta para capturar detalles finos. Sin embargo, si estás realizando detección de objetos en tiempo real en un dispositivo con recursos limitados, puede ser necesario reducir la resolución para obtener resultados rápidos y eficientes.

Además, las capas convolucionales y de pooling en los algoritmos de visión por computadora pueden ayudarte a reducir el tamaño de la imagen mientras se conservan las características principales. Estas capas permiten extraer características importantes y reducir la dimensionalidad de los datos sin perder información crítica.

Espero que esta explicación te haya resultado clara y útil. Si tienes más preguntas, ¡no dudes en hacerlas!

Saludos.

Stark Solution

student•

Excelente, muy clara la respuesta. Muchas gracias.

Saludos.

Nathia .

student•

Ven, me podrías guiar según todo el código esta bien, no muestra error, pero no se por que se muestra así

Adonai Vera

teacher•

Hola Nathiasolarte, Pareciera que solo tuvieras una clase en el CSV, podrias revisar la ruta del CSV y confirmar que estes cargando el csv correcto.

train = pd.read_csv('/tmp/databasesLoadData/sign_mnist_train/sign_mnist_train_clean.csv')

El CSV que estas cargando es distinto, si puedes probar con este y me cuentas si funciona seria genial.

saludos,

Tatiana Andrea Sanchez Castaño

student•

Hola, tuve el mismo error. El problema está en el llamado a sns.countplot, probablemente es un tema de versiones. Así es como lo reemplacé:

sns.countplot(train, x='label')

Jose de Jesus Herrera Ledon

student•

Una manera para no pasar a mano los indices a borrar:

train = train.drop(index=train[train.duplicated()].index.tolist())

Cesar Armando Cruz Mendoza

student•

Super hack para la exploración de datos:

Que haya datos vacíos, nulos o faltantes, ES INFORMACION Que no haya información, ES INFORMACION

Jorge Andrés Robledo Ariza

student•

Cantidades por etiqueta de mayor a menor

train[['label']].value_counts().sort_values(ascending=False)

Jose Ramon Moreno Sanchez

student•

Creo 🤔 que el profe normaliza los datos con "255" ya que en datos de imágenes donde un elemento tiende a tener el valor entre 0 y 255 para su color RGB.

ASDRUBAL LOPEZ CHAU

student•

Es correcto. En este caso cada pixel puede tener un valor mínimo de cero, y máximo de 255. Se prefiere que cada variable tenga un rango de valores entre 0 y 1, o entre -1 y -1. Hay otras formas de normalizar los datos: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html#sklearn.preprocessing.MinMaxScaler

Felipe Sebastián Zepeda González

student•

Como en principio no conocemos qué otros string podrían haber en los datos hice una búsqueda automatizada con regex:

import re
r = re.compile(".*[A-Za-z].*") '''Este regex busca cualquier tipo de string que contenga una letra'''
train = train.astype(str)

for column in processed_train.columns:
  words = list(filter(r.match, processed_train[column].values))
  for word in words:
	 processed_train 
= processed_train.drop(processed_train[processed_train[column]==word].index)

Juan Jose Sepulveda Calderon

student•

Me parece que hubo un pequeño detalle, primero se separó la variable objetivo

y_train = train['label']
y_test = test['label']
del train['label']
del test['label']

y luego se procedió a borrar los datos nulos.

train = train.drop([317,487, 595, 689, 802, 861], axis = 0)
train = train.drop([727], axis = 0) # este tambien es una cadena.

Falto borrar los valores en el y_train porque como se quedaron la cantidad de filas para cada uno no es la misma, y debería ser la misma.

train.shape, y_train.shape 
# ouput: ((27448, 784), (27455,))

Henry Mendiburu Díaz

student•

EXCEL

pd.read_excel('test.xlsx')

Gilberto Gutiérrez Gordillo

student•

en este caso que sucede si me sale true para variables nulas

Gilberto Gutiérrez Gordillo

student••

No se si lo hice bien pero a mi el codigo me votó el siguiete gráfico:

que por cierto terminé usando este codigo me ayuda la IA por que no dejaba de marcar error.

Este es el código que usé:

# 1️⃣ Importamos las librerías necesarias

import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt

# 2️⃣ Cargamos correctamente el archivo con el separador correcto

train = pd.read_csv("/tmp/databasesLoadData/sign_mnist_train/sign_mnist_train_no_clean.csv", sep=';')

# 3️⃣ Verificamos que las columnas se hayan separado bien

print("Columnas del dataset:")

print(train.columns)

# 4️⃣ Mostramos las primeras filas para confirmar

print("\nPrimeras filas del dataset:")

print(train.head())

# 5️⃣ Creamos el gráfico de conteo de etiquetas

plt.figure(figsize=(10, 10))

sns.set_style("darkgrid")

sns.countplot(data=train, x="label")

plt.title("Distribución de clases en el dataset Sign MNIST")

plt.xlabel("Etiqueta")

plt.ylabel("Frecuencia")

plt.show()

Juan Acevedo

student•

Tengan en cuenta que la "Normalización" que se hace porque manejamos pixeles y sabemos cual es el máximo de este y que la imagen sigue siendo la misma después de , pero normalmente y de hecho incluso para este , para ser mas prácticos un MinMaxScaler viene bien , porque si subiéramos esto a producción eventualmente en el lado del cliente no va ver quien divida entre el numero máximo o encuentre como estandarizar , entonces es mejor hacer eso esto mas automático con pipelines que integren algún preprocesador

Juan Acevedo

student•

Manera mas fácil de eliminar los duplicados

X_train = X_train.drop_duplicates()
print(X_train.duplicated().sum())

import re
r = re.compile(".*[A-Za-z].*") '''Este regex busca cualquier tipo de string que contenga una letra'''
train = train.astype(str)

for column in processed_train.columns:
  words = list(filter(r.match, processed_train[column].values))
  for word in words:
	 processed_train 
= processed_train.drop(processed_train[processed_train[column]==word].index)

Preprocesamiento y limpieza de datos

Cómo utilizar TensorFlow 2.0 con Python

Redes Neuronales y TensorFlow: Crea Modelos de IA desde Cero

Programación con TensorFlow 2 y Python: Fundamentos y Aplicaciones

Manejo y preprocesamiento de datos para redes neuronales

Carga y Procesamiento de Bases de Datos en Inteligencia Artificial

Carga de Bases de Datos JSON desde GCP en Google Colab

Codificación Base64 y Gestión de Imágenes en Google Colab

Preprocesamiento y limpieza de datos

Keras datasets

Datasets generators

Aprende a buscar bases de datos para deep learning

Cómo distribuir los datos

Crear la red neural, definir capas, compilar, entrenar, evaluar y predicciones

Optimización de precisión de modelos

Métodos de regularización: overfitting y underfitting

Recomendaciones prácticas para ajustar un modelo

Métricas para medir la eficiencia de un modelo: callback

Monitoreo del entrenamiento en tiempo real: early stopping y patience

KerasTuner: construyendo el modelo

KerasTuner: buscando la mejor configuración para tu modelo

Almacenamiento y carga de modelos

Almacenamiento y carga de modelos: pesos y arquitectura

Criterios para almacenar los modelos

Fundamentos de aprendizaje por transferencia

Introducción al aprendizaje por transferencia

Cuándo utilizar aprendizaje por transferencia

Carga de sistemas pre-entrenados en Keras

API funcional de Keras

Uso sistemas pre-entrenados de TensorFlow Hub

Resultados de entrenamiento

Introducción a variables relevantes del TensorBoard

Análisis y publicación de resultados del entrenamiento

Introducción al despliegue de modelos en producción

Siguientes pasos con deep learning