Datasets generators

Clase 8 de 28 • Curso Profesional de Redes Neuronales con TensorFlow

Contenido del curso

Cómo utilizar TensorFlow 2.0 con Python

Manejo y preprocesamiento de datos para redes neuronales

Optimización de precisión de modelos

Almacenamiento y carga de modelos

Fundamentos de aprendizaje por transferencia

Resultados de entrenamiento

Tomar examen

Resumen

Cuando trabajes con datasets encontrarás bases de datos ya generadas y listas para consumo, pero eventualmente te toparás con la necesidad de crear tus propios datos, por lo que deberás encontrar una manera de cargarlos.

En el momento que cargas datos a memoria, lo haces directamente a la memoria RAM del sistema, por lo que si cargas un dataset pesado de golpe, es probable que termines colapsando tu entorno de trabajo por saturación de recursos.

Para evitar este problema, se crean los generadores, una estructura de datos que generará datos solo si es recorrida, optimizando memoria.

Descargando el dataset de lenguaje de señas

Descargaremos el repositorio desde GCP.

!wget --no-check-certificate https://storage.googleapis.com/platzi-tf2/sign-language-img.zip \
    -O /tmp/sign-language-img.zip

Descomprimiremos el archivo, para esto usaremos los módulos de os y zipfile.

import os
import zipfile

local_zip = "/tmp/sign-language-img.zip"
zip_ref = zipfile.ZipFile(local_zip, "r")
zip_ref.extractall("/tmp/sign-language-img")
zip_ref.close()

La estructura del dataset constará en 2 directorios principales: Test y Train, donde para cada clase (letra en señas) tendremos un directorio con sus respectivos ejemplos.

sign-language-image/
├── Test/
│   └── A-Z/
│       └── examples.jpg
└── Train/
    └── A-Z/
        └── examples.jpg

Cargando el dataset con Keras dataset generator

Para llevar a cabo el proceso de carga, haremos uso de varias librerías como TensorFlow, matplotlib y numpy.

import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import string
import tensorflow as tf
from tensorflow.keras.preprocessing.image import ImageDataGenerator

Cargaremos las rutas donde se encuentran nuestros dataset.

train_dir = "/tmp/sign-language-img/Train"
test_dir = "/tmp/sign-language-img/Test"

Generaremos los data generators, para esta ocasión reescalaremos los datos al rango de 0 a 1 para mejorar la convergencia del modelo, además, dividiremos el 20% de los datos de prueba a validación para monitorear el rendimiento del modelo en vivo.

train_datagen = ImageDataGenerator(rescale = 1/255)
test_datagen = ImageDataGenerator(rescale = 1/255, validation_split = 0.2)

Para cargar las imágenes, haremos uso del método flow_from_directory del generador, determinaremos el directorio fuente, el tamaño que tendrán las imágenes (el generador las redimensionará de ser necesario), los lotes de procesamiento, el tipo de clases, el tipo de escala de colores y el subset al que pertenecen.

train_generator = train_datagen.flow_from_directory(
    train_dir,
    target_size = (28,28),
    batch_size = 128,
    class_mode = "categorical",
    color_mode = "grayscale",
    subset = "training"
)

Para los subsets de validación y prueba será el mismo proceso, donde cambiarán los nombres de las variables y las fuentes.

validation_generator = test_datagen.flow_from_directory(
    test_dir,
    target_size = (28,28),
    batch_size = 128,
    class_mode = "categorical",
    color_mode = "grayscale",
    subset = "validation"
)

test_generator = train_datagen.flow_from_directory(
    test_dir,
    target_size = (28,28),
    batch_size = 128,
    class_mode = "categorical",
    color_mode = "grayscale",
)

Para generar las clases haremos una pequeña list comprehension recorriendo los caracteres ASCII omitiendo las letras J y Z.

classes = [char for char in string.ascii_uppercase if char != "J" if char != "Z"]

Para graficar imágenes crearemos la función plotImages que recibirá un array de imágenes y las mostrará en pantalla en grupos de 5.

def plotImages(images_arr):
  fig, axes = plt.subplots(1, 5, figsize = (10, 10))
  axes = axes.flatten()
  for img, ax in zip(images_arr, axes):
    ax.imshow(img[:,:,0])
    ax.axis("off")
  plt.tight_layout()
  plt.show()

Para hacer uso de esta función generaremos un conjunto de imágenes, esto nos retornará un array de imágenes que daremos como parámetro.

sample_training_images, _ = next(train_generator)
plotImages(sample_training_images[:5])

Con esto hemos cargado imágenes en memoria sin necesidad de saturar la memoria del sistema, cada vez que requieras iterar sobre tu dataset el generador solo generará las imágenes necesarias.

Contribución creada por Sebastián Franco Gómez.

Comentarios

Jose Luis Junior Perez Gil

student•

Excelente clase, cada vez me gusta más este curso, mi proyecto consiste en detectar neumonía en radiografías de tórax y estas son cinco de las imágenes de mi base de datos:

Islas Rodríguez, Luis Fernando

student•

¿El tamaño de las imágenes para efectos prácticos es que las hiciste pequeñas?

Adonai Vera

teacher•

Hola Luis Fernando Claro que si, recuerda que una imagen a nivel matemático es una matriz en donde cada pixel de la imagen (tamaño en pixeles) representa un espacio en la matriz. Si la matriz es más grande el coste computacional es mucho más alto y por consiguiente el modelo tardara mucho más tiempo tanto entrenando el modelo, como realizando inferencia cuando ya lo tengas en producción. Redujo el tamaño de la imagen es para que cuando lo corramos en COLAB no explote jeje

Islas Rodríguez, Luis Fernando

student•

Otra pregunta, relacionada a la anterior. Entre el tamaño de la imagen y el hecho de que si es color blanco y negro, qué es mas eficiente de controlar... ¿Conviene mas una imagen mas pequeña o que sea blanco y negro? o mas bien, ¿Qué es menos conveniente, que sea grande o que se a color? o conviene una imagen a color pero pequeña, o una imagen blanco y negro pero grande... (Espero darme a entender a lo que quiero llegar).

Adonai Vera

teacher•

Claro que si Luis Fernando, y es una excelente pregunta. Sin embargo no hay una respuesta absoluta para todos los casos de clasificación. Depende mucho de lo que estes clasificando. Lo más relevante es que veas que si reduces la imagen en tamaño y si la pones en blanco y negro terminas perdiendo información que nuestra red neuronal puede utilizar, entonces debes analizar si vale la pena por coste computacional reducir el tamaño de la imagen.

Si es un problema de clasificación complejo yo te recomiendo que no te bajes el tamaño de la imágenes de 300 x 300; por otra parte, si ya son más pequeñas que eso y aún así debes reducir el coste computacional, puedes crear dos modelos uno en donde la entrada de los datos este a blanco y negro y otra en donde la tengas en RGB y comparar resultados y si desde un enfoque de resultados puedes sacrificar un poco el coste computacional con el fin de que el accuracy sea más alto, tendras que realizarlo así, pero si lo pruebas y te das cuenta que el sistema termina teniendo porcentajes de precisión muy bajos y no funciona, pues tendras que dejar la base de datos en RGB y buscar quizas mejorar la arquitectura de tu red neuronal.

Me cuentas si resolví la duda.

Has hecho muy buenas preguntas, sé que a muchos estudiantes les servirán!

Thanks

Raul Perez-Alejo Neyra

student•

Hola Luis, hasta donde he leido, y ojo estoy aprendiendo también, es que si necesitas reconocer en una imagen objetos por sus colores, por ejemplo las lineas divisorias de una carretera(amarillas o blancas) si es necesario los colores, pero si solo estas reconociendo formas, no es necesario, con blanco y negro sería suficiente.

Sería perfecto si el profe pudiera certificar, agregar o corregir mi respuesta.

Rafael Rivera

student•

Estoy trabajando en Kaggle y no en Colab, para probarlo, ya que en procesamiento es mas rápido Kaggle, y estoy viendo otras ventajas, como que al subir la data, no es necesario descomprimirla ya que la misma plataforma lo hace.

Les seguiré contando :)

Rafael Rivera

student•

Tampoco es necesario incluir la línea ++%matplotlib inline++ al importar la biblioteca Matplotlib, ya que Kaggle está configurado para mostrar las gráficas generadas por Matplotlib de forma predeterminada en el notebook.

Islas Rodríguez, Luis Fernando

student•

Si la base de datos que tú nos proporcionaste (Por ejemplo la letra A), yo sustituyo su contenido por imágenes a color, las adapto al tamaño y aunque no sean 300 imágenes fuesen como 100. ¿Será mejor el entrenamiento? osea, el usar blanco y negro es para facilitar el procesamiento (Que sea ligero, análogamente pienso eso) pero a color, ¿Qué tanto influye? ¿Es conveniente?

Adonai Vera

teacher•

Veamos lo desde dos enfoques:

Matemáticamente: Imagine el color como si fuera dimensiones, tienes una matriz con una dimensión (Escala de grises), o con múltiples dimensiones (RGB), al final termina siendo mucho más grande la de RGB porque en cuestión de matrices es como si tomaras la matriz original y le dieras valores en 3 dimensiones. (Esto es más información que nuestra red neuronal puede utilizar para mejorar una mejor predicción).

Aplicación practica: Necesitas crear un clasificador de frutas, en donde principalmente tienes manzanas y Peras, una clasificación binaria; Si tú eliminas el color y transformas tu bases de datos a escala de grises, estarás perdiendo una de las características más relevantes de la clasificación que es el color. En este caso practico puede afectar mucho el rendimiento del modelo.

Si te das cuenta, todo dependerá mucho en donde lo estas aplicando y que tan relevante pueda llegar a ser tanto a nivel de coste computacional como a nivel de aplicación.

Me cuentas, Saludos

Islas Rodríguez, Luis Fernando

student•

¿Si las imágenes son demasiado grandes, entonces el preprocesamiento le costará aún más el análisis?

Adonai Vera

teacher•

Exactamente Luis Fernando, le costara mucho más a la red neuronal recorrerla (a nivel de operaciones matemáticas) y el coste computacional aumentara.

Islas Rodríguez, Luis Fernando

student•

Corrigeme si me equivoco, pero entendí que podemos entrenar la red neuronal de forma "Local" y una vez que ya haya "aprendido", ¿Entonces se puede consumir o ejecutar en otro lado? pero ya no sería tan pesado porque no cargaría con su base de datos con la que entrenó, ¿es cierto? o ¿siempre debe estar entrenando antes de poder ejecutarse? (Disculpa por tantas preguntas en este espacio)

Eber Laurente Lliuyacc

student•

Hola Luis, En líneas generales, cuando entrenamos las redes neuronales se determinan los valores de los parámetros. Si el modelo entrenado proporciona los resultados esperados, se puede usar con data nueva sin la necesidad de volverlo a entrenar.

Rafael Rivera

student•

Para descomprimir los archivos también podríamos utilizar With el cual cierra automáticamente el objeto ZipFile:

import zipfile

with zipfile.ZipFile('archivo.zip', 'r') as zip_ref:
    zip_ref.extractall('directorio_destino')

Jason Sepulveda

student•

2025, aqui con librerias mas actuales por si tienen fallos

Renato Agustín Lagos Albornoz

student•

Tengo 2 dudas: 1.- En cursos anteriores los datos de validación lo obteníamos de los datos de train, afecta al resultado que los obtengamos de test o train ?? 2.- No es recomendable hacer un shuffle=True?

Adonai Vera

teacher•

Renano Agustin como estas?

Es una pregunta muy interesante y una de las razones por las cuales a veces obtenemos métricas de validación tan altas. Si tu obtienes los datos de validación desde el training (Después de entrenar el modelo) estarías obteniendo métricas de datos que tu ya le dijiste a tu modelo cual era la salida (Lo pudo memorizar), la idea de testar tu modelo con validación y test es probar tu sistema con datos que no conoce, para ver si logro generalizar el modelo. Si divides la clase training y validación antes de entrenar el modelo y para entrenar el modelo solo utilizas training, **no afectaría en nada. **
Siempre es recomendable hacer un shuffle True, para lograr la aleatoriedad de nuestro modelo, excelente recomendación

Saludos

Víctor Trigo

student•

Segmentación de tumor cerebral en imágenes médicas de multicontraste. Datos de BraTS Challenge 2021.

Christian Ricardo Conchari Cabrera

student•

Trabajando con el set de imagenes de Malaria.

En este caso se trabajará con una clasificación en dos clases:

classes = ["parasitized", "uninfected"]

Para mostrar un conjunto de cinco imágenes de prueba:

def plotImages(images_arr):
  fig, axes = plt.subplots(1,5,figsize=(10,10))
  axes = axes.flatten()
  for img, ax in zip(images_arr, axes):
    ax.imshow(img[:,:,0])
    ax.axis("off")
  plt.tight_layout()
  plt.show()

sample_training_images, _ = next(train_generator) 
plotImages(sample_training_images[:5])

Vamos por buen camino! :D

Juan Acevedo

student•

Gabriel Díaz Andrade

student•

Hola, acá les dejo imagenes las imagenes que muestra mi BD. Decidí usar el dataset de los tumores.

Diego Fernando Ortiz Gamboa

student•

Buenas tardes profe me sale este error a la hora de descargar los daros

Adonai Vera

teacher•

Hola Diego como estas? Muchas gracias por tu pregunta; si tenia un problema con la cuenta pero ya esta solucionado. Intentalo nuevamente y gracias por reportarlo.

Saludos

rogelio cortez

student•

Porque en el train_generator se puso el subset="Training" si esta trabajando con train_datagen que no se subdividio la informacion?

Jhonalbert Aponte

student•

Hola, con este tipo de data como hago para graficar countplot y ver como esta distribuida la data y si es necesario balancear?

Adonai Vera

teacher•

Hola Jhonalbert, Muchas gracias por tu pregunta, y considero que si puede ser muy valioso para la clase. Puedes agregar una función despues de leer la base de datos con los generators:

Aqui hay un ejemplo del código

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Obtener etiquetas de las imágenes del generador
train_labels = train_generator.classes

# Obtener nombres de las clases
class_names = list(train_generator.class_indices.keys())

# Crear un DataFrame de pandas para facilitar el conteo
import pandas as pd
df = pd.DataFrame({'Label': train_labels})
df['Label'] = df['Label'].map(lambda x: class_names[x])  # Convertir números a nombres de clase

# Graficar el countplot usando seaborn
plt.figure(figsize=(10, 6))
sns.countplot(x='Label', data=df, order=df['Label'].value_counts().index)
plt.title('Distribución de Clases en el Dataset de Entrenamiento')
plt.xticks(rotation=45)
plt.show()

Me cuentas que tal te va Saludos

Platzi Team

student•

Estas serías mis imágenes :D

Quisiera saber, que tan grandes deben ser las imagenes (dimensiones 5050, 500* 500, etc), para hacer modeos de calidad y que puedan ser llevadas a producción?

Adonai Vera

teacher•

Hola Oliver Orley,

Cuando trabajamos con redes neuronales y el procesamiento de imágenes, es importante considerar la resolución de las imágenes. Aunque no hay un tamaño específico requerido, generalmente, cuanto mayor sea la resolución de una imagen, más detalles puede captar la red. Esto significa que la red puede aprender y reconocer patrones con mayor precisión.

Sin embargo, hay una compensación importante a considerar: imágenes de alta resolución requieren más poder computacional para ser procesadas. Esto se debe a que la red necesita realizar más cálculos matemáticos para analizar toda la información adicional que viene con imágenes de alta resolución. Como resultado, el proceso puede volverse más lento y requerir más recursos, como la memoria y la capacidad de procesamiento de tu computadora o servidor.

Para equilibrar entre obtener suficiente detalle de las imágenes y mantener un proceso eficiente, se puede ajustar el tamaño de las imágenes. Esto significa que podrías comenzar con imágenes de alta resolución y luego reducir su tamaño a una dimensión estándar que sea manejable para tu red neuronal. Es importante recordar que las redes neuronales generalmente requieren que todas las imágenes tengan el mismo tamaño, por lo que establecer un tamaño fijo de imagen es una práctica común.

En resumen, aunque es beneficioso utilizar imágenes de alta resolución para captar más detalles, también es crucial ajustar su tamaño para asegurar que el proceso sea eficiente. Esto implica encontrar un equilibrio entre la calidad de la imagen y la capacidad computacional disponible.

Espero que esto aclare tus dudas.

Nicolas Cordoba

student•

Encontré un dataset de imágenes sísmicas que ya viene dividido por train, test, validation pero al cambiar las líneas de código y agregar directamente los datos de validación me dice que encuentra 0 imagenes relacionadas con las 4 clases. Así lucen las carpetas

y el código modificado

val_dir = 'proyecto_sismica/Seismic_data/validation/'

test_data_gen = ImageDataGenerator(rescale = 1/255) 
val_data_gen = ImageDataGenerator(rescale = 1/255)

validation_generator = val_data_gen.flow_from_directory(
    val_dir, 
    target_size=(28,28),
    batch_size = 128,
    class_mode='categorical',
    color_mode = 'grayscale',
    subset='validation'
)

Adonai Vera

teacher•

Hola Nicolas, Lo más seguro es que tengas una ruta relativa, y por eso no encuentra ningún archivo. Te sugiero en el val_dir coloques la ruta absoluta hasta la carpeta validación.

Si estas en google Colab y dejaste la carpeta en la ruta principal seria algo asi

val_dir = '/tmp/proyecto_sismica/Seismic_data/validation/'

Todo depende donde tengas la carpeta.

Me cuentas si funciona, saludos

Rodrigo Martinez

student•

Hola, muy buenas. tengo la siguiente pregunta:

¿Como puedo pasar de un listado de imagenes(obtenidas desde un url) a un formato de narray para hacer el entrenamiento?

Adonai Vera

teacher•

Hola Rodrigo como estas? Los pasos que te sugieron son los siguientes (Puedes ejecutarlo desde un script):

Crear un for que recorra la lista de imagenes y decargues cada una de las imagenes en una subcarpeta con el nombre de la clase.
Utilizar el script de la clase para separar el training y test (Este script toma cada una de las imagenes dentro de las carpetas y de manera random separa entre training y test)
Utilizar dataset generator para cargar la base de datos directamente (No tienes que preocuparte por convertir a formatos de narray)
Continuar con la creación del modelo.

Avisame como te va, y si puedo darte una mano,

saludos

def plotImages(images_arr):
  fig, axes = plt.subplots(1,5,figsize=(10,10))
  axes = axes.flatten()
  for img, ax in zip(images_arr, axes):
    ax.imshow(img[:,:,0])
    ax.axis("off")
  plt.tight_layout()
  plt.show()

sample_training_images, _ = next(train_generator) 
plotImages(sample_training_images[:5])

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Obtener etiquetas de las imágenes del generador
train_labels = train_generator.classes

# Obtener nombres de las clases
class_names = list(train_generator.class_indices.keys())

# Crear un DataFrame de pandas para facilitar el conteo
import pandas as pd
df = pd.DataFrame({'Label': train_labels})
df['Label'] = df['Label'].map(lambda x: class_names[x])  # Convertir números a nombres de clase

# Graficar el countplot usando seaborn
plt.figure(figsize=(10, 6))
sns.countplot(x='Label', data=df, order=df['Label'].value_counts().index)
plt.title('Distribución de Clases en el Dataset de Entrenamiento')
plt.xticks(rotation=45)
plt.show()

val_dir = 'proyecto_sismica/Seismic_data/validation/'

test_data_gen = ImageDataGenerator(rescale = 1/255) 
val_data_gen = ImageDataGenerator(rescale = 1/255)

validation_generator = val_data_gen.flow_from_directory(
    val_dir, 
    target_size=(28,28),
    batch_size = 128,
    class_mode='categorical',
    color_mode = 'grayscale',
    subset='validation'
)

Datasets generators

Cómo utilizar TensorFlow 2.0 con Python

Redes Neuronales y TensorFlow: Crea Modelos de IA desde Cero

Programación con TensorFlow 2 y Python: Fundamentos y Aplicaciones

Manejo y preprocesamiento de datos para redes neuronales

Carga y Procesamiento de Bases de Datos en Inteligencia Artificial

Carga de Bases de Datos JSON desde GCP en Google Colab

Codificación Base64 y Gestión de Imágenes en Google Colab

Preprocesamiento y limpieza de datos

Keras datasets