Conversión de imágenes a tensores para redes neuronales

Clase 9 de 15 • Curso de Redes Neuronales Convolucionales

Resumen

Transformar imágenes en tensores es un paso clave al trabajar con redes neuronales usando PyTorch. Este proceso permite a nuestros modelos comprender y procesar adecuadamente la información contenida en dichas imágenes, preparando los datos para una correcta implementación en GPU y aprovechando así todo su potencial.

¿Por qué necesitamos convertir imágenes a tensores?

Las redes neuronales no manejan directamente imágenes tradicionales, por lo que es necesario realizar transformaciones. La conversión de imágenes a tensores permite hacer que estos datos sean comprensibles para la red neuronal, adaptándolos al formato que PyTorch necesita para optimizar su manejo.

¿Qué herramientas necesitaremos para transformarlas?

Para realizar la conversión y preparación de nuestros datos, es importante instalar y utilizar las siguientes herramientas:

PyTorch: Framework para desarrollar y entrenar redes neuronales que aprovecha la capacidad computacional de la GPU.
NumPy: Librería útil para operaciones numéricas y manipulación de matrices.
Matplotlib: Herramienta de visualización que facilitará verificar los resultados de las transformaciones.

¿Cómo habilitamos la GPU en PyTorch?

Al trabajar en entornos con GPUs disponibles, necesitamos activar CUDA para aprovechar su capacidad de procesamiento paralelo. Ejecutando un pequeño fragmento en nuestro notebook, seleccionamos adecuadamente el dispositivo y garantizamos una mejora en el rendimiento:

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

Este comando elegirá automáticamente si está disponible la GPU o, en caso contrario, pasará a CPU, agilizando nuestra evaluación o entrenamiento del modelo.

¿Qué transformaciones básicas aplicamos habitualmente?

Las transformaciones más comunes al trabajar con imágenes en PyTorch son:

Conversión de imágenes a tensores: Adaptando nuestras imágenes para que sean compatibles con la entrada del modelo.
Normalización: Ajustando cada imagen para que mantenga una escala homogénea en las intensidades de color utilizando media y desviación estándar.

Estas son consideradas buenas prácticas recomendadas ampliamente para mejorar los rendimientos generales del modelo.

¿Cómo se realiza efectivamente esta transformación?

Luego de definir las técnicas mencionadas, continuamos cargando nuestro dataset. Para estructurar esto claramente, utilizamos estos sencillos pasos:

Ubicar el directorio: Indicar exactamente la ubicación de las imágenes, utilizando una ruta física si están almacenadas localmente o mediante Google Drive.
Aplicar transformaciones: Indicamos que para cada imagen se realizarán las transformaciones que hemos definido previamente (conversión y normalización).

¿Qué consideraciones técnicas sobre el hardware son importantes?

Existen parámetros esenciales que hay que ajustar según el hardware que utilices:

Batch Size: Indica cuántas imágenes se procesan al mismo tiempo en el modelado. Con GPU T4 se recomienda iniciar con un Batch Size de 4.
Shuffle: Distribuye aleatoriamente las imágenes en cada iteración, garantizando que el modelo no desarrolle sesgos.
Not Work: Determina cómo se cargan los archivos y acelera el proceso de transferencia y carga, siendo recomendable iniciar con valores como Not Work 2.

¿Cómo verificar que todo salió bien?

Es aconsejable verificar visualmente la carga correcta de las imágenes con una función sencilla. Esto no es más que un control interno rápido que permite asegurarnos que cada imagen corresponde al dataset y la clase asignada es correcta.

Además, podemos confirmar visualmente las dimensiones de las imágenes, generalmente establecidas alrededor de 224 x 224 píxeles, e identificar claramente las clases (por ejemplo, normal y neumonía).

¿Has tenido alguna dificultad al convertir imágenes a tensores o tienes algún consejo adicional basado en tu experiencia con PyTorch? ¡Comparte en los comentarios!