Carga y preparación de datasets de imágenes en Google Colab

Clase 8 de 15Curso de Redes Neuronales Convolucionales

Resumen

¿Te interesa trabajar con datasets de imágenes para entrenar modelos de machine learning? Vamos a explicarte paso a paso cómo cargar y preparar tu dataset en Google Colab. Aquí encontrarás instrucciones claras para configurar el entorno, conectar una GPU y gestionar la carga de datos desde tu computadora o Google Drive.

¿Por qué es necesario conectar una GPU y cómo hacerlo?

Al trabajar con muchas imágenes, los procesos computacionales pueden ser costosos en recursos. Por eso, es fundamental conectar una GPU para optimizar el rendimiento:

  • Accede al menú superior y elige Editar.
  • Selecciona Configuración del cuaderno.
  • Elige como acelerador de hardware la GPU T4.

Esto permite un procesamiento más eficiente al trabajar con grandes cantidades de datos.

¿De qué forma podemos cargar el dataset en Google Colab?

Existen dos métodos prácticos para cargar tu dataset en Colab:

¿Cómo subir archivos directamente desde tu computadora?

  • Descarga el dataset desde la sección de recursos proporcionados.
  • Arrastra y suelta el archivo comprimido (.zip) directamente en Colab.
  • Una vez cargado, debes descomprimirlo:
  • Descomenta la línea de código disponible en el notebook.
  • Ejecuta dicha línea para convertir el archivo comprimido en una carpeta accesible.

¿Cómo utilizar datasets almacenados en Google Drive?

Si prefieres almacenar tus datos en Google Drive para mayor comodidad:

  • Sube el archivo comprimido (.zip) directamente a tu Google Drive.
  • Abre el archivo mediante los tres puntos y elige 'Abrir con Zip Extractor'.
  • Descomprime el archivo, proceso que puede demorar entre 30 minutos a una hora según tu conexión a internet.
  • Luego, presiona el botón que indica 'Subir al Drive' para guardar la carpeta descomprimida.

Para conectar tu Drive con Colab:

  • Desde Colab, haz clic en el ícono de carpetas y selecciona 'Conectar con Google Drive'.
  • Autoriza y continúa.
  • Actualiza la sección si es necesario para visualizar tu carpeta descomprimida en Colab.

¿Cuál es la estructura sugerida del dataset?

La estructura que proponemos facilita el trabajo con modelos de clasificación:

  • Una carpeta principal que incluye dos subcarpetas: 'entrenamiento' y 'validación'.
  • Cada subcarpeta contiene dos carpetas adicionales:
    • 'normal' para personas saludables.
    • 'neumonía' para casos positivos.

Respetar esta estructura simplificará el manejo y el entrenamiento de modelos posteriores.

Esperamos que este procedimiento sea claro y útil. ¿Has tenido alguna dificultad al conectar tu GPU o al cargar tus datos? Déjanos tus comentarios o dudas para poder ayudarte mejor.