Carga y Procesamiento de Bases de Datos en Inteligencia Artificial

Clase 3 de 28Curso Profesional de Redes Neuronales con TensorFlow

Resumen

A través de las siguientes sesiones interiorizaremos en las data pipelines, donde aprenderemos sobre:

  • Carga de bases de datos en diferentes formatos
  • Preprocesamiento de datos (limpieza y optimización)
  • Carga a Tensorflow mediante Keras
  • Manipulación con Dataset Generators
  • Carga personalizada de datos con TF.data
  • Distribución de la densidad de los datos en conjuntos de Train/Validation/Test

Ciclo de vida pipeline de datos

Cuál es la importancia de los datos

Reconocer la relevancia de los datos se debe a que estos son el motor de nuestros modelos de inteligencia artificial; es fundamental dedicar esfuerzos a la generación y limpieza de datos.

La calidad de los datos será directamente proporcional al desempeño del modelo, si los datos que entran no son tan buenos, entonces el modelo nunca será lo suficientemente efectivo; esto es el concepto GIGO (Garbage In, Garbage Out): Si alimentas tus modelos con basura, entonces saldrá basura.

Principio GIGO

El preprocesamiento de los datos es tan importante como su calidad, por lo que debes limpiar aquellos datos corruptos, incompletos o irrelevantes para el propósito del modelo.

Al final de todo el proceso de carga y limpieza tendremos un dataset compuesto de imágenes (o ejemplos) y etiquetas que representarán la clase a la que pertenecen.

Contribución creada por Sebastián Franco Gómez.