Data: train, validation, test

Clase 18 de 29 • Curso de Fundamentos de Redes Neuronales con Python y Keras

Contenido del curso

Fundamentos en la arquitectura de redes neuronales

Redes neuronales con Python

Manejo de redes neuronales con Keras

Cierre

Resumen

Dividir correctamente los datos es una de las prácticas más importantes en deep learning y machine learning. Comprender la diferencia entre los sets de entrenamiento, validación y test marca la diferencia entre un modelo confiable y uno que solo aparenta funcionar bien. A continuación se explica por qué tres conjuntos son mejor que dos y cómo aplicar esta división de forma ética y efectiva.

¿Por qué no basta con dividir los datos en dos partes?

En ejemplos anteriores del curso, los datos se dividían únicamente en entrenamiento y test [0:22]. Se usaba una parte para que el algoritmo aprendiera a generalizar la información y la otra para medir qué tan certeras eran las predicciones. Sin embargo, en la práctica profesional de deep learning esto no es suficiente.

La recomendación es trabajar con tres conjuntos de datos [0:41]:

Entrenamiento (training set): el algoritmo aprende a generalizar patrones a partir de estos datos.
Validación (validation set): permite evaluar el desempeño del modelo mientras se ajustan hiperparámetros.
Test (test set): se utiliza exclusivamente al final para medir el resultado real del modelo.

¿Para qué sirve el set de validación?

El set de validación cumple un rol intermedio que resulta clave [0:53]. Después de entrenar el modelo, se prueban las predicciones contra este conjunto. Si los resultados no son satisfactorios, se pueden modificar los hiperparámetros de la red neuronal: el learning rate, el número de iteraciones (epochs), la arquitectura, entre otros. Todo ese proceso de ajuste fino se realiza únicamente con la data de validación, nunca con la de test.

Este flujo iterativo —entrenar, validar, ajustar— permite afinar el modelo de forma controlada antes de la evaluación final.

¿Por qué es ético reservar el set de test?

Aquí entra un aspecto fundamental: la ética en la evaluación de modelos [1:21]. El test set debe contener datos que el modelo jamás haya visto durante el entrenamiento ni durante la validación. Si se usa la misma información para ajustar y para evaluar, los resultados se inflan artificialmente y no reflejan cómo se comportará el modelo en el mundo real.

Evaluar con datos completamente nuevos genera resultados más certeros y cercanos a la realidad [1:33].
Mezclar los conjuntos compromete la confiabilidad del accuracy o cualquier otra métrica utilizada.

¿Cómo se aplica esta división en la práctica?

El flujo de trabajo queda definido de forma clara [1:38]:

Con la data de train, se entrena el modelo.
Con la data de validation, se valida la efectividad de las predicciones y se modifican los hiperparámetros.
Con la data de test, se evalúa el resultado final: el accuracy o la métrica elegida.

Esta metodología de tres conjuntos será la base para los ejercicios siguientes del curso, comenzando con un problema de clasificación binaria [1:55]. Adoptar esta buena práctica desde el inicio asegura que cada modelo construido tenga una evaluación honesta y reproducible.

¿Ya aplicas esta división en tus proyectos o solías trabajar solo con entrenamiento y test? Comparte tu experiencia en los comentarios.

Comentarios

Diego Cesar Lerma Torres

student•

Racismo por IA: Como dijo el profesor anteriormente, han existido diversos dilemas éticos a lo largo de la historia reciente en los que se describe cómo la Inteligencia Artificial puede tener y ha tenido diversos sesgos que pueden convertir a sus resultados en lo que en un humano pasarían por ser racistas o discriminatorios de alguna forma.

El problema es que estos sesgos, al no poder evaluar detalladamente los ingenieros de software el funcionamiento interno de estos modelos de redes neuronales, no pueden corregirse y pasan desapercibidos.

Un ejemplo:

En un banco, se solicita a un ingeniero de software que haga un modelo que prediga mediante deep learning qué tan probable es recibir beneficios en el banco de otorgar un préstamo a una persona.
Este algoritmo tomaría en cuenta el nivel socioeconómico históricamente inferior de las personas afroamericanas y africanas y decide que tener esta procedencia o raza es una variable de peso que descarta (o hace menos probable) que a esa persona se le otorgue un préstamo.

Esto es un problema, porque el algoritmo no se equivocó, los datos en los que se fundamenta son históricamente reales, sin embargo, es injusto que el banco aplique sistemáticamente esta postura puesto que ello perpetuará esta condición de pobreza o nivel socioeconómico medio-bajo en estas personas (al no recibir tener préstamos fácilmente, no tendrán tantas alternativas para salvar sus negocios y empresas y tenderán más a la bancarrota, etc.).

Es por eso que se ha pensado en prohibir el uso de estos modelos de funcionamiento de caja negra en la toma de cierto tipo de decisiones que podrían resultar en este tipo de conflictos, además que se continúan buscando mecanismos efectivos que puedan tomar en cuenta y corregir este tipo de dilemas éticos.

Luis Rogelio Reyes Hernandez

student•

Es cierto esto es un tema de suma importancia recomiendo mucho el libro “Armas de destrucción Matematica” de Cathy O’neil , en el libro ella cuenta historias reales donde aplicar modelos de predicción e Inteligencia Artificial hicieron más daño a la sociedad que cualquier beneficio.

Juan R. Vergara M.

student•

Los modelos son cada vez más avanzados pero siguen acarreando problemas de sesgo.

Cesar Augusto Morales Godoy

student•

Train, Validation and Test set

Jorge Andrés Robledo Ariza

student•

Una pregunta ¿Para conseguir mejores resultados en Machine Learning debería hacerse la división de los datos en train, test y validación o solo aplica cuando trabajamos con Redes Neuronales?

Alarcon7a

student•

siempre es responsable y etico dividir tus sets de datos

Jhon Freddy Tavera Blandon

student•

Jorge !Claro que si¡ La división de los datos en estos tres conjuntos ayuda a garantizar que el modelo generalice bien a datos no vistos y no se ajuste demasiado a los datos de entrenamiento. Es una práctica común realizar la división de datos de manera estratificada, especialmente si tienes clases desequilibradas en tu conjunto de datos.

Puedes realizar la división de datos utilizando funciones proporcionadas por bibliotecas como Scikit-Learn o TensorFlow/Keras, dependiendo de tus necesidades y preferencias.

Carlos Andres Betancourt Perez

student•

Para resumir: los datos de entrenamiento son para alimentar el modelo y comenzar a entrenarlo (feedForward)

los datos de validación me permiten validar si mi modelo es bueno y poder cambiar de forma mas rápida los parámetros o estructura del modelo (numero de capas, tipos de capa, función de activación, numero de neuronas por capa, etc)

con los datos de prueba medimos la precisión y efectividad del modelo, y obtenemos le resultado final

Jhon Freddy Tavera Blandon

student•

Conjunto de Entrenamiento (Train Set):

Este conjunto se utiliza para entrenar el modelo. Los parámetros del modelo se ajustan y optimizan utilizando estos datos. Es la parte más grande del conjunto de datos.

Conjunto de Validación (Validation Set):

Después de cada época de entrenamiento, se utiliza el conjunto de validación para evaluar el rendimiento del modelo. Puede ayudar a ajustar hiperparámetros y prevenir el sobreajuste (overfitting). Este conjunto se utiliza para tomar decisiones sobre la configuración del modelo.

Conjunto de Prueba (Test Set):

Una vez que el modelo ha sido entrenado y ajustado con los conjuntos de entrenamiento y validación, se utiliza el conjunto de prueba para evaluar el rendimiento final del modelo. Este conjunto es crucial para obtener una estimación no sesgada del rendimiento del modelo en datos no vistos.

Rodrigo Ramos Xochiteotzin

student•

¿cuál es la mejor forma de proceder cuando tienes samples de tu dataset desbalanceados?

Alarcon7a

student•

valancear el dataset haciendo downsampling o upsampling, aunque hay algunas arquitectuas a las cuales no les afecta tanto el desbalanceo

Noe Adrián Acuña Prado

student•

dividir el conjunto de datos en:

entrenamiento,
validación
test

Solo se prueba el modelo con datos que jamás se hayan visto.

Mario Alexander Vargas Celis

student•

En el contexto de la construcción y entrenamiento de modelos de aprendizaje automático (machine learning), los conjuntos de **datos de entrenamiento**, **validación** y **prueba** juegan un papel fundamental en la evaluación y optimización del modelo. Cada uno de estos conjuntos de datos tiene un propósito específico:

### 1. **Conjunto de entrenamiento (Train Set)**:

- **Propósito**: Este es el conjunto de datos principal que el modelo utiliza para aprender. Durante el proceso de entrenamiento, el modelo ajusta sus parámetros internos (pesos, en el caso de redes neuronales) basándose en los datos del conjunto de entrenamiento.

- **Descripción**: Se alimentan los datos de entrada junto con sus correspondientes etiquetas o valores esperados (dependiendo si es clasificación o regresión), y el modelo aprende a encontrar patrones para predecir esos resultados.

- **Uso**: El modelo realiza múltiples pasadas sobre este conjunto (epochs) y ajusta los pesos usando métodos como **descenso de gradiente** o **backpropagation**.

- **Problemas si se usa mal**: Si solo se evalúa el modelo en los datos de entrenamiento, es muy probable que se ajuste demasiado a estos datos (overfitting), lo que significa que el modelo tendrá un desempeño excelente en estos datos, pero fallará al generalizar a datos que no ha visto antes.

### 2. **Conjunto de validación (Validation Set)**:

- **Propósito**: El conjunto de validación se utiliza para ajustar los **hiperparámetros** del modelo, que son parámetros externos al proceso de entrenamiento que no se aprenden directamente (como la tasa de aprendizaje, el número de capas, el número de neuronas, etc.).

- **Descripción**: Este conjunto no se utiliza para entrenar el modelo, sino para verificar el rendimiento del modelo en cada paso del entrenamiento (normalmente después de cada época). Esto ayuda a decidir cuándo detener el entrenamiento y ajustar los hiperparámetros.

- **Uso**: El modelo se entrena en los datos de entrenamiento y, después de cada epoch, se evalúa en los datos de validación. Si el error en el conjunto de validación empieza a aumentar mientras que el error en los datos de entrenamiento sigue disminuyendo, se puede concluir que el modelo está sobreajustando (overfitting).

- **Problemas si se usa mal**: Si se ajustan demasiados hiperparámetros usando este conjunto, se podría sobreajustar el modelo a los datos de validación, lo que lleva a un modelo que funciona bien en la validación, pero no en los datos que nunca ha visto (conjunto de prueba).

### 3. **Conjunto de prueba (Test Set)**:

- **Propósito**: El conjunto de prueba es utilizado **exclusivamente al final** del entrenamiento del modelo para evaluar su capacidad de generalización. Es decir, se utiliza para ver cómo de bien se desempeña el modelo con datos que nunca ha visto antes.

- **Descripción**: Este conjunto se mantiene aislado durante todo el proceso de entrenamiento y ajuste de hiperparámetros, y se utiliza solo para evaluar el rendimiento final del modelo. Proporciona una métrica objetiva de cómo el modelo generaliza a nuevos datos.

- **Uso**: Una vez que se ha entrenado y ajustado el modelo usando el conjunto de entrenamiento y el conjunto de validación, el conjunto de prueba se usa para hacer la evaluación final.

- **Problemas si se usa mal**: Si el conjunto de prueba se usa durante el entrenamiento o la validación, se pierde la capacidad de obtener una medida real de la capacidad del modelo para generalizar.

### Resumen del Flujo:

1. **Entrenamiento**:

- El modelo aprende a ajustar sus parámetros usando el **conjunto de entrenamiento**.

2. **Validación**:

- El modelo se evalúa periódicamente en el **conjunto de validación** para ajustar los hiperparámetros y evitar el overfitting.

3. **Prueba**:

- Después de que el modelo ha sido entrenado y ajustado, se evalúa por última vez en el **conjunto de prueba** para medir su rendimiento real en datos no vistos.

### Ejemplo en Python:

Imagina que tienes un conjunto de datos que debes dividir en los tres subconjuntos. En Python, usando scikit-learn, podrías hacer algo como esto:


from sklearn.model\_selection import train\_test\_split



\# Supongamos que X son tus características (features) y y son las etiquetas (labels)

X\_train, X\_temp, y\_train, y\_temp = train\_test\_split(X, y, test\_size=0.4, random\_state=42)  # 60% entrenamiento

X\_val, X\_test, y\_val, y\_test = train\_test\_split(X\_temp, y\_temp, test\_size=0.5, random\_state=42)  # 20% validación, 20% prueba



\# Ahora tienes 60% de datos para entrenamiento, 20% para validación y 20% para prueba

### Visualización:

- **Entrenamiento**: 60% de los datos para ajustar los pesos del modelo.

- **Validación**: 20% de los datos para ajustar los hiperparámetros y evitar el overfitting.

- **Prueba**: 20% de los datos que no han sido usados en todo el proceso para evaluar la capacidad de generalización del modelo.

### Conclusión:

- El **conjunto de entrenamiento** es donde el modelo aprende.

- El **conjunto de validación** te ayuda a ajustar y evaluar el modelo durante el entrenamiento.

- El **conjunto de prueba** proporciona una evaluación final y objetiva del rendimiento del modelo en datos nuevos.

Este proceso asegura que tu modelo no solo sea bueno en los datos que ha visto, sino que también pueda **generalizar bien** a datos nuevos.

from sklearn.model\_selection import train\_test\_split

\# Supongamos que X son tus características (features) y y son las etiquetas (labels)

X\_train, X\_temp, y\_train, y\_temp = train\_test\_split(X, y, test\_size=0.4, random\_state=42)  # 60% entrenamiento

X\_val, X\_test, y\_val, y\_test = train\_test\_split(X\_temp, y\_temp, test\_size=0.5, random\_state=42)  # 20% validación, 20% prueba

\# Ahora tienes 60% de datos para entrenamiento, 20% para validación y 20% para prueba

Data: train, validation, test

Fundamentos en la arquitectura de redes neuronales

La importancia de las redes neuronales en la actualidad

¿Que herramientas usaremos para redes neuronales?

¿Qué es deep learning?

Tu primera red neuronal con Keras

Entrenando el modelo de tu primera red neuronal

La neurona: una pequeña y poderosa herramienta

Arquitectura de una red neuronal

Funciones de activación

Funcion de pérdida (loss function)

Descenso del gradiente

Backpropagation

Playground - Tensorflow

Redes neuronales con Python

Dimensiones, tensores y reshape

Creando nuestra red neuronal usando numpy y matemáticas

Entrenamiento forward de la red neuronal

Aplicando backpropagation y descenso del gradiente

Entrenamiento y análisis de resultados de tu red neuronal

Manejo de redes neuronales con Keras

Data: train, validation, test

Resolviendo un problema de clasificacion binaria

Entrenamiento del modelo de clasificación binaria

Regularización - Dropout

Reduciendo el overfitting

Resolviendo un problema de clasificación múltiple

Entrenamiento del modelo de clasificación múltiple

Resolviendo un problema de regresión

Entrenamiento del modelo de regresión

Análisis de resultados del modelo de regresión

Cierre

¿Qué sigue por aprender de redes neuronales?

Comparte tu proyecto de tu primera red neuronal y certifícate