Data: train, validation, test

Clase 18 de 29Curso de Fundamentos de Redes Neuronales con Python y Keras

Contenido del curso

Fundamentos en la arquitectura de redes neuronales

Manejo de redes neuronales con Keras

Resumen

Dividir correctamente los datos es una de las prácticas más importantes en deep learning y machine learning. Comprender la diferencia entre los sets de entrenamiento, validación y test marca la diferencia entre un modelo confiable y uno que solo aparenta funcionar bien. A continuación se explica por qué tres conjuntos son mejor que dos y cómo aplicar esta división de forma ética y efectiva.

¿Por qué no basta con dividir los datos en dos partes?

En ejemplos anteriores del curso, los datos se dividían únicamente en entrenamiento y test [0:22]. Se usaba una parte para que el algoritmo aprendiera a generalizar la información y la otra para medir qué tan certeras eran las predicciones. Sin embargo, en la práctica profesional de deep learning esto no es suficiente.

La recomendación es trabajar con tres conjuntos de datos [0:41]:

  • Entrenamiento (training set): el algoritmo aprende a generalizar patrones a partir de estos datos.
  • Validación (validation set): permite evaluar el desempeño del modelo mientras se ajustan hiperparámetros.
  • Test (test set): se utiliza exclusivamente al final para medir el resultado real del modelo.

¿Para qué sirve el set de validación?

El set de validación cumple un rol intermedio que resulta clave [0:53]. Después de entrenar el modelo, se prueban las predicciones contra este conjunto. Si los resultados no son satisfactorios, se pueden modificar los hiperparámetros de la red neuronal: el learning rate, el número de iteraciones (epochs), la arquitectura, entre otros. Todo ese proceso de ajuste fino se realiza únicamente con la data de validación, nunca con la de test.

Este flujo iterativo —entrenar, validar, ajustar— permite afinar el modelo de forma controlada antes de la evaluación final.

¿Por qué es ético reservar el set de test?

Aquí entra un aspecto fundamental: la ética en la evaluación de modelos [1:21]. El test set debe contener datos que el modelo jamás haya visto durante el entrenamiento ni durante la validación. Si se usa la misma información para ajustar y para evaluar, los resultados se inflan artificialmente y no reflejan cómo se comportará el modelo en el mundo real.

  • Evaluar con datos completamente nuevos genera resultados más certeros y cercanos a la realidad [1:33].
  • Mezclar los conjuntos compromete la confiabilidad del accuracy o cualquier otra métrica utilizada.

¿Cómo se aplica esta división en la práctica?

El flujo de trabajo queda definido de forma clara [1:38]:

  • Con la data de train, se entrena el modelo.
  • Con la data de validation, se valida la efectividad de las predicciones y se modifican los hiperparámetros.
  • Con la data de test, se evalúa el resultado final: el accuracy o la métrica elegida.

Esta metodología de tres conjuntos será la base para los ejercicios siguientes del curso, comenzando con un problema de clasificación binaria [1:55]. Adoptar esta buena práctica desde el inicio asegura que cada modelo construido tenga una evaluación honesta y reproducible.

¿Ya aplicas esta división en tus proyectos o solías trabajar solo con entrenamiento y test? Comparte tu experiencia en los comentarios.