Qué es la validación cruzada en ML

Resumen

La validación cruzada es la técnica que aplicas al final de tu análisis para demostrar que tus datos de prueba son independientes de tus datos de entrenamiento. Si trabajas con modelos de machine learning, esta práctica te ayuda a confirmar que tu predicción se ajusta al modelo de origen. Es relevante para quienes están construyendo modelos predictivos y quieren validar su precisión.

Por qué necesitas validar tu modelo con datos independientes

Cuando entrenas un modelo, corres el riesgo de que aprenda demasiado bien tus datos y falle al enfrentarse a información nueva. Por eso divides tu población en dos grupos: uno de entrenamiento, al que sigues ajustando con modelos estadísticos, y otro de prueba, que dejas intacto.

La lógica es sencilla. Uno sirve para enseñarle al modelo cómo comportarse, y el otro funciona como examen final. Si tu modelo responde bien frente a datos que nunca vio, entonces tu predicción es confiable.

¿Para qué sirve la validación cruzada? Sirve para comprobar que tu modelo predice bien sobre datos que no usó para entrenar, evitando que se ajuste solo a un subconjunto específico.

Cómo funciona la división en K grupos

El primer paso es dividir tus datos de forma aleatoria en K grupos del mismo tamaño. Ese número K lo eliges tú: puede ser 10, 15, 20 o cualquier valor que tenga sentido para tu volumen de datos.

Una vez tienes los subgrupos, separas uno de ellos. De ahí viene el nombre K-1: usas todos los grupos menos uno para entrenar, y el que apartaste se convierte en tu set de validación. Ese grupo aislado te dice si el modelo está funcionando o no.

Qué hace el grupo apartado dentro del proceso

Ese subgrupo es tu juez imparcial. Mientras los demás entrenan al modelo, este lo evalúa. Y aquí viene lo interesante: el procedimiento no se hace una sola vez.

Por qué se llama validación cruzada o cross validation

Se llama así porque repites el procedimiento varias veces, rotando cuál es el grupo que valida y cuáles entrenan. Cada iteración cruza la responsabilidad entre los subgrupos.

Repites el ciclo N veces o K veces hasta llegar al resultado ideal, donde tu población de entrenamiento y la de prueba se ajustan lo máximo posible. En cada iteración:

  • Eliges un subgrupo distinto como set de validación.
  • Entrenas el modelo con los K-1 restantes.
  • Mides qué tan bien predice sobre el grupo apartado.
  • Comparas resultados entre iteraciones para validar consistencia.

Al final tienes una visión mucho más robusta del desempeño de tu modelo, porque no dependiste de una sola partición afortunada o desafortunada.

¿Qué significa K-1 en validación cruzada? Es la cantidad de subgrupos que usas para entrenar el modelo en cada iteración, dejando un grupo fuera para validar.

Qué buscas al terminar todas las iteraciones

El objetivo es que tu población de entrenamiento y la de prueba se comporten de forma similar. Si en cada iteración los resultados son consistentes, tu modelo generaliza bien. Si varían demasiado, hay un problema de ajuste que debes revisar.

Visualmente, lo que ocurre es que de una selección total de la población sacas una pequeña muestra, avanzas a la iteración uno, luego a la dos, a la tres, y así hasta el número total que hayas definido. Cada paso suma evidencia sobre la calidad de tu modelo final.

¿Cuántas iteraciones K son recomendables? Depende del tamaño de tus datos, pero valores entre 10 y 20 grupos son comunes en la práctica.

En la siguiente clase vas a aprender cómo automatizar esta validación cruzada usando Python. ¿Cuántos grupos K usarías tú según el tamaño de tus datos? Cuéntame en los comentarios.

      Qué es la validación cruzada en ML