Contenido del curso

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística aplicada a ciencia de datos
01:28 min

Qué es la validación cruzada en ML

Resumen

La validación cruzada es la técnica que aplicas al final de tu análisis para demostrar que tus datos de prueba son independientes de tus datos de entrenamiento. Si trabajas con modelos de machine learning, esta práctica te ayuda a confirmar que tu predicción se ajusta al modelo de origen. Es relevante para quienes están construyendo modelos predictivos y quieren validar su precisión.

Por qué necesitas validar tu modelo con datos independientes

Cuando entrenas un modelo, corres el riesgo de que aprenda demasiado bien tus datos y falle al enfrentarse a información nueva. Por eso divides tu población en dos grupos: uno de entrenamiento, al que sigues ajustando con modelos estadísticos, y otro de prueba, que dejas intacto.

La lógica es sencilla. Uno sirve para enseñarle al modelo cómo comportarse, y el otro funciona como examen final. Si tu modelo responde bien frente a datos que nunca vio, entonces tu predicción es confiable.

¿Para qué sirve la validación cruzada? Sirve para comprobar que tu modelo predice bien sobre datos que no usó para entrenar, evitando que se ajuste solo a un subconjunto específico.

Cómo funciona la división en K grupos

El primer paso es dividir tus datos de forma aleatoria en K grupos del mismo tamaño. Ese número K lo eliges tú: puede ser 10, 15, 20 o cualquier valor que tenga sentido para tu volumen de datos.

Una vez tienes los subgrupos, separas uno de ellos. De ahí viene el nombre K-1: usas todos los grupos menos uno para entrenar, y el que apartaste se convierte en tu set de validación. Ese grupo aislado te dice si el modelo está funcionando o no.

Qué hace el grupo apartado dentro del proceso

Ese subgrupo es tu juez imparcial. Mientras los demás entrenan al modelo, este lo evalúa. Y aquí viene lo interesante: el procedimiento no se hace una sola vez.

Por qué se llama validación cruzada o cross validation

Se llama así porque repites el procedimiento varias veces, rotando cuál es el grupo que valida y cuáles entrenan. Cada iteración cruza la responsabilidad entre los subgrupos.

Repites el ciclo N veces o K veces hasta llegar al resultado ideal, donde tu población de entrenamiento y la de prueba se ajustan lo máximo posible. En cada iteración:

Eliges un subgrupo distinto como set de validación.
Entrenas el modelo con los K-1 restantes.
Mides qué tan bien predice sobre el grupo apartado.
Comparas resultados entre iteraciones para validar consistencia.

Al final tienes una visión mucho más robusta del desempeño de tu modelo, porque no dependiste de una sola partición afortunada o desafortunada.

¿Qué significa K-1 en validación cruzada? Es la cantidad de subgrupos que usas para entrenar el modelo en cada iteración, dejando un grupo fuera para validar.

Qué buscas al terminar todas las iteraciones

El objetivo es que tu población de entrenamiento y la de prueba se comporten de forma similar. Si en cada iteración los resultados son consistentes, tu modelo generaliza bien. Si varían demasiado, hay un problema de ajuste que debes revisar.

Visualmente, lo que ocurre es que de una selección total de la población sacas una pequeña muestra, avanzas a la iteración uno, luego a la dos, a la tres, y así hasta el número total que hayas definido. Cada paso suma evidencia sobre la calidad de tu modelo final.

¿Cuántas iteraciones K son recomendables? Depende del tamaño de tus datos, pero valores entre 10 y 20 grupos son comunes en la práctica.

En la siguiente clase vas a aprender cómo automatizar esta validación cruzada usando Python. ¿Cuántos grupos K usarías tú según el tamaño de tus datos? Cuéntame en los comentarios.

Comentarios

Antonio Demarco Bonino

student•

Estos cursos se vuelven adictivos. La matemática es una verdadera MARAVILLA.

Julián Cárdenas

student•

Así es, totalmente de acuerdo!

Joel Orellana

student•

Al fin entendí el cross-validation de scikit-learn :3

Benjamín Cortés

student•

Conceptos que son importantes

Overfitting & Underfitting Hacen referencia a que tan bueno es nuestro modelo para predecir datos desconocidos, qué tan bien generaliza los datos fuera de lo entrenado

Cross validation Es la técnica que utilizamos para separar nuestro dataset en, set de entrenamiento y set de testeo que van a "simular" datos extraños, o posibles datos que va a capturar el modelo a la hora de llevarlo a producción

Proceso 1. División de los datos de forma aleatoria en k grupos de un tamaño similar -- 2. Se usan k-1 grupos para entrenar el modelo y uno de ellos para validarlo -- 3. Se repite el proceso k veces usando grupos ≠

Extra, se pueden usar diferentes modelos para determinar que tan performantes es nuestro modelo como:

Logistic Regression
Support Vector Machines (SVM)
K nearest neighbors (KNN)

-- Pueden ver estos videos Statquest | Codigo maquinita

Julián Cárdenas

student•

Que buen diccionario de conceptos, gracias por el aporte compañero, de esta manera se hace más preciso el entendimiento de las clases!

frank hurtado

student•

hay diversas formas de usas CV aqui un par k-Fold Cross-Validation OOB Cross-Validation

Jhon Freddy Tavera Blandon

student•

La validación cruzada es una técnica utilizada para evaluar el rendimiento de un modelo de aprendizaje automático. Consiste en dividir los datos de entrenamiento en múltiples subconjuntos, llamados "folds", y utilizar uno de ellos como conjunto de validación mientras se entrena el modelo con los demás. Este proceso se repite varias veces, cambiando el conjunto de validación cada vez, de manera que se obtiene una estimación del rendimiento del modelo en datos no vistos.

Existen varios tipos de validación cruzada, entre ellos:

Validación cruzada K-fold: los datos se dividen en K subconjuntos y se entrena el modelo K veces, utilizando un subconjunto diferente como conjunto de validación cada vez.
Validación cruzada leave-p-out: se entrena el modelo varias veces, cada vez utilizando un subconjunto diferente de tamaño p como conjunto de validación.
Validación cruzada Monte Carlo: se entrena el modelo varias veces con subconjuntos de datos diferentes generados aleatoriamente.

La ventaja de utilizar la validación cruzada es que permite obtener una estimación más precisa del rendimiento del modelo en datos no vistos, ya que se utilizan diferentes subconjuntos de datos como conjunto de validación. En Python se puede utilizar la librería "Scikit-learn" para implementar distintos tipos de validación cruzada.

Fabian Stevens Varon Valencia

student•

Validación Cruzada

Es la técnica utilizada para evaluar los resultados de un análisis estadístico y garantizar que son independientes de la partición entre datos de entrenamiento y prueba.

Procedimiento:

Hay que dividir los datos de forma aleatoria en K grupos de tamaño similar.
Usar K-1 grupos para entrenar el modelo
Tomar uno de estos grupos para validar el modelo
Repetir K veces usando grupos distintos en cada iteración

jhon velasque

student•

La validación cruzada es como hacer un examen para ver cuán bien funciona un modelo de aprendizaje automático. Imagina que tienes una tarea para clasificar frutas en manzanas y peras. Para hacer la validación cruzada, primero separas tus frutas en grupos. Luego, utilizas un grupo para enseñarle al modelo cómo identificar manzanas y peras, y le pides al modelo que clasifique las frutas en el otro grupo. Repites este proceso varias veces, cada vez con diferentes grupos. Al final, miras los resultados y obtienes una mejor idea de cuán bien clasifica el modelo las frutas en general.

Juan José Mamani Tarqui

student•

VALIDACION CRUZADA

Ver otras versiones

volume_up

La validación cruzada es una técnica estadística que se utiliza para evaluar el rendimiento de un modelo estadístico. La validación cruzada se basa en la partición de los datos disponibles en dos conjuntos: un conjunto de entrenamiento y un conjunto de prueba. El modelo se entrena en el conjunto de entrenamiento y se evalúa en el conjunto de prueba.

La validación cruzada se utiliza para evitar el sobreajuste, que es la situación en la que un modelo se ajusta demasiado a los datos de entrenamiento y no es capaz de generalizar bien a nuevos datos. La validación cruzada ayuda a garantizar que el modelo se ajuste a los datos de entrenamiento sin perder la capacidad de generalizar.

Existen diferentes tipos de validación cruzada, cada uno con sus propias ventajas y desventajas. Algunos de los tipos de validación cruzada más comunes son:

Validación cruzada simple: Los datos se dividen en dos conjuntos, un conjunto de entrenamiento y un conjunto de prueba. El modelo se entrena en el conjunto de entrenamiento y se evalúa en el conjunto de prueba.
Validación cruzada k-ple: Los datos se dividen en k conjuntos, cada uno de los cuales se utiliza como conjunto de prueba una vez. El modelo se entrena en los k-1 conjuntos restantes. La media de las puntuaciones de los conjuntos de prueba se utiliza para evaluar el rendimiento del modelo.
Validación cruzada por holdout: Los datos se dividen en dos conjuntos, un conjunto de entrenamiento y un conjunto de prueba. El conjunto de prueba se mantiene reservado hasta el final del proceso de entrenamiento. El modelo se entrena en el conjunto de entrenamiento y luego se evalúa en el conjunto de prueba.

Ventajas de la validación cruzada

La validación cruzada ofrece varias ventajas sobre otros métodos de evaluación del rendimiento de los modelos estadísticos, como:

Reduce el riesgo de sobreajuste: La validación cruzada ayuda a garantizar que el modelo se ajuste a los datos de entrenamiento sin perder la capacidad de generalizar.
Es más precisa: La validación cruzada utiliza todos los datos disponibles para evaluar el rendimiento del modelo.
Es más flexible: La validación cruzada se puede utilizar con cualquier tipo de modelo estadístico.

Desventajas de la validación cruzada

La validación cruzada también tiene algunas desventajas, como:

Requiere más datos: La validación cruzada requiere que los datos se dividan en dos conjuntos, lo que significa que se utiliza menos datos para entrenar el modelo.
Es más compleja: La validación cruzada es un poco más compleja de implementar que otros métodos de evaluación del rendimiento de los modelos estadísticos.

En general, la validación cruzada es una técnica valiosa que se puede utilizar para evaluar el rendimiento de los modelos estadísticos. La validación cruzada ayuda a garantizar que los modelos se ajusten a los datos de entrenamiento sin perder la capacidad de generalizar.

Gabriel Obregón

student•

📌Validación Cruzada en IA

🔎 ¿Qué es?

➡️ Una técnica para evaluar modelos.

➡️ Garantiza que prueba ≠ entrenamiento.

➡️ Asegura una medición real del rendimiento.

⚙️ ¿Cómo se aplica?

🔹 Paso 1: División en K 👉 Partir los datos en K grupos (10, 15, 20…). 👉 Todos con tamaño similar.

🔹 Paso 2: Entrenamiento / Prueba 👉 Usar K-1 grupos → entrenar. 👉 Usar 1 grupo → validar.

🔹 Paso 3: Repetición 👉 Cambiar el grupo de validación en cada ronda. 👉 Cada grupo participa en entrenamiento y prueba.

🔹 Paso 4: Resultados 👉 Comparar todas las validaciones. 👉 Elegir el modelo con mejor ajuste.

🌟 Beneficios

✨ Independencia → prueba sin contaminación de datos.

✨ Optimización → mejora con múltiples rondas.

✨ Evaluación confiable → menos sesgo y mejor rendimiento medido.

🔄 ¿Por qué repetirlo?

🔁 Muestra cómo reacciona el modelo en distintos escenarios.

🔁 Aumenta adaptabilidad + precisión.

🔁 Da más seguridad y robustez a los resultados.

Roberto Fernández Vega

student•

El tamaño de los grupos en validación cruzada, así como la cantidad de grupos (K), depende del tamaño del conjunto de datos y el tipo de modelo que se esté utilizando. En general, un K comúnmente usado es 5 o 10, ya que proporciona un buen balance entre tiempo de computación y generalización del modelo. Si tienes un dataset pequeño, podrías optar por un K mayor, mientras que para datasets grandes, un K menor puede ser suficiente. La idea es asegurar que cada grupo represente bien la variabilidad de los datos.

Daiana Davidson

student•

¿El curso es tan malo que nadie llegó hasta acá?

Mario Alexander Vargas Celis

student•

La validación cruzada (cross-validation) es una técnica fundamental en el entrenamiento y evaluación de modelos de inteligencia artificial y machine learning. Su objetivo principal es evaluar el rendimiento del modelo de forma más robusta y evitar el sobreajuste (overfitting).

🔍 ¿Qué es la Validación Cruzada?

Es un proceso que divide el conjunto de datos en múltiples partes o folds para entrenar y evaluar el modelo varias veces, con distintos subconjuntos.

📊 Tipos de Validación Cruzada

Hold-Out (División simple) Se separa una parte para entrenamiento y otra para prueba. Ejemplo: 80% entrenamiento, 20% prueba.
K-Fold Cross-Validation
- Se divide el conjunto de datos en K partes iguales.
- Se entrena el modelo K veces, usando un fold distinto como conjunto de validación en cada iteración.
- Al final, se promedian los resultados.
Stratified K-Fold Igual que K-Fold, pero manteniendo la proporción de clases (útil para clasificación desbalanceada).
Leave-One-Out (LOOCV) Cada fold contiene solo una muestra para validación, y el resto para entrenamiento.

🧠 ¿Por qué es útil?

Proporciona una evaluación más estable y confiable.
Evita el sobreajuste, ya que el modelo es evaluado múltiples veces.
Mejora la generalización del modelo al entrenarse con múltiples subconjuntos del conjunto de datos.

🛠️ Ejemplo en Python (K-Fold)

from sklearn.model_selection import cross_val_score, KFold from sklearn.linear_model import LogisticRegression from sklearn.datasets import load_iris

# Cargar datos X, y = load_iris(return_X_y=True)

# Definir modelo model = LogisticRegression(max_iter=200)

# Validación cruzada con 5 folds kfold = KFold(n_splits=5, shuffle=True, random_state=1) results = cross_val_score(model, X, y, cv=kfold)

print("Precisión media:", results.mean())

Iván Roberto Rivas Celeita

student•

EL curso de Juan Gabriel Gomila en Udemy sintetiza todos estos conceptos. Por supuesto, que la ruta acá busca desarrollar paso a paso la práctica

Fundamentos de estadística inferencial

Estadística descriptiva vs inferencial en datos

Componentes principales de la estadística

Qué es la distribución normal y por qué importa

Muestreo aleatorio, sistemático y teorema central

Muestreo aleatorio y sistemático en Python

Muestreo estratificado con Python y pandas

Estadísticos y cálculos

Media muestral explicada con ejemplos reales

Varianza poblacional vs muestral en estadística

Varianza y desviación estándar en Python

Qué son los intervalos de confianza

Cálculo de intervalos de confianza con tabla Z

Intervalos de confianza en Python con SciPy

Pruebas de hipótesis y validación

Qué son las pruebas de hipótesis

Pruebas de hipótesis: Student, Pearson y ANOVA

Errores tipo I y II en pruebas de hipótesis

Prueba t de Student en Python con SciPy

ANOVA y Pearson en Python con iris

Bootstrapping para muestras pequeñas en Python

Bootstrapping en Python para evitar overfitting