Validación cruzada KFold en Python

Curso de Estadística Inferencial para Data Science e Inteligencia Artificial

Contenido del curso

No sé dónde empezar

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística inferencial aplicada al machine learning
01:28 min

Tomar examen

Validación cruzada KFold en Python

Resumen

La validación cruzada en Python te permite comprobar qué tan preciso es tu modelo de machine learning antes de confiar en sus predicciones. Aquí aprenderás a automatizarla paso a paso usando scikit-learn, KFold y un dataset real de cáncer de pecho descargado desde Kaggle, ideal para quienes ya entienden la teoría y quieren llevarla al código.

¿Qué librerías necesitas para hacer validación cruzada?

Antes de tocar el modelo, prepara el entorno con las herramientas que vas a usar a lo largo del flujo.

En un notebook de Colab, importa lo básico para manipular datos y cargar archivos desde tu equipo local [0:30]:

pandas as pd para manejar la tabla de datos.
numpy as np para operaciones numéricas.
io para leer archivos cargados desde el escritorio.
from google.colab import files para subir el CSV.

El dataset del ejercicio se llama cancerdata.csv y proviene de Kaggle, una plataforma donde científicos de datos compiten con bases de datos públicas o corporativas, a veces con premios económicos de por medio [1:10].

¿Qué es Kaggle? Es una plataforma de competencias de ciencia de datos donde puedes practicar con datasets reales, públicos o compartidos por empresas, y a veces ganar premios.

¿Cómo separar variables numéricas y categóricas?

Una vez cargado el archivo con pd.read_csv y io.BytesIO, revisa los primeros registros con .head() para entender la estructura [2:30].

La tabla incluye un ID, una columna diagnosis con valores M (maligno) o B (benigno), y variables numéricas como radio promedio, textura, perímetro, área, smoothness, compacidad y concavidad. Casi todo es numérico, salvo la clasificación final.

La división se hace por posición de columnas:

X = df.iloc[:, 2:] agrupa todas las variables cuantitativas desde la tercera columna en adelante.
y = df.iloc[:, 1] aísla la variable categórica diagnosis, que es la que queremos predecir.

Al correr y.value_counts() aparecen 357 casos benignos y 202 malignos [3:50]. Esa proporción importa, porque si solo tuvieras una clase, el modelo no tendría con qué aprender a clasificar.

¿Cómo entrenar un árbol de decisión antes de validar?

Con las variables listas, toca dividir los datos y entrenar un primer modelo base.

Desde sklearn.tree importa DecisionTreeClassifier y desde sklearn.model_selection importa train_test_split. Esa función parte el dataset en dos bloques: uno para entrenar y otro que se mantiene intacto para evaluar [4:40].

La división típica queda así:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=4).
Instancias el modelo: modelo = DecisionTreeClassifier().
Ajustas con modelo.fit(X_train, y_train).
Mides con modelo.score(X_test, y_test).

El resultado del score fue de 88.88% de precisión [6:00]. Es un número alto, cercano al 100%, pero viene de una sola partición aleatoria. Y ahí es donde la validación cruzada cambia el juego.

¿Qué hace train_test_split? Divide tu dataset en dos partes: una para entrenar el modelo y otra para probarlo. El parámetro test_size=0.30 reserva el 30% para evaluación.

¿Cómo aplicar KFold para validar el modelo?

KFold es uno de los métodos de validación cruzada más usados porque reparte los datos en k particiones y entrena el modelo varias veces, rotando cuál bloque sirve de prueba.

Desde sklearn.model_selection importa KFold. Luego define el número de particiones, que por convención suele ser 10 folds [7:20]:

modelo = DecisionTreeClassifier().
kfold_validacion = KFold(n_splits=10).

Esto solo prepara el esquema de partición. No devuelve resultados todavía, porque falta aplicarlo sobre el modelo.

¿Qué hace cross_val_score con tus 10 folds?

Ahora importa cross_val_score desde sklearn.model_selection y úsalo para correr el modelo sobre las 10 particiones a la vez:

resultados = cross_val_score(modelo, X, y, cv=kfold_validacion).

Al imprimir resultados aparecen las precisiones individuales de cada fold, con valores de 91%, 94% e incluso 98% [8:40]. Cuando calculas resultados.mean(), el promedio queda en 94%.

Ese promedio es la verdadera medida de confianza: en lugar de depender de una sola partición afortunada, estás evaluando el modelo en 10 escenarios distintos y sacando una métrica estable.

¿Por qué el promedio importa más que un solo score?

Un score aislado puede salir alto por suerte en cómo se repartieron los datos. Con KFold obligas al modelo a demostrar consistencia en múltiples cortes, lo que reduce el sesgo y te da una accuracy mucho más realista.

En este caso, pasar de un 88.88% puntual a un 94% promedio confirma que el árbol de decisión clasifica bien los casos de cáncer benigno y maligno, no por casualidad, sino de forma sostenida.

Cuéntame en los comentarios qué accuracy obtuviste tú al correr el mismo flujo y si tus 10 folds quedaron tan parejos como los del ejercicio.

Gabriel Obregón

Estudiante

🧾Validación Cruzada en Python

🚀 Paso 1: Preparar el entorno

📌 Abre Jupyter Notebook o Google Colab

📌 Importa librerías

import pandas as pd

import numpy as np

from google.colab import files

uploaded = files.upload()

data = pd.read_csv('cancerdata.csv')

print(data.head())

👉 Dataset: cáncer de mama (Kaggle).

🧩 Paso 2: Definir variables

🎯 Separar predictoras (X) y objetivo (Y)

X = data.iloc[:, 2:].values

Y = data.iloc[:, 1].values

print(X[:5])

print(np.unique(Y, return_counts=True))

✔ X → características numéricas

✔ Y → diagnóstico: M = maligno | B = benigno

✂️ Paso 3: Dividir datos

📂 Entrenamiento = 70% 📂 Prueba = 30%

from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=4)

👉 Evalúa con datos que el modelo no ha visto.

🌳 Paso 4: Construir modelo inicial

Ejemplo: Árbol de decisión 🌿

from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(random_state=4)

model.fit(X_train, Y_train)

accuracy = model.score(X_test, Y_test)

print(f"Model Accuracy: {accuracy*100:.2f}%")

📊 Resultado → Precisión del modelo en datos de prueba.

🔄 Paso 5: Validación cruzada (K-Folds)

⚡ Divide datos en varios folds

⚡ Entrena y evalúa en cada uno

⚡ Calcula promedio de precisión

from sklearn.model_selection import cross_val_score, KFold

kf = KFold(n_splits=10, random_state=4, shuffle=True)

cv_results = cross_val_score(model, X, Y, cv=kf)

print(f"Cross-validation mean accuracy: {cv_results.mean()*100:.2f}%")

✔ Evita sobreajuste

✔ Más confiable que una sola división

Alfonso Andres Zapata Guzman

Augusto Mas

Javier Luis Ricaurte Peña

Christian Rangel

Alegra 33

Andres Gutiérrez Castillo

Diego Leandro Suarez Solano

Christopher Brian Guzmán Martínez

Juan García Bauzá

Julián Cárdenas

César Nájera

Daniel Alejandro Franco Meneses

Ricardo Gomez

Mauricio Escobar

José Pablo Cabrera Romo

Angel Estrada

Carlos Andrés Castaño Urrego

Anabel Chavez Berumen

Renzo Zavala Sandoval

Anthony Guerrero

MIGUEL GEOVANNY ARIAS RODAS

Roberto Fernández Vega

Andres Martin

JOSE BENJAMIN GUTIERREZ RINCON

Sílvia Ariza Sentís

Profesor

Validación cruzada KFold en Python

Fundamentos de estadística inferencial

Estadística inferencial vs descriptiva en IA

Componentes principales de la estadística

Qué es la distribución normal y sus ejemplos

Tipos de muestreo y teorema del límite central

Muestreo aleatorio y sistemático en Python

Muestreo estratificado con pandas en Python

Estadísticos y cálculos

Media muestral vs media poblacional

Varianza poblacional vs muestral en estadística

Varianza y desviación estándar en Python

Qué son los intervalos de confianza

Cómo calcular intervalos de confianza con tabla Z

Intervalos de confianza en Python con SciPy

Pruebas de hipótesis y validación

Qué son las pruebas de hipótesis

Student, Pearson o ANOVA: cuál usar

Errores tipo I y tipo II en hipótesis

Prueba t de Student con Python paso a paso

ANOVA y Pearson para validar hipótesis en Python

Qué es bootstrapping y cuándo usarlo

Bootstrapping en Python para calcular promedios

Qué es la validación cruzada en IA