Contenido del curso

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística aplicada a ciencia de datos
01:28 min

Validación cruzada KFold con scikit-learn

Resumen

La validación cruzada en Python te permite comprobar qué tan confiable es un modelo de machine learning antes de llevarlo a producción. Aquí aprenderás a implementarla paso a paso con scikit-learn, pandas y un dataset real de cáncer de mama desde Kaggle, ideal si estás entrenando modelos de clasificación y necesitas validar su precisión sin sesgos.

¿Qué librerías necesitas para empezar el análisis?

Antes de tocar el modelo, prepara tu entorno. Yo trabajo en Google Colab, pero funciona igual en cualquier notebook.

pandas as pd: para manipular el dataframe.
numpy as np: para operaciones numéricas.
io: para cargar archivos desde tu escritorio.
from google.colab import files: si trabajas en Colab y quieres subir el CSV manualmente.

El dataset que uso se llama cancer_data.csv y lo descargué de Kaggle, una plataforma con bases de datos públicas y competencias de ciencia de datos, algunas con premios económicos [00:54]. Te recomiendo explorarla.

¿Cómo se prepara el dataframe antes de modelar?

Una vez subido el archivo, lo conviertes en dataframe con pd.read_csv(io.BytesIO(uploaded['cancer_data.csv'])). Al inspeccionar las columnas vas a notar algo clave: casi todas las variables son numéricas (radio, textura, perímetro, área, smoothness, concavidad), excepto diagnosis, que es categórica y toma los valores M (maligno) o B (benigno) [02:30].

Aquí defines tus variables predictoras y tu variable objetivo:

X = df.iloc[:, 2:] toma todas las columnas numéricas desde la posición dos en adelante.
y = df.iloc[:, 1] toma la columna categórica diagnosis.

¿Por qué se separan X y Y antes de entrenar? Porque X contiene las variables explicativas (numéricas) y Y la variable que quieres predecir (categórica). El modelo aprende la relación entre ambas.

Cuando ejecutas y.value_counts() obtienes 357 casos benignos y 212 malignos [04:12]. Esa distribución importa: si solo tuvieras una clase, no podrías entrenar un clasificador útil porque faltarían observaciones para aprender el patrón opuesto.

¿Cómo entrenar un árbol de decisión y dividir train test?

Para la clasificación uso DecisionTreeClassifier desde sklearn.tree, junto con train_test_split desde sklearn.model_selection.

La división típica es:

python X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=4)

Con esto reservas el 30% de los datos para test y dejas el 70% para entrenamiento. El parámetro random_state fija la semilla aleatoria para que tus resultados sean reproducibles.

Después entrenas el modelo:

python modelo = DecisionTreeClassifier() modelo.fit(X_train, y_train) modelo.score(X_test, y_test)

En mi corrida obtuve una precisión del 88.88% [06:45]. Es un buen punto de partida, pero un solo split puede engañarte: tal vez tuviste suerte con esa partición específica. Ahí entra la validación cruzada.

¿Qué es KFold y cómo se implementa en scikit learn?

KFold es una técnica que divide el dataset en k particiones iguales y entrena el modelo k veces, usando cada partición una vez como test. Así obtienes varias mediciones de precisión en lugar de una sola.

¿Cuántos folds debo usar en KFold? El valor más habitual es 10. Te da un buen balance entre estabilidad estadística y costo computacional.

La implementación es directa:

python from sklearn.model_selection import KFold, cross_val_score

modelo = DecisionTreeClassifier() kfold_validacion = KFold(10) resultados = cross_val_score(modelo, X, y, cv=kfold_validacion) print(resultados) print(resultados.mean())

cross_val_score aplica el modelo a cada fold y devuelve un array con las precisiones individuales [09:20]. En mi caso aparecieron valores como 94%, 91% y hasta 98%, con un promedio cercano al 94% [10:05].

¿Por qué el promedio importa más que un solo score?

Porque al promediar 10 mediciones reduces el sesgo de una partición afortunada. Si tu modelo da 94% en una sola corrida pero 70% en validación cruzada, sabes que no generaliza bien. En cambio, un promedio alto y consistente entre folds confirma que el modelo aprendió patrones reales, no ruido.

¿Cómo interpretar los resultados de tu validación cruzada?

Un promedio del 94% de accuracy sobre los 10 folds indica que el clasificador distingue correctamente entre tumores malignos y benignos en la mayoría de los casos. Para un problema médico de este tipo, es una señal sólida, aunque siempre conviene complementar con métricas como recall o F1-score cuando los falsos negativos tienen alto costo.

¿Qué significa accuracy en machine learning? Es el porcentaje de predicciones correctas sobre el total de predicciones hechas por el modelo. Un 94% significa que de cada 100 casos, acierta en 94.

Tus números pueden variar ligeramente porque las muestras son aleatorias, pero deberían moverse en un rango parecido. Si obtienes valores muy bajos, revisa el preprocesamiento, el balance de clases o el random_state.

Cuéntame en los comentarios qué accuracy te dio tu modelo y si probaste con otros valores de k.

Comentarios

Alfonso Andres Zapata Guzman

student•

Los árboles de decisión te dejan con una decisión difícil (#jajajajajaja no jodas#)... Un árbol profundo con muchas hojas se ajustará demasiado porque cada predicción proviene de datos históricos de solo las pocas casas en su hoja. Pero un árbol poco profundo con pocas hojas tendrá un desempeño deficiente porque no logra capturar tantas distinciones en los datos sin procesar.

Incluso las técnicas de modelado más sofisticadas de la actualidad se enfrentan a esta tensión entre el ajuste insuficiente y el ajuste excesivo. Sin embargo, muchos modelos tienen ideas inteligentes que pueden conducir a un mejor rendimiento. Veremos el bosque aleatorio como ejemplo.

El bosque aleatorio usa muchos árboles y hace una predicción promediando las predicciones de cada árbol componente. Por lo general, tiene una precisión predictiva mucho mejor que un árbol de decisión único y funciona bien con los parámetros predeterminados. Si continúa modelando, puede aprender más modelos con un rendimiento aún mejor, pero muchos de ellos son sensibles para obtener los parámetros correctos.

from sklearn.ensemble import RandomForestClassifier
modelo = RandomForestClassifier()
modelo.fit(train_X, train_y)
resultado = modelo.score(test_X, test_y)
print(resultado)

Con este codigo obtendran valores cercanos al 96% o 97%.

Alfonso Andres Zapata Guzman

student•

# Validacion cruzada k fold
from sklearn.model_selection import KFold

modelo_tree = DecisionTreeClassifier()
modelo_random_tree = RandomForestClassifier()
kfold_validation = KFold(10)

from sklearn.model_selection import cross_val_score

resultados_tree = cross_val_score(modelo, X, y, cv = kfold_validation)
print(resultados_tree)
print(f'El promedio de los resultados del arbol de clasificacion es: {resultados_tree.mean()}')

resultados_random_tree = cross_val_score(modelo_random_tree, X, y, cv = kfold_validation)
print(resultados_random_tree)
print(f'El promedio de los resultados del arbol de clasificacion es: {resultados_random_tree.mean()}')

[0.89473684 0.9122807  0.89473684 0.92982456 0.89473684 0.98245614
 0.9122807  0.96491228 0.92982456 0.94642857]
El promedio de los resultados del arbol de clasificacion es: 0.9262218045112782
[0.9122807  0.9122807  0.92982456 0.98245614 0.96491228 0.98245614
 0.96491228 0.96491228 0.96491228 1.        ]
El promedio de los resultados del arbol aleatorio de clasificacion es: 0.9578947368421054

Augusto Mas

student•

Comunidad! Les comparto los apuntes que tome de esta clase en Deepnote. Tambien lo complemente con otros artículos y videos disponibles en internet.

Javier Luis Ricaurte Peña

student•

Hola, no sé muy bien porqué pero al descargar el dataset desde Kaggle me aparecía una columna al final que creo que no aparece en la clase:

Por este motivo me daba un error al intentar imprimir el resultado. Lo solucione excluyendo esta columna de la variable X:

X = df.iloc[:,2:32]

Si alguien más tiene este problema espero que esto les pueda ayudar. :)

Christian Rangel

student•

Me pasa igual gracias por tu aporte

Alegra 33

student•

Hola Javier, de preferencia, te recomiendo que lo elimines dado que son valores nulos y estos no aportan ningún valor, te dejo como puedes borrarlo .

df.drop(['Unnamed: 32'], axis = 1, inplace = True)

Andres Gutiérrez Castillo

student•

overfitting: hold-out vs cross-validation

El overfitting sucede cuando tu modelo se vuelve muy exacto al predecir datos con los que fue entrenado y no puede generalizar, cuando se le presentan nuevas muestras que nunca ha visto. Este problema se soluciona con 2 técnicas: hold-out: partir el dataset en una proporción para el entrenamiento y otra para las pruebas. cross-validation: al igual que el de atrás se hacen particiones para el training y el test, pero en este caso se llevan a cabo varias pruebas con diferentes particiones, haciendo más eficiente este método que el anterior. Esta clase me gusto mucho ya que abarcan estos dos métodos para evitar el overfitting. les recomiendo esta lectura: https://medium.com/@eijaz/holdout-vs-cross-validation-in-machine-learning-7637112d3f8f

y DEBEN ver este buen video de DOTCSV donde explica el problema del overfitting: https://www.youtube.com/watch?v=7-6X3DTt3R8

Diego Leandro Suarez Solano

student•

El dataframe tiene como ultima columna datos no numericos, asi que si sigues los pasos de la profesora el modelo va darte un error, para arreglarlo simplemente pon en la declaracion de x:

X = df.iloc[:,2:(df.shape[1]-1)]

Christopher Brian Guzmán Martínez

student•

Este comentario debería estar al principio.

Juan García Bauzá

student•

La validación cruzada es muy potente cuando usamos hiperparámetros en nuestros modelos, ya que aumenta la precisión considerablemente. Sin embargo es buena práctica balancear los datos, ya que en la vida real pasa siempre que tenemos una clase mayoritaria. La evalución con una matriz de decisión es sumamente importante para detetectar falsos positivos y faltos negativos en nuestro modelo.

Julián Cárdenas

student•

Estas en todo lo correcto compañero, gracias por sus consejos y advertencias !!

César Nájera

student•

Un aporte un poco purista. Silvia dice "accuracy" y "precisión", como si fueran lo mismo. Sin embargo, estos conceptos no son lo mismo. Mientras que accuracy (traducción: exactitud) significa qué tan cercano es un modelo a la realidad, precision (traducción: precisión) se refiere a que tan similares son un conjunto de datos. En este caso, la validación cruzada busca analizar qué tan "precisos" y no "accurate" o exactos son un conjunto de datos.

Daniel Alejandro Franco Meneses

student•

Combinando el aporte de Felix para balancear los datos y el aporte de Alfonso para crear un bosque de árboles y no un único árbol obtengo un Score del 99.45%

Es genial cómo aplicando varios conceptos los modelos son mucho mejores y eso que no apliqué hiperparametros.

Ricardo Gomez

student•

Faltaría un ejemplo balanceado los datos, dado que en el mundo real las cosas no son como en Kaggle (Ejemplos limpios)

Mauricio Escobar

student•

Buen día, ¿Alguien me podría recomendar un curso/ libro que ayude a reforzar este tema en específico?

José Pablo Cabrera Romo

student•

Yo antes de entrar a los cursos de Platzy leí este: Estadística práctica para ciencia de datos con R y Python Libro de Peter Gedec. Prácticamente viene todo lo que hemos visto.

Angel Estrada

student•

Les comparto el código para importar el dataset directo del sitio, sin necesidad de descargar nada, usando la api de kaggle:

import kagglehub
# url Kaggle: https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data
# Download latest version
path = kagglehub.dataset_download("uciml/breast-cancer-wisconsin-data")

print("Path to dataset files:", path)

df = pd.read_csv(path + "/data.csv")
df.head()
```import kagglehub# url Kaggle:  Download latest versionpath = kagglehub.dataset\_download("uciml/breast-cancer-wisconsin-data")
print("Path to dataset files:", path)
df = pd.read\_csv(path + "/data.csv")df.head()

Carlos Andrés Castaño Urrego

student•

Estos fueron los míos y fueron resultados muy buenos: [0.89473684 0.9122807 0.87719298 0.9122807 0.9122807 0.98245614 0.9122807 0.96491228 0.92982456 0.92857143] 0.9226817042606517

Anabel Chavez Berumen

student•

En el nuevo csv de Kaggle añaden una columna 'Unnamed:32' si bien pueden hacer un drop de ella pues solo contiene valores NaN, también podrían no contar la ultima columna.

X = df.iloc[:, 2:-1]
Y = df.iloc[:,1]

MIGUEL GEOVANNY ARIAS RODAS

student•

Ahora Kaggle tiene una librería que facilita esta importación.

Usé gemini para apoyarme y pasarlo a DataFrame.

Me recordó a la clase donde leimos un archivo a partir de una url

Gabriel Obregón

student•

🧾Validación Cruzada en Python

🚀 Paso 1: Preparar el entorno

📌 Abre Jupyter Notebook o Google Colab

📌 Importa librerías

import pandas as pd

import numpy as np

from google.colab import files

uploaded = files.upload()

data = pd.read_csv('cancerdata.csv')

print(data.head())

👉 Dataset: cáncer de mama (Kaggle).

🧩 Paso 2: Definir variables

🎯 Separar predictoras (X) y objetivo (Y)

X = data.iloc[:, 2:].values

Y = data.iloc[:, 1].values

print(X[:5])

print(np.unique(Y, return_counts=True))

✔ X → características numéricas

✔ Y → diagnóstico: M = maligno | B = benigno

✂️ Paso 3: Dividir datos

📂 Entrenamiento = 70% 📂 Prueba = 30%

from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=4)

👉 Evalúa con datos que el modelo no ha visto.

🌳 Paso 4: Construir modelo inicial

Ejemplo: Árbol de decisión 🌿

from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(random_state=4)

model.fit(X_train, Y_train)

accuracy = model.score(X_test, Y_test)

print(f"Model Accuracy: {accuracy*100:.2f}%")

📊 Resultado → Precisión del modelo en datos de prueba.

🔄 Paso 5: Validación cruzada (K-Folds)

⚡ Divide datos en varios folds

⚡ Entrena y evalúa en cada uno

⚡ Calcula promedio de precisión

from sklearn.model_selection import cross_val_score, KFold

kf = KFold(n_splits=10, random_state=4, shuffle=True)

cv_results = cross_val_score(model, X, Y, cv=kf)

print(f"Cross-validation mean accuracy: {cv_results.mean()*100:.2f}%")

✔ Evita sobreajuste

✔ Más confiable que una sola división

Roberto Fernández Vega

student•

El "Model Accuracy" se refiere a la precisión del modelo, es decir, el porcentaje de predicciones correctas sobre el total de predicciones. Un valor alto indica que el modelo clasifica correctamente la mayoría de las observaciones.

La "Cross-validation mean accuracy" es el promedio de la precisión del modelo a través de diferentes divisiones de los datos (folds) durante la validación cruzada. Esto ayuda a evaluar la estabilidad y generalización del modelo. Ambos valores se interpretan como indicadores de cuán bien el modelo está funcionando; valores cercanos a 100% son deseables, indicando un buen desempeño.

Andres Martin

student•

JOSE BENJAMIN GUTIERREZ RINCON

student•

Donde puedo encontrar una base de datos que nose de Kaggle

Sílvia Ariza Sentís

teacher•

Hola José, por ejemplo de:

Google Dataset Search.
Datahub. io.
UCI Machine Learning Repository.
Earth Data.
CERN Open Data Portal.
Global Health Observatory Data Repository.
BFI film industry statistics
NYC Taxi Trip Data
FBI Crime Data Explorer Muchos gobiernos también tienen datos abiertos como, por ejemplo, el de la Ciudad de México (https://datos.cdmx.gob.mx/dataset/)

Espero que te sirvan :)

Santiago Ahumada Lozano

student•

Una pregunta, puedo visualizar mi arbol de decisión en una gráfica?

Anabel Chavez Berumen

student•

Espero te sirva

from io import StringIO
from IPython.display import Image, display
import pydotplus
from sklearn import tree

out = StringIO()
# modelo es el entrenado
tree.export_graphviz(modelo, out_file = out)

# creamos las ramas que tenemos
graph = pydotplus.graph_from_dot_data(out.getvalue())
# creamos el archivo png
graph.write_png('cancer.png')

jose gregorio medina salas

student•

si descargo la data de kaggle, algunos la parte de modelo.fit( X_train, Y_train) da error

pero si descargo la data de los recursos, el comando se ejecuta bien, a que se debe eso

estaria agradecido con una respuesta, feliz dia

Axel Yaguana

Team Platzi•

¡Hola, Jose!

Esto puede ser porque la data que tienes en los recursos ya está preparada para usarse con el método .fit(), mientras que la que descargas de Kaggle aún no. Puedes echarle un ojo y comparar ambos datasets y seguro que econtrarás alguna diferencia en la estructura de la data.

Recuerda que como data scientist tendrás que limpiar datos, así que explorar y comparar estos datasets creo que servirían como ejercicio. :D

Fundamentos de estadística inferencial

Estadística descriptiva vs inferencial en datos

Componentes principales de la estadística

Qué es la distribución normal y por qué importa

Muestreo aleatorio, sistemático y teorema central

Muestreo aleatorio y sistemático en Python

Muestreo estratificado con Python y pandas

Estadísticos y cálculos

Media muestral explicada con ejemplos reales

Varianza poblacional vs muestral en estadística

Varianza y desviación estándar en Python

Qué son los intervalos de confianza

Cálculo de intervalos de confianza con tabla Z

Intervalos de confianza en Python con SciPy

Pruebas de hipótesis y validación

Qué son las pruebas de hipótesis

Pruebas de hipótesis: Student, Pearson y ANOVA

Errores tipo I y II en pruebas de hipótesis

Prueba t de Student en Python con SciPy

ANOVA y Pearson en Python con iris

Bootstrapping para muestras pequeñas en Python

Bootstrapping en Python para evitar overfitting

Qué es la validación cruzada en ML