Validación Cruzada con Scikit-learn: Cruz Vales Cor y KFold

Curso Profesional de Machine Learning con scikit-learn

Contenido del curso

Aprender los conceptos clave

1
Curso Completo de Machine Learning con Scikit-learn para Principiantes
07:31 min
2
Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo
04:18 min
3
Problemas de Clasificación, Regresión y Clustering con Scikit-learn
06:13 min
4
Fundamentos Matemáticos para Machine Learning Avanzado
04:52 min

Iniciar un proyecto con sklearn

Optimización de features

Regresiones robustas

Métodos de ensamble aplicados a clasificación

Clustering

Optimización paramétrica

Salida a producción

Tomar examen

Validación Cruzada con Scikit-learn: Cruz Vales Cor y KFold

Resumen

¿Cómo implementar la validación cruzada en Python?

La validación cruzada es una técnica esencial en el análisis de datos que te permite evaluar el rendimiento de un modelo de aprendizaje automático de manera efectiva. Este proceso implica dividir los datos en subconjuntos para probar el modelo varias veces y así asegurar su robustez. Gracias a bibliotecas como Scikit-Learn, esta técnica puede ser implementada de manera sencilla y eficaz. Vamos a explorar cómo hacerlo paso a paso.

¿Cuáles módulos y funciones necesitamos?

Para llevar a cabo la validación cruzada en Python, comenzaremos importando los módulos necesarios:

import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score, KFold

Pandas: Utilizado para la manipulación de datos.
NumPy: Ayuda en cálculos matemáticos complejos.
DecisionTreeRegressor: Un modelo de árbol de decisión para regresiones.
cross_val_score y KFold: Funciones de Scikit-Learn que facilitan la implementación de la validación cruzada.

¿Cómo preparar los datos?

Vamos a utilizar un dataset conocido para llevar a cabo nuestra validación cruzada. Puedes cargarlo y prepararlo como se muestra a continuación:

data = pd.read_csv('data/felicidad.csv')
X = data.drop(['country', 'score'], axis=1)
y = data['score']

DataFrame data: Cargamos un CSV que contiene los datos.
Características X: Todas las columnas excepto el nombre del país y el score.
Objetivo y: La columna que queremos predecir, en este caso, el 'score'.

¿Cómo definir y evaluar el modelo?

En esta etapa, definimos nuestro modelo de árbol de decisión sin ajustes adicionales y procedemos a evaluarlo.

model = DecisionTreeRegressor()

scores = cross_val_score(
    model, X, y, scoring='neg_mean_squared_error', cv=3
)

mean_score = np.mean(scores)
abs_mean_score = np.abs(mean_score)

DecisionTreeRegressor: Se utiliza en su configuración predeterminada.
cross_val_score: Calcula el error cuadrático medio negativo para validar cruzadamente.
Media y valor absoluto: Convertimos el valor medio del score negativo a su valor absoluto para mayor claridad.

¿Cómo controlar las particiones de datos?

Usamos KFold para dividir los datos en subconjuntos específicos y controlar la aleatorización y consistencia de las particiones.

kf = KFold(n_splits=3, shuffle=True, random_state=42)

for train_index, test_index in kf.split(X):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]

KFold: Permite definir el número de particiones (3 en nuestro caso), además de la opción de aleatorización.
Partición y asignación: Divide los datos en conjuntos de entrenamiento y prueba.

¡Así es como puedes implementar y controlar la validación cruzada de manera sencilla en Python! Experimentar con diferentes modelos y configuraciones te dará una profunda comprensión de la robustez y eficacia de tus modelos. Sigue explorando y aprendiendo, el único límite es tu curiosidad.

Elias Dudamel

Estudiante

Una forma de validar nuestro modelo a través de K-folds es importar la función cross_validate.

results = cross_validate(LinearSVC(dual=False), X_scaled, y_bal_df, return_train_score=True, cv=50)

Donde usa K-folds determinados por analista, ingresamos el modelo a usar, nuestros features, nuestra columna Target y podemos usar el parámetro return_train_score para que nos devuelva el score de cada uno de los modelos armados con cada K-fold.

Para este ejemplo, devuelve 50 resultados y se ve de esta manera:

{'fit_time': array([0.7657094 , 0.79296184, 0.78337979, 0.76587272, 0.77635145,
        0.85032177, 0.81398034, 0.85498548, 0.83176494, 0.80038834,
        0.77539325, 0.77279139, 0.77225327, 0.7791965 , 0.78038335,
        0.80153918, 0.80040407, 0.79351783, 0.81560874, 0.80307364,
        0.81683111, 0.82906723, 0.80062199, 0.82587028, 0.82564425,
        0.82885957, 0.81278729, 0.8008554 , 0.79572654, 0.79565167,
        0.79669046, 0.80218983, 0.80508876, 0.79961634, 0.81082296,
        0.80319452, 0.77765465, 0.79044795, 0.8088398 , 0.77227616,
        0.7737639 , 0.80028009, 0.77275562, 0.80092597, 0.83133173,
        0.79332328, 0.82022905, 0.7792604 , 0.7991221 , 0.76032257]),
 'score_time': array([0.00137734, 0.00085735, 0.00090194, 0.00089025, 0.00107074,
        0.00088453, 0.00085354, 0.00089717, 0.00089884, 0.00094604,
        0.00084925, 0.00099683, 0.00086522, 0.00086045, 0.00086689,
        0.00135803, 0.00090003, 0.00088763, 0.00086021, 0.00089717,
        0.00164509, 0.00086546, 0.00089502, 0.00087857, 0.00087142,
        0.00086522, 0.00091124, 0.00086331, 0.00086379, 0.00085735,
        0.00086927, 0.00086069, 0.00087881, 0.00088525, 0.00098681,
        0.00091887, 0.00086212, 0.00087953, 0.00084734, 0.00087833,
        0.00088882, 0.00086713, 0.0008862 , 0.00087786, 0.00107956,
        0.00086331, 0.0008769 , 0.00088549, 0.00094199, 0.00087142]),
 'test_score': array([0.77079108, 0.90365112, 0.90466531, 0.90567951, 0.92697769,
        0.87423935, 0.92089249, 0.96044625, 0.96450304, 0.96653144,
        0.96450304, 0.97360406, 0.96446701, 0.97360406, 0.9715736 ,
        0.97664975, 0.98375635, 0.97969543, 0.97360406, 0.97766497,
        0.97055838, 0.97664975, 0.97766497, 0.97969543, 0.97360406,
        0.97258883, 0.97969543, 0.96649746, 0.97664975, 0.97360406,
        0.97664975, 0.97969543, 0.96649746, 0.97664975, 0.97360406,
        0.98071066, 0.97969543, 0.93299492, 0.92791878, 0.92385787,
        0.93401015, 0.93502538, 0.91269036, 0.9177665 , 0.92994924,
        0.93299492, 0.91573604, 0.91573604, 0.91472081, 0.91979695]),
 'train_score': array([0.95287416, 0.95154842, 0.95202486, 0.95127913, 0.95115484,
        0.95206629, 0.95158985, 0.95171414, 0.95113413, 0.95127913,
        0.95161056, 0.95111443, 0.95144585, 0.95115585, 0.95109371,
        0.95113514, 0.95096943, 0.95082443, 0.95101085, 0.950928  ,
        0.95103157, 0.95113514, 0.95082443, 0.95090728, 0.95109371,
        0.951363  , 0.95105228, 0.95134228, 0.95103157, 0.951073  ,
        0.95086585, 0.950928  , 0.95115585, 0.95111443, 0.95119728,
        0.95088657, 0.95096943, 0.951073  , 0.95117657, 0.95144585,
        0.95128014, 0.950928  , 0.95144585, 0.95179799, 0.95113514,
        0.95088657, 0.95148728, 0.95123871, 0.951218  , 0.95159085])}

Un poco complejo de leer, no? En realidad es todo data que ya vimos en el curso, donde podemos ver los scores de cada modelo armado.

De acá en adelante solo nos queda sacar el promedio de nuestros scores en cada etapa (train y test) y ver si debemos ajustar algo para corregir un posible overfitting o un underfitting.

test_scores = results['test_score']
train_scores = results['train_score']

print(f'Train score : {np.mean(train_scores)}')
print(f'Test score : {np.mean(test_scores)}')

Para cerrar este ejemplo, el resultado seria el siguiente: Train score : 0.9512525761353487 Test score : 0.9486281648665067

Alfonso Andres Zapata Guzman

Estudiante

que contienen las variables:

X_scaled, y_bal_df,

Supongo la primera fue escalada con StandardScaler(), pero y la segunda?

David Jordan

Franco Manca

Joel Ibarra

Matias Alexander Ibarra Trujillo

Gersonrpq

Rodrigo Urquizo Yepez

Julián Cárdenas

Miguel R Montilla

Miguel Andres Alcazar Herrera

David fernando Pinzon suarez

Alberto Perdomo

Gabriel Ichcanziho Pérez Landa

Jhon Freddy Tavera Blandon

Ricardo Gomez

Hugo Montoya Diaz

Emanuel Anchique Pautt

Claudio Chavarría Altamirano

Gabriel Andrés Montiel Hermosa

Antonio Demarco Bonino

Daniel Moreno

Tomas Dale

César Pérez

Validación Cruzada con Scikit-learn: Cruz Vales Cor y KFold

Aprender los conceptos clave

Curso Completo de Machine Learning con Scikit-learn para Principiantes

Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo

Problemas de Clasificación, Regresión y Clustering con Scikit-learn

Fundamentos Matemáticos para Machine Learning Avanzado

Iniciar un proyecto con sklearn

Configuración Profesional de Entorno de Trabajo para Python

Instalación y configuración de librerías para Python

Análisis de Datos para el Bienestar y la Felicidad Humana

Optimización de features

Selección de Variables en Modelos de Aprendizaje Automático

Reducción de Dimensionalidad con Análisis de Componentes Principales

Reducción de Dimensionalidad y Regresión Logística con Python

Clasificación de Enfermedad Cardiaca con PCA y Regresión Logística

Funciones Kernel en la Clasificación de Datos Complejos

Regularización en Modelos de Machine Learning

Implementación de Regularización en Modelos de Regresión Lineal

Análisis de Resultados en Modelos de Regresión Ridge y Lasso

Regularización ElasticNet con Scikit-learn: Conceptos y Aplicación

Regresiones robustas

Identificación de Valores Atípicos en Datos para Modelos Predictivos

Técnicas de Regresión Robusta: RANSAC y Huber en Scikit-Learn

Regresión Lineal y Soporte Vectorial: Manejo de Datos Atípicos

Automatización de Modelos de Predicción en Python

Métodos de ensamble aplicados a clasificación

Métodos de Ensamble: Bagging y Boosting en Machine Learning

Implementación de Bagging Classifier con SAIC en Análisis Cardiaco

Métodos de Ensamble para Mejorar Clasificación en Machine Learning

Implementación de Gradient Boosting para Clasificación de Datos

Clustering

Agrupamiento de Datos en Aprendizaje No Supervisado

Agrupamiento de Caramelos con K-Means y Pandas

Agrupamiento de Datos con Algoritmo Mean Shift

Optimización paramétrica

Validación Cruzada en Modelos de Machine Learning