Validación Cruzada en Modelos de Machine Learning

Clase 28 de 37 • Curso Profesional de Machine Learning con scikit-learn

Contenido del curso

Aprender los conceptos clave

1
Curso Completo de Machine Learning con Scikit-learn para Principiantes
07:31 min
2
Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo
04:18 min
3
Problemas de Clasificación, Regresión y Clustering con Scikit-learn
06:13 min
4
Fundamentos Matemáticos para Machine Learning Avanzado
04:52 min

Iniciar un proyecto con sklearn

Optimización de features

Regresiones robustas

Métodos de ensamble aplicados a clasificación

Clustering

Optimización paramétrica

Salida a producción

Tomar examen

Resumen

Evaluar correctamente un modelo de machine learning es tan importante como construirlo. Sin una validación rigurosa, cualquier resultado puede ser engañoso. Scikit-Learn ofrece herramientas que automatizan este proceso y permiten comparar múltiples configuraciones de datos, parámetros y distribuciones de forma sistemática. Comprender los distintos métodos de validación es clave para elegir el que mejor se adapta a cada proyecto.

¿Por qué la validación es una etapa crítica en machine learning?

En machine learning la última palabra siempre la tienen los datos [0:41]. Nuestras intuiciones no pueden competir con lo que revelan los datos y las matemáticas aplicadas sobre ellos. Por eso se necesita rigorosidad constante al evaluar resultados.

No basta con probar al inicio y al final. La mentalidad correcta es la de un tester continuo: probar varias formas, con varios conjuntos de datos, con varias configuraciones de parámetros y con varias distribuciones [1:10] hasta encontrar la solución óptima.

Una frase muy conocida resume esta filosofía: "todos los modelos son malos, solamente que algunos son útiles" [1:30]. Todo modelo es una sobresimplificación de la realidad. Nunca corresponderá al cien por ciento con lo que ocurre en el mundo real, pero si se configura con habilidad suficiente, puede volverse útil para casos específicos.

¿Qué tipos de validación existen y cuándo usar cada uno?

¿Qué es el enfoque hold out y cuándo conviene aplicarlo?

El método más básico consiste en partir los datos en dos conjuntos: entrenamiento y prueba [2:06], generalmente con un porcentaje fijo como setenta-treinta. Es el enfoque clásico que se usa a lo largo de la mayoría de cursos introductorios.

Conviene usarlo cuando se necesita:

Prototipado rápido sin mucho tiempo disponible [3:22].
Simplicidad conceptual al estar comenzando en machine learning.
Trabajar con equipos de baja capacidad de cómputo, ya que solo requiere una partición y una prueba [3:50].

Su limitación principal es que solo permite una prueba por ejecución. Se podría automatizar con un ciclo for que repita el proceso varias veces y al final conservar el mejor resultado o el promedio, pero existen formas más eficientes.

¿Cómo funciona la validación cruzada por k-folds?

La validación cruzada por k-folds [2:38] divide los datos en k partes o pliegues. En cada iteración se usa una parte diferente como conjunto de validación y el resto como entrenamiento. Al finalizar, todos los subconjuntos han sido probados de manera sistemática [4:28].

El valor de k es un parámetro que se define según las necesidades del proyecto. En la representación visual, el conjunto de entrenamiento y el de validación se van rotando en cada fold, garantizando cobertura completa.

Este enfoque es recomendable cuando:

Se dispone de un equipo suficientemente bueno y tiempo más allá del prototipado [4:42].
Se planea utilizar técnicas de optimización paramétrica, ya que requieren cross validation para funcionar correctamente [4:55].
Se busca un balance entre rigurosidad y costo computacional.

¿Qué es LOOCV y en qué escenarios tiene sentido?

El método LOOCV (Leave One Out Cross Validation) [3:05] es el más intensivo. En cada iteración se entrena con todos los datos excepto uno, y ese único dato se usa como prueba. El proceso se repite tantas veces como datos existan hasta cubrir la totalidad del dataset.

Se justifica cuando:

Se cuenta con pocos datos como para hacer una partición diversa entre train y test [5:27].
Se requiere mucho poder computacional disponible.
Se busca la mayor certeza posible de que el modelo es el mejor [5:42].

¿Cómo implementar estas validaciones con Scikit-Learn?

Scikit-Learn es una librería lo suficientemente robusta para ejecutar cada uno de estos procesos de validación de forma independiente [5:52]. La implementación práctica del cross validation por k-folds es el siguiente paso natural después de comprender la teoría, ya que representa el caso más equilibrado entre rigor y eficiencia computacional.

¿Ya has probado distintos métodos de validación en tus proyectos? Comparte tu experiencia y cuéntanos cuál te ha dado mejores resultados.

Comentarios

Franco Manca

student•

++Validación de nuestro modelo usando Cross Validation++

La última palabra siempre la van a tener los datos.

Todas nuestras intuiciones no tiene nada que hacer frente a lo que digan los datos y las matemáticas que aplicamos sobre estos datos. Por eso es importante siempre tener rigurosidad a la hora de evaluar los resultados que estamos recibiendo.

Necesitamos mentalidad de testeo.

No se trata solamente de probar un poco al principio y un poco al final, sino que tendremos que probar constantemente durante todo el proceso, para poder encontrar cuál es la solución óptima que realmente nos soluciona el problema que tenemos pendiente, todo esto:
- con varias formas
- con varios conjuntos de datos
- con varias configuraciones de parámetros
- con varias distribuciones de nuestros datos

Todos los modelos son malos, solamente algunos son útiles.

Todos los modelos que nosotros hacemos en últimas son una sobre simplificación de lo que pasa realmente. Entonces nunca nuestros modelos van a corresponder con la realidad al cien por ciento. Si jugamos lo suficiente y si somos lo suficientemente hábiles para configurar, vamos a llegar a un punto donde el modelo que estamos trabajando va a ser útil para ciertos casos específicos dentro del mundo real. . . . ++Tipos de validación++
Hold-Out

Se trata de dividir nuestros datos entrenamiento/pruebas, básicamente consiste en usar porcentajes fijos, por lo regular 70% de entrenamiento y 30% de pruebas.

!hold-out !hold-out-strategy

¿Cuándo utilizar Hold-on?

Se requiere un prototipado rápido.
No se tiene mucho conocimiento en ML.
No se cuenta con abundante poder de cómputo. . .
K-Folds

Usar validación cursada K-Fold, aquí vamos a plegar nuestros datos k veces, el k es un parámetro que nosotros definimos y en esos pliegues vamos a utilizar diferentes partes de nuestro dataset como entrenamiento y como test, de tal manera que intentemos cubrir todos los datos de entrenamiento y de test, al finalizar el proceso.

!k-fold !k-fold-strtegy

¿Cuándo utilizar K-Folds?

Recomendable en la mayoría de los casos.
Se cuenta con un equipo suficiente para desarrollar ML.
Se require la integración con técnicas de optimización paramétrica.
Se tiene más tiempo para las pruebas. . .
LOOCV

Validación cruzada LOOCV, Leave One Out Cross Validation. Este es el método más intensivo, ya que haremos una partición entre entrenamiento y pruebas, porque vamos a hacer entrenamiento con todos los datos, salvo 1 y vamos a repetir este proceso tantas veces hasta que todos los datos hayan sido probados.

!loocv

¿Cuándo utilizar LOOCV?

Se tiene gran poder de computo
Se cuetan con pocos datos para poder dividir por Train/Test
Cuando se quiere probar todos los casos posibles (para personas con TOC)

Juan R. Vergara M.

student•

Excelente resumen amigo 👍🥇💡

Juan José Mamani Tarqui

student•

Muy buen aporte compañero grxs

María José Medina

student•

"All models are wrong, but some are useful"

Juan R. Vergara M.

student•

So true.

Jorge Sebastian Alvarez Herrera

student•

Investigando en google encontré que no se llama Hold On si no Hold Out

Kenny Emmanuel Lajara Aquino

student•

Confirmed!

Franco Manca

student•

Confirmado es Hold-Out

Holdout method by Wikipedia#Holdout_method)
Hold-out vs. Cross-validation in Machine Learning

Rodrigo Urquizo Yepez

student•

Los expertos en AI dicen que el que tiene exito en machine learning no es el que tiene el mejor algoritmo, sino el que tiene mas datos.

Luis Eduardo Chacón Wilches

student•

Lo complementaria, con más datos pero de calidad!

Robinson Moreno

student•

Lo que hace este profe de explicarte bien el porque y cuando usarlo antes de implementar el codigo, le suma muchos puntos. Ya que pocos lo hacen de esta manera tan adecuada y entendible.

José Joaquín Tripp Gudiño

student•

Usar cross validation en grandes sets de datos, consume bastante poder de computo. Una recomendación que me daban en el trabajo, es primero tratar de optimizar lo más que pueda el modelo con el clásico split 80/20, y ya que se tenga el o los "ganadores" entonces validar con K-fold = 10 para asegurarnos de tener un accuracy más certero y no estar en overfitting con el set de entrenamiento. 😊

Cesar Uribe

student•

LOOCV no es Left Only One Cross Validation sino Leave-One-Out-Cross-Validation

Jhon Freddy Tavera Blandon

student•

Beneficios de la Validación Cruzada:

Proporciona una evaluación más robusta del rendimiento del modelo al utilizar múltiples divisiones de datos.

Ayuda a detectar problemas de sobreajuste y subajuste al evaluar el modelo en diferentes conjuntos de prueba.

Aprovecha al máximo el uso de los datos disponibles para entrenar y evaluar el modelo.

La elección entre la validación cruzada K-fold y Hold-Out depende de la disponibilidad de datos y los recursos computacionales. La validación cruzada K-fold tiende a ser más confiable pero requiere más tiempo de cómputo.

En resumen

la validación cruzada es una técnica fundamental para evaluar y validar modelos de aprendizaje automático, lo que garantiza que el modelo sea capaz de generalizar correctamente a nuevos datos y evitando problemas de sobreajuste.

Hugo Montoya Diaz

student•

Julián Cárdenas

student•

Buen ejemplo!

David fernando Pinzon suarez

student•

Cual es la diferencia entre cross_validate y cross_val_score?

Daniel Correa

student•

cross_val_score solo devuelve una metrica, cross_validate devuelve mas, si no estoy mal, la metrica que comparten es train_scores

Santiago García Rincón

student•

La diferencia entre cross_validate y cross_val_score radica en cómo se utilizan y qué información devuelven en el contexto de la validación cruzada en la biblioteca de Python scikit-learn.

cross_val_score es una función que permite realizar la validación cruzada y obtener una medida de rendimiento específica para un estimador dado. Toma como entrada un estimador (modelo), un conjunto de datos, una métrica de rendimiento y opcionalmente el número de pliegues en los que se divide el conjunto de datos. Devuelve una matriz de valores de rendimiento para cada pliegue, lo que permite obtener una estimación del rendimiento del modelo.

Por otro lado, cross_validate es una función más completa y flexible que permite realizar validación cruzada y obtener múltiples medidas de rendimiento para un estimador dado. Además de proporcionar una medida de rendimiento, también devuelve información adicional, como el tiempo de ajuste y predicción para cada pliegue y los puntajes de entrenamiento. Esta función es útil cuando se necesita más información sobre el rendimiento y el comportamiento del modelo en cada pliegue.

FELIX DAVID CORDOVA GARCIA

student•

TOC= TRANSTORNO OBSESIVO COMPULSIVO

Camilo Andrés Hurtado Erasso

student•

jajaja esa parte me pareció muy graciosa.

Miguel Angel Velazquez Romero

student•

Tipos de validación.

Hold-On: Dividir nuestros datos entrenamiento/pruebas, básicamente consiste en usar porcentajes fijos, por lo regular 70% de entrenamiento y 30% de pruebas.
K-Folds: Usar validación cursada, aquí vamos a plegar nuestros datos k veces, el k es un parámetro que nosotros definimos y en esos pliegues vamos a utilizar diferentes partes de nuestro dataset como entrenamiento y como test, de tal manera que intentemos cubrir todos los datos de entrenamiento y de test, al finalizar el proceso.
LOOCV: Validación cruzada, este es el método más intensivo, ya que haremos una partición entre entrenamiento y pruebas, porque vamos a hacer entrenamiento con todos los datos, salvo 1 y vamos a repetir este proceso tantas veces hasta que todos los datos hayan sido probados.

¿Cuándo utilizar Hold-on?

Se requiere un prototipado rápido.
No se tiene mucho conocimiento en ML.
No se cuenta con abundante poder de cómputo.

¿Cuándo utilizar K-Folds?

Recomendable en la mayoría de los casos.
Se cuenta con un equipo suficiente para desarrollar ML.
Se require la integración con técnicas de optimización paramétrica.
Se tiene más tiempo para las pruebas.

Andres Martin

student•

Leandro Tenjo

student•

🤔

¿Se podría decir que LOOCV seria un K-Fold con K igual a la longitud total de los datos?

Es decir.

¿Si tengo 2500 datos, entonces K-Fold con k=2500 seria igual a ejecutar LOOCV?

Antonio Demarco Bonino

student•

Con estas metáforas de Caperucita roja se entiende mejor los conceptos de Cross Validation:

Hold-Out (Entrenamiento/Prueba):
- Metáfora: Es como si Caperucita Roja solo escuchara el consejo de su madre (los datos de entrenamiento) y luego se aventurara por el bosque (los datos de prueba) por su cuenta. Solo tiene una oportunidad para ver si aplica bien lo aprendido.
Validación Cruzada K-Folds:
- Metáfora: Imagina que Caperucita Roja realiza múltiples viajes por diferentes caminos del bosque, recordando más consejos de su madre cada vez. Al final, promedia sus experiencias para encontrar la mejor forma de llegar a salvo.
LOOCV (Validación Cruzada Leave-One-Out):
- Metáfora: Es como si Caperucita Roja viajara por el bosque múltiples veces, pero cada vez enfocándose en un consejo o detalle específico. Al final, considera todos los posibles consejos, pero le tomó mucho más tiempo que la Validación Cruzada K-Folds.

Ian Cristian Ariel Yané

student•

jajajajaj, me senti escuchado con lo de TOC. Me lo vendiste

Diego Jurado

student•

Entonces todos los modelos son malos? Siempre resultara mas aportante el analisis del cientifico de datos

Juan Jose Sepulveda Calderon

student•

Después de la etapa de entrenamiento viene la etapa de validación, donde el modelo se evalúa con datos que no se han utilizado para entrenarlo, con el fin de medir su precisión y desempeño.

Sebastian Nolasco

student•

Aquí hay un artículo buenísimo sobre cross validation: Cross validation techniques

Miguel R Montilla

student•

Aquí un video muy bueno sobre cross-validation

Validación Cruzada en Modelos de Machine Learning

Aprender los conceptos clave

Curso Completo de Machine Learning con Scikit-learn para Principiantes

Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo

Problemas de Clasificación, Regresión y Clustering con Scikit-learn

Fundamentos Matemáticos para Machine Learning Avanzado

Iniciar un proyecto con sklearn

Configuración Profesional de Entorno de Trabajo para Python

Instalación y configuración de librerías para Python

Análisis de Datos para el Bienestar y la Felicidad Humana

Optimización de features

Selección de Variables en Modelos de Aprendizaje Automático

Reducción de Dimensionalidad con Análisis de Componentes Principales

Reducción de Dimensionalidad y Regresión Logística con Python

Clasificación de Enfermedad Cardiaca con PCA y Regresión Logística

Funciones Kernel en la Clasificación de Datos Complejos

Regularización en Modelos de Machine Learning

Implementación de Regularización en Modelos de Regresión Lineal

Análisis de Resultados en Modelos de Regresión Ridge y Lasso

Regularización ElasticNet con Scikit-learn: Conceptos y Aplicación

Regresiones robustas

Identificación de Valores Atípicos en Datos para Modelos Predictivos

Técnicas de Regresión Robusta: RANSAC y Huber en Scikit-Learn

Regresión Lineal y Soporte Vectorial: Manejo de Datos Atípicos

Automatización de Modelos de Predicción en Python

Métodos de ensamble aplicados a clasificación

Métodos de Ensamble: Bagging y Boosting en Machine Learning

Implementación de Bagging Classifier con SAIC en Análisis Cardiaco

Métodos de Ensamble para Mejorar Clasificación en Machine Learning

Implementación de Gradient Boosting para Clasificación de Datos

Clustering

Agrupamiento de Datos en Aprendizaje No Supervisado

Agrupamiento de Caramelos con K-Means y Pandas

Agrupamiento de Datos con Algoritmo Mean Shift

Optimización paramétrica

Validación Cruzada en Modelos de Machine Learning

Validación Cruzada con Scikit-learn: Cruz Vales Cor y KFold

Optimización de Modelos con Búsqueda en Grilla y Aleatoria

Automatización de Parámetros en Modelos de Regresión con Random Forest

Optimización Automática de Modelos con Auto-sklearn

Salida a producción

Estructuración Modular de Código Python para Machine Learning

Automatización de Modelos Machine Learning con Python

Publicación de Modelos de IA con Flask y Python

Optimización de Modelos de Machine Learning para Producción

Recursos para Aprender Machine Learning y Data Science