Validación Cruzada en Modelos de Machine Learning

Clase 28 de 37 • Curso Profesional de Machine Learning con scikit-learn

Resumen

La validación en los modelos de machine learning es un paso crucial para asegurar que nuestras predicciones y análisis sean confiables y efectivos. Este proceso permite evaluar cómo se desempeñará el modelo con datos nuevos y no vistos, lo que resulta esencial para cualquier proyecto de ciencia de datos. A continuación, exploraremos las diferentes técnicas de validación, con un enfoque especial en la validación cruzada y cómo SciKit-Learn facilita este proceso.

¿Qué es la validación de modelos y por qué es importante?

La validación de modelos es el proceso de verificar que un modelo pueda generalizar bien a nuevos conjuntos de datos. Esto implica verificar que el rendimiento del modelo no es únicamente una consecuencia de haberse adaptado demasiado a los datos de entrenamiento, sino que puede hacer predicciones precisas en datos no vistos.

¿Cómo se realiza la validación cruzada?

La validación cruzada es una técnica que mejora la estimación del rendimiento de un modelo al usar distintos subconjuntos de datos para entrenar y validar el modelo múltiples veces.

Entendiendo la validación cruzada k-fold

En este método, los datos se dividen en 'k' subconjuntos. El modelo es entrenado con 'k-1' de estos subconjuntos y validado con el subconjunto restante. Este proceso se repite 'k' veces, cada vez con un subconjunto diferente como conjunto de validación.

¿Cómo se implementa la validación cruzada leave-one-out?

Es un caso especial de validación cruzada k-fold donde 'k' es igual al número total de observaciones. Aquí, cada iteración del modelo se entrena con todos los datos excepto uno, que se utiliza para la validación. Este método es intensivo en términos de cálculo pero puede ser muy efectivo con conjuntos de datos pequeños.

Diferentes enfoques de validación: Usos y recomendaciones

Holdout: Es un método de validación simple que divide el conjunto de datos en dos partes: entrenamiento y prueba, generalmente en una relación 70/30. Este enfoque es adecuado para prototipos rápidos o cuando hay limitaciones de tiempo y recursos computacionales.
Validación cruzada k-fold: Recomendable para la mayoría de los casos cuando se dispone de capacidad de cómputo y tiempo suficientes para realizar pruebas más extensivas.
Leave-one-out: Adecuada cuando se requiere una validación exhaustiva y se dispone de alta capacidad computacional o cuando el conjunto de datos es pequeño.

¿Qué herramientas utiliza Scikit-learn para la validación cruzada?

Scikit-learn es una biblioteca de Python ampliamente utilizada en machine learning que ofrece herramientas robustas para implementar técnicas de validación. Proporciona funciones como cross_val_score, cross_validate, y objetos como KFold, y LeaveOneOut, que automatizan y facilitan realizar validaciones cruzadas de manera eficaz.

La correcta validación de modelos es esencial para asegurarse de que los algoritmos de machine learning sean útiles y aplicables al mundo real. Recordemos la frase: "todos los modelos son incorrectos, pero algunos son útiles". Esa utilidad se determina a través de una exhaustiva validación. Con las herramientas adecuadas y un entendimiento claro de las técnicas de validación, se pueden construir modelos confiables y efectivos para cualquier desafío que se presente en el campo del machine learning. ¡Adelante con tu aprendizaje y uso de estas técnicas para que tus proyectos de ciencia de datos sean más exitosos!

Franco Manca

student•

++Validación de nuestro modelo usando Cross Validation++

La última palabra siempre la van a tener los datos.

Todas nuestras intuiciones no tiene nada que hacer frente a lo que digan los datos y las matemáticas que aplicamos sobre estos datos. Por eso es importante siempre tener rigurosidad a la hora de evaluar los resultados que estamos recibiendo.

Necesitamos mentalidad de testeo.

No se trata solamente de probar un poco al principio y un poco al final, sino que tendremos que probar constantemente durante todo el proceso, para poder encontrar cuál es la solución óptima que realmente nos soluciona el problema que tenemos pendiente, todo esto:
- con varias formas
- con varios conjuntos de datos
- con varias configuraciones de parámetros
- con varias distribuciones de nuestros datos

Todos los modelos son malos, solamente algunos son útiles.

Todos los modelos que nosotros hacemos en últimas son una sobre simplificación de lo que pasa realmente. Entonces nunca nuestros modelos van a corresponder con la realidad al cien por ciento. Si jugamos lo suficiente y si somos lo suficientemente hábiles para configurar, vamos a llegar a un punto donde el modelo que estamos trabajando va a ser útil para ciertos casos específicos dentro del mundo real. . . . ++Tipos de validación++
Hold-Out

Se trata de dividir nuestros datos entrenamiento/pruebas, básicamente consiste en usar porcentajes fijos, por lo regular 70% de entrenamiento y 30% de pruebas.

!hold-out !hold-out-strategy

¿Cuándo utilizar Hold-on?

Se requiere un prototipado rápido.
No se tiene mucho conocimiento en ML.
No se cuenta con abundante poder de cómputo. . .
K-Folds

Usar validación cursada K-Fold, aquí vamos a plegar nuestros datos k veces, el k es un parámetro que nosotros definimos y en esos pliegues vamos a utilizar diferentes partes de nuestro dataset como entrenamiento y como test, de tal manera que intentemos cubrir todos los datos de entrenamiento y de test, al finalizar el proceso.

!k-fold !k-fold-strtegy

¿Cuándo utilizar K-Folds?

Recomendable en la mayoría de los casos.
Se cuenta con un equipo suficiente para desarrollar ML.
Se require la integración con técnicas de optimización paramétrica.
Se tiene más tiempo para las pruebas. . .
LOOCV

Validación cruzada LOOCV, Leave One Out Cross Validation. Este es el método más intensivo, ya que haremos una partición entre entrenamiento y pruebas, porque vamos a hacer entrenamiento con todos los datos, salvo 1 y vamos a repetir este proceso tantas veces hasta que todos los datos hayan sido probados.

!loocv

¿Cuándo utilizar LOOCV?

Se tiene gran poder de computo
Se cuetan con pocos datos para poder dividir por Train/Test
Cuando se quiere probar todos los casos posibles (para personas con TOC)

Juan R. Vergara M.

student•

Excelente resumen amigo 👍🥇💡

Juan José Mamani Tarqui

student•

Muy buen aporte compañero grxs

María José Medina

student•

"All models are wrong, but some are useful"

Juan R. Vergara M.

student•

So true.

Jorge Sebastian Alvarez Herrera

student•

Investigando en google encontré que no se llama Hold On si no Hold Out

Kenny Emmanuel Lajara Aquino

student•

Confirmed!

Franco Manca

student•

Confirmado es Hold-Out

Holdout method by Wikipedia#Holdout_method)
Hold-out vs. Cross-validation in Machine Learning

Rodrigo Urquizo Yepez

student•

Los expertos en AI dicen que el que tiene exito en machine learning no es el que tiene el mejor algoritmo, sino el que tiene mas datos.

Luis Eduardo Chacón Wilches

student•

Lo complementaria, con más datos pero de calidad!

Robinson Moreno

student•

Lo que hace este profe de explicarte bien el porque y cuando usarlo antes de implementar el codigo, le suma muchos puntos. Ya que pocos lo hacen de esta manera tan adecuada y entendible.

José Joaquín Tripp Gudiño

student•

Usar cross validation en grandes sets de datos, consume bastante poder de computo. Una recomendación que me daban en el trabajo, es primero tratar de optimizar lo más que pueda el modelo con el clásico split 80/20, y ya que se tenga el o los "ganadores" entonces validar con K-fold = 10 para asegurarnos de tener un accuracy más certero y no estar en overfitting con el set de entrenamiento. 😊

Cesar Uribe

student•

LOOCV no es Left Only One Cross Validation sino Leave-One-Out-Cross-Validation

Jhon Freddy Tavera Blandon

student•

Beneficios de la Validación Cruzada:

Proporciona una evaluación más robusta del rendimiento del modelo al utilizar múltiples divisiones de datos.

Ayuda a detectar problemas de sobreajuste y subajuste al evaluar el modelo en diferentes conjuntos de prueba.

Aprovecha al máximo el uso de los datos disponibles para entrenar y evaluar el modelo.

La elección entre la validación cruzada K-fold y Hold-Out depende de la disponibilidad de datos y los recursos computacionales. La validación cruzada K-fold tiende a ser más confiable pero requiere más tiempo de cómputo.

En resumen

la validación cruzada es una técnica fundamental para evaluar y validar modelos de aprendizaje automático, lo que garantiza que el modelo sea capaz de generalizar correctamente a nuevos datos y evitando problemas de sobreajuste.

Hugo Montoya Diaz

student•

Julián Cárdenas

student•

Buen ejemplo!

David fernando Pinzon suarez

student•

Cual es la diferencia entre cross_validate y cross_val_score?

Daniel Correa

student•

cross_val_score solo devuelve una metrica, cross_validate devuelve mas, si no estoy mal, la metrica que comparten es train_scores

Santiago García Rincón

student•

La diferencia entre cross_validate y cross_val_score radica en cómo se utilizan y qué información devuelven en el contexto de la validación cruzada en la biblioteca de Python scikit-learn.

cross_val_score es una función que permite realizar la validación cruzada y obtener una medida de rendimiento específica para un estimador dado. Toma como entrada un estimador (modelo), un conjunto de datos, una métrica de rendimiento y opcionalmente el número de pliegues en los que se divide el conjunto de datos. Devuelve una matriz de valores de rendimiento para cada pliegue, lo que permite obtener una estimación del rendimiento del modelo.

Por otro lado, cross_validate es una función más completa y flexible que permite realizar validación cruzada y obtener múltiples medidas de rendimiento para un estimador dado. Además de proporcionar una medida de rendimiento, también devuelve información adicional, como el tiempo de ajuste y predicción para cada pliegue y los puntajes de entrenamiento. Esta función es útil cuando se necesita más información sobre el rendimiento y el comportamiento del modelo en cada pliegue.

FELIX DAVID CORDOVA GARCIA

student•

TOC= TRANSTORNO OBSESIVO COMPULSIVO

Camilo Andrés Hurtado Erasso

student•

jajaja esa parte me pareció muy graciosa.

Miguel Angel Velazquez Romero

student•

Tipos de validación.

Hold-On: Dividir nuestros datos entrenamiento/pruebas, básicamente consiste en usar porcentajes fijos, por lo regular 70% de entrenamiento y 30% de pruebas.
K-Folds: Usar validación cursada, aquí vamos a plegar nuestros datos k veces, el k es un parámetro que nosotros definimos y en esos pliegues vamos a utilizar diferentes partes de nuestro dataset como entrenamiento y como test, de tal manera que intentemos cubrir todos los datos de entrenamiento y de test, al finalizar el proceso.
LOOCV: Validación cruzada, este es el método más intensivo, ya que haremos una partición entre entrenamiento y pruebas, porque vamos a hacer entrenamiento con todos los datos, salvo 1 y vamos a repetir este proceso tantas veces hasta que todos los datos hayan sido probados.

¿Cuándo utilizar Hold-on?

Se requiere un prototipado rápido.
No se tiene mucho conocimiento en ML.
No se cuenta con abundante poder de cómputo.

¿Cuándo utilizar K-Folds?

Recomendable en la mayoría de los casos.
Se cuenta con un equipo suficiente para desarrollar ML.
Se require la integración con técnicas de optimización paramétrica.
Se tiene más tiempo para las pruebas.

Andres Martin

student•

Leandro Tenjo

student•

🤔

¿Se podría decir que LOOCV seria un K-Fold con K igual a la longitud total de los datos?

Es decir.

¿Si tengo 2500 datos, entonces K-Fold con k=2500 seria igual a ejecutar LOOCV?

Antonio Demarco Bonino

student•

Con estas metáforas de Caperucita roja se entiende mejor los conceptos de Cross Validation:

Hold-Out (Entrenamiento/Prueba):
- Metáfora: Es como si Caperucita Roja solo escuchara el consejo de su madre (los datos de entrenamiento) y luego se aventurara por el bosque (los datos de prueba) por su cuenta. Solo tiene una oportunidad para ver si aplica bien lo aprendido.
Validación Cruzada K-Folds:
- Metáfora: Imagina que Caperucita Roja realiza múltiples viajes por diferentes caminos del bosque, recordando más consejos de su madre cada vez. Al final, promedia sus experiencias para encontrar la mejor forma de llegar a salvo.
LOOCV (Validación Cruzada Leave-One-Out):
- Metáfora: Es como si Caperucita Roja viajara por el bosque múltiples veces, pero cada vez enfocándose en un consejo o detalle específico. Al final, considera todos los posibles consejos, pero le tomó mucho más tiempo que la Validación Cruzada K-Folds.

Ian Cristian Ariel Yané

student•

jajajajaj, me senti escuchado con lo de TOC. Me lo vendiste

Diego Jurado

student•

Entonces todos los modelos son malos? Siempre resultara mas aportante el analisis del cientifico de datos

Juan Jose Sepulveda Calderon

student•

Después de la etapa de entrenamiento viene la etapa de validación, donde el modelo se evalúa con datos que no se han utilizado para entrenarlo, con el fin de medir su precisión y desempeño.

Sebastian Nolasco

student•

Aquí hay un artículo buenísimo sobre cross validation: Cross validation techniques

Miguel R Montilla

student•

Aquí un video muy bueno sobre cross-validation

Validación Cruzada en Modelos de Machine Learning

Aprender los conceptos clave

Curso Completo de Machine Learning con Scikit-learn para Principiantes

Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo

Problemas de Clasificación, Regresión y Clustering con Scikit-learn

Fundamentos Matemáticos para Machine Learning Avanzado

Iniciar un proyecto con sklearn

Configuración Profesional de Entorno de Trabajo para Python

Instalación y configuración de librerías para Python

Análisis de Datos para el Bienestar y la Felicidad Humana

Optimización de features

Selección de Variables en Modelos de Aprendizaje Automático

Reducción de Dimensionalidad con Análisis de Componentes Principales

Reducción de Dimensionalidad y Regresión Logística con Python

Clasificación de Enfermedad Cardiaca con PCA y Regresión Logística

Funciones Kernel en la Clasificación de Datos Complejos

Regularización en Modelos de Machine Learning

Implementación de Regularización en Modelos de Regresión Lineal

Análisis de Resultados en Modelos de Regresión Ridge y Lasso

Regularización ElasticNet con Scikit-learn: Conceptos y Aplicación

Regresiones robustas

Identificación de Valores Atípicos en Datos para Modelos Predictivos

Técnicas de Regresión Robusta: RANSAC y Huber en Scikit-Learn

Regresión Lineal y Soporte Vectorial: Manejo de Datos Atípicos

Automatización de Modelos de Predicción en Python

Métodos de ensamble aplicados a clasificación

Métodos de Ensamble: Bagging y Boosting en Machine Learning

Implementación de Bagging Classifier con SAIC en Análisis Cardiaco

Métodos de Ensamble para Mejorar Clasificación en Machine Learning

Implementación de Gradient Boosting para Clasificación de Datos

Clustering

Agrupamiento de Datos en Aprendizaje No Supervisado

Agrupamiento de Caramelos con K-Means y Pandas

Agrupamiento de Datos con Algoritmo Mean Shift

Optimización paramétrica

Validación Cruzada en Modelos de Machine Learning

Validación Cruzada con Scikit-learn: Cruz Vales Cor y KFold

Optimización de Modelos con Búsqueda en Grilla y Aleatoria

Automatización de Parámetros en Modelos de Regresión con Random Forest

Optimización Automática de Modelos con Auto-sklearn

Salida a producción

Estructuración Modular de Código Python para Machine Learning

Automatización de Modelos Machine Learning con Python

Publicación de Modelos de IA con Flask y Python

Optimización de Modelos de Machine Learning para Producción

Recursos para Aprender Machine Learning y Data Science