Entrenamiento y evaluación de modelos de machine learning
Clase 16 de 20 • Curso de Fundamentos para AI y Machine Learning
Resumen
Objetivo del profesor
El objetivo de esta clase era enseñar a los estudiantes el proceso completo de entrenamiento y evaluación de modelos de machine learning, enfocándose en la importancia de la evaluación rigurosa para determinar si un modelo realmente funciona en casos nuevos, no solo en los datos de entrenamiento.
Habilidades desarrolladas
- Entrenamiento de múltiples modelos: Capacidad para implementar y entrenar diferentes algoritmos de clasificación
- Evaluación comparativa: Habilidad para comparar el rendimiento de diferentes modelos usando métricas apropiadas
- Interpretación de métricas: Comprensión de accuracy, precisión, recall, F1-score y ROC
- Análisis de matrices de confusión: Identificación de patrones de error en las predicciones
- Selección de modelos: Criterios para elegir el modelo más adecuado según el contexto del problema
- Implementación práctica: Uso de pipelines de scikit-learn para automatizar el proceso
Conceptos clave
- Entrenamiento vs. Evaluación: Diferencia entre enseñar al modelo y validar su aprendizaje real
- Generalización: Capacidad del modelo para predecir correctamente en datos no vistos
- Overfitting: Cuando el modelo memoriza en lugar de aprender patrones generalizables
- Métricas de evaluación: Diferentes formas de medir el rendimiento del modelo
- Matriz de confusión: Herramienta para analizar errores específicos del modelo
- Estratificación: Mantener la misma distribución de clases en train y test
- Pipeline de ML: Automatización del flujo de preprocesamiento y modelado
Palabras clave importantes
- Machine Learning
- Entrenamiento
- Evaluación
- Métricas (accuracy, precisión, recall, F1-score, ROC)
- Matriz de confusión
- Generalización
- Overfitting
- Regresión logística
- Random Forest
- Gradient Boosting
- Pipeline
- Estratificación
- Validación
- Clasificación
Hechos importantes
- [00:32] La evaluación rigurosa no es opcional en machine learning
- [01:06] Se compararán tres modelos diferentes: regresión logística, random forest y gradient boosting
- [02:56] Se usa una división 80/20 para entrenamiento y prueba
- [03:00] La estratificación mantiene la misma distribución de la variable objetivo
- [05:31] Se utilizan múltiples métricas: accuracy, precisión, recall, F1 y ROC
- [07:00] Modelos con 100% de precisión pueden indicar problemas en los datos
- [09:00] El soporte indica cuántos registros hay de cada clase
- [10:11] Los promedios ponderados consideran el número de observaciones por clase
Principales puntos de datos
- Semilla aleatoria: 42 (para replicabilidad)
- División de datos: 80% entrenamiento, 20% prueba
- Modelos comparados: 3 (Regresión Logística, Random Forest, Gradient Boosting)
- Iteraciones iniciales: 1000 (reducidas a 3 para ser más realista)
- Estimadores: 300 (reducidos a 3)
- Métricas evaluadas: 5 (accuracy, precisión, recall, F1-score, ROC)
- [11:00] Registros en test: ~84 total (31 clase 0, 53 clase 1)