Entrenamiento y evaluación de modelos de machine learning

Clase 16 de 20 • Curso de Fundamentos para AI y Machine Learning

Resumen

Objetivo del profesor

El objetivo de esta clase era enseñar a los estudiantes el proceso completo de entrenamiento y evaluación de modelos de machine learning, enfocándose en la importancia de la evaluación rigurosa para determinar si un modelo realmente funciona en casos nuevos, no solo en los datos de entrenamiento.

Habilidades desarrolladas

Entrenamiento de múltiples modelos: Capacidad para implementar y entrenar diferentes algoritmos de clasificación
Evaluación comparativa: Habilidad para comparar el rendimiento de diferentes modelos usando métricas apropiadas
Interpretación de métricas: Comprensión de accuracy, precisión, recall, F1-score y ROC
Análisis de matrices de confusión: Identificación de patrones de error en las predicciones
Selección de modelos: Criterios para elegir el modelo más adecuado según el contexto del problema
Implementación práctica: Uso de pipelines de scikit-learn para automatizar el proceso

Conceptos clave

Entrenamiento vs. Evaluación: Diferencia entre enseñar al modelo y validar su aprendizaje real
Generalización: Capacidad del modelo para predecir correctamente en datos no vistos
Overfitting: Cuando el modelo memoriza en lugar de aprender patrones generalizables
Métricas de evaluación: Diferentes formas de medir el rendimiento del modelo
Matriz de confusión: Herramienta para analizar errores específicos del modelo
Estratificación: Mantener la misma distribución de clases en train y test
Pipeline de ML: Automatización del flujo de preprocesamiento y modelado

Palabras clave importantes

Machine Learning
Entrenamiento
Evaluación
Métricas (accuracy, precisión, recall, F1-score, ROC)
Matriz de confusión
Generalización
Overfitting
Regresión logística
Random Forest
Gradient Boosting
Pipeline
Estratificación
Validación
Clasificación

Hechos importantes

[00:32] La evaluación rigurosa no es opcional en machine learning
[01:06] Se compararán tres modelos diferentes: regresión logística, random forest y gradient boosting
[02:56] Se usa una división 80/20 para entrenamiento y prueba
[03:00] La estratificación mantiene la misma distribución de la variable objetivo
[05:31] Se utilizan múltiples métricas: accuracy, precisión, recall, F1 y ROC
[07:00] Modelos con 100% de precisión pueden indicar problemas en los datos
[09:00] El soporte indica cuántos registros hay de cada clase
[10:11] Los promedios ponderados consideran el número de observaciones por clase

Principales puntos de datos

Semilla aleatoria: 42 (para replicabilidad)
División de datos: 80% entrenamiento, 20% prueba
Modelos comparados: 3 (Regresión Logística, Random Forest, Gradient Boosting)
Iteraciones iniciales: 1000 (reducidas a 3 para ser más realista)
Estimadores: 300 (reducidos a 3)
Métricas evaluadas: 5 (accuracy, precisión, recall, F1-score, ROC)
[11:00] Registros en test: ~84 total (31 clase 0, 53 clase 1)