Scikit-learn para clasificación con Iris Dataset
Clase 13 de 20 • Curso de Fundamentos para AI y Machine Learning
Resumen
Objetivo del profesor
El objetivo de esta clase era introducir a los estudiantes a Scikit-learn como la herramienta fundamental para implementar algoritmos de machine learning, enseñándoles a través de un ejemplo práctico con el dataset Iris cómo entrenar, comparar y evaluar múltiples modelos de clasificación usando una metodología estándar.
Habilidades desarrolladas
- Implementación de modelos de machine learning usando Scikit-learn
- Comparación sistemática de algoritmos de clasificación
- Evaluación de rendimiento de modelos usando métricas estándar
- Preprocesamiento de datos con normalización y escalamiento
- Validación de modelos con datos nuevos
- Interpretación de resultados y matrices de confusión
Conceptos clave
- [0:17] Scikit-learn: Librería de machine learning con API consistente y elegante
- [0:52] API consistente: Uso de métodos .fit(), .predict() y .score() para todos los modelos
- [1:19] Iris Dataset: Conjunto de datos clásico para clasificación de especies de flores
- [2:51] Train-test split: División de datos en conjuntos de entrenamiento y prueba
- [3:09] Estratificación: Mantener la misma distribución de clases en train y test
- [3:53] Escalamiento estándar: Normalización de datos para ciertos algoritmos
- [4:26] Modelos de clasificación: Regresión logística, árboles de decisión, random forest, SVM
- [6:24] Matriz de confusión: Herramienta para evaluar el rendimiento de clasificación
- [6:40] Área bajo la curva (AUC): Métrica de evaluación del modelo
Palabras clave técnicas
- Scikit-learn
- Machine learning
- Clasificación
- Train-test split
- Estratificación (stratify)
- StandardScaler
- Regresión logística
- Árbol de decisión
- Random Forest
- Support Vector Machine (SVM)
- Matriz de confusión
- Precisión (accuracy)
- F1-score
- AUC (Area Under Curve)
Hechos importantes
- [0:33] Scikit-learn fue desarrollado en 2007 durante un Google Summer of Code
- [0:37] Mantenido por comunidad internacional y respaldado por Inria y Google
- [1:12] Una vez que sabes usar un modelo en Scikit-learn, sabes usar prácticamente todos
- [2:51] Test size de 0.25 (25% para prueba, 75% para entrenamiento)
- [3:48] Random state = 0 para reproducibilidad de resultados
Principales puntos de datos
- [6:33] Regresión logística: 86% de precisión y F1-score
- [6:59] Árbol de decisión: 97% de precisión y F1-score
- [7:03] Random Forest: 94% de precisión y F1-score
- [7:07] Support Vector Machine: 97% de precisión y F1-score
- [7:18] Mejor modelo seleccionado: Árbol de decisión con 97% de precisión
- [7:31] AUC del modelo ganador: 97%
- [8:37] Predicciones correctas: setosa, versicolor, virginica (100% de acierto en datos de prueba)