Scikit-learn para clasificación con Iris Dataset

Clase 13 de 20Curso de Fundamentos de AI para Manejo de Datos

Contenido del curso

Resumen

Objetivo del profesor

El objetivo de esta clase era introducir a los estudiantes a Scikit-learn como la herramienta fundamental para implementar algoritmos de machine learning, enseñándoles a través de un ejemplo práctico con el dataset Iris cómo entrenar, comparar y evaluar múltiples modelos de clasificación usando una metodología estándar.

Habilidades desarrolladas

  • Implementación de modelos de machine learning usando Scikit-learn
  • Comparación sistemática de algoritmos de clasificación
  • Evaluación de rendimiento de modelos usando métricas estándar
  • Preprocesamiento de datos con normalización y escalamiento
  • Validación de modelos con datos nuevos
  • Interpretación de resultados y matrices de confusión

Conceptos clave

  • [0:17] Scikit-learn: Librería de machine learning con API consistente y elegante
  • [0:52] API consistente: Uso de métodos .fit(), .predict() y .score() para todos los modelos
  • [1:19] Iris Dataset: Conjunto de datos clásico para clasificación de especies de flores
  • [2:51] Train-test split: División de datos en conjuntos de entrenamiento y prueba
  • [3:09] Estratificación: Mantener la misma distribución de clases en train y test
  • [3:53] Escalamiento estándar: Normalización de datos para ciertos algoritmos
  • [4:26] Modelos de clasificación: Regresión logística, árboles de decisión, random forest, SVM
  • [6:24] Matriz de confusión: Herramienta para evaluar el rendimiento de clasificación
  • [6:40] Área bajo la curva (AUC): Métrica de evaluación del modelo

Palabras clave técnicas

  • Scikit-learn
  • Machine learning
  • Clasificación
  • Train-test split
  • Estratificación (stratify)
  • StandardScaler
  • Regresión logística
  • Árbol de decisión
  • Random Forest
  • Support Vector Machine (SVM)
  • Matriz de confusión
  • Precisión (accuracy)
  • F1-score
  • AUC (Area Under Curve)

Hechos importantes

  • [0:33] Scikit-learn fue desarrollado en 2007 durante un Google Summer of Code
  • [0:37] Mantenido por comunidad internacional y respaldado por Inria y Google
  • [1:12] Una vez que sabes usar un modelo en Scikit-learn, sabes usar prácticamente todos
  • [2:51] Test size de 0.25 (25% para prueba, 75% para entrenamiento)
  • [3:48] Random state = 0 para reproducibilidad de resultados

Principales puntos de datos

  • [6:33] Regresión logística: 86% de precisión y F1-score
  • [6:59] Árbol de decisión: 97% de precisión y F1-score
  • [7:03] Random Forest: 94% de precisión y F1-score
  • [7:07] Support Vector Machine: 97% de precisión y F1-score
  • [7:18] Mejor modelo seleccionado: Árbol de decisión con 97% de precisión
  • [7:31] AUC del modelo ganador: 97%
  • [8:37] Predicciones correctas: setosa, versicolor, virginica (100% de acierto en datos de prueba)