Scikit-learn para clasificación con Iris Dataset

Clase 13 de 20 • Curso de Fundamentos de AI para Manejo de Datos

Contenido del curso

Principios de la IA

1
Fundamentos de inteligencia artificial: conceptos, aplicaciones y ética
02:38 min
2
Diferencias entre inteligencia artificial, machine learning y deep learning
07:25 min

Modelo Predictivo

Tipos de Aprendizaje

Herramientas para IA

Ciclo de Vida ML

Ética en IA

Tomar examen

Resumen

Objetivo del profesor

El objetivo de esta clase era introducir a los estudiantes a Scikit-learn como la herramienta fundamental para implementar algoritmos de machine learning, enseñándoles a través de un ejemplo práctico con el dataset Iris cómo entrenar, comparar y evaluar múltiples modelos de clasificación usando una metodología estándar.

Habilidades desarrolladas

Implementación de modelos de machine learning usando Scikit-learn
Comparación sistemática de algoritmos de clasificación
Evaluación de rendimiento de modelos usando métricas estándar
Preprocesamiento de datos con normalización y escalamiento
Validación de modelos con datos nuevos
Interpretación de resultados y matrices de confusión

Conceptos clave

[0:17] Scikit-learn: Librería de machine learning con API consistente y elegante
[0:52] API consistente: Uso de métodos .fit(), .predict() y .score() para todos los modelos
[1:19] Iris Dataset: Conjunto de datos clásico para clasificación de especies de flores
[2:51] Train-test split: División de datos en conjuntos de entrenamiento y prueba
[3:09] Estratificación: Mantener la misma distribución de clases en train y test
[3:53] Escalamiento estándar: Normalización de datos para ciertos algoritmos
[4:26] Modelos de clasificación: Regresión logística, árboles de decisión, random forest, SVM
[6:24] Matriz de confusión: Herramienta para evaluar el rendimiento de clasificación
[6:40] Área bajo la curva (AUC): Métrica de evaluación del modelo

Palabras clave técnicas

Scikit-learn
Machine learning
Clasificación
Train-test split
Estratificación (stratify)
StandardScaler
Regresión logística
Árbol de decisión
Random Forest
Support Vector Machine (SVM)
Matriz de confusión
Precisión (accuracy)
F1-score
AUC (Area Under Curve)

Hechos importantes

[0:33] Scikit-learn fue desarrollado en 2007 durante un Google Summer of Code
[0:37] Mantenido por comunidad internacional y respaldado por Inria y Google
[1:12] Una vez que sabes usar un modelo en Scikit-learn, sabes usar prácticamente todos
[2:51] Test size de 0.25 (25% para prueba, 75% para entrenamiento)
[3:48] Random state = 0 para reproducibilidad de resultados

Principales puntos de datos

[6:33] Regresión logística: 86% de precisión y F1-score
[6:59] Árbol de decisión: 97% de precisión y F1-score
[7:03] Random Forest: 94% de precisión y F1-score
[7:07] Support Vector Machine: 97% de precisión y F1-score
[7:18] Mejor modelo seleccionado: Árbol de decisión con 97% de precisión
[7:31] AUC del modelo ganador: 97%
[8:37] Predicciones correctas: setosa, versicolor, virginica (100% de acierto en datos de prueba)

Comentarios

Aurea Regina Guzmán Montero

student•

Cuando empecé a ver estos temas usé herramientas más visuales como PictoBlox y Orange Data Mining, justo en Orange Data Mining está este Dataset Iris precargado. Si eres de los que le ayudan más elementos gráficos para aprender, te recomiendo ampliamente hacer probar también en Orange, lo encuentras en Anaconda o en su sitio oficial: :)

Luis Cesar Guadarrama Jimenez

student•

Completé el reto de la clase aplicando modelos de clasificación con scikit-learn, tomando un dataset externo elegido por mí. En este caso utilicé un conjunto de datos sobre estudiantes para predecir si terminarán o no un curso, analizando variables como edad, educación, estado laboral, dispositivo, calidad de conexión y otros factores relevantes.

Aquí pueden ver la práctica completa en Kaggle:

🔗

Si alguien está tomando el mismo reto y quiere comparar métodos, métricas o necesita ayuda con su proyecto, con gusto puedo apoyar.

MARIA TERESA PANIAGUA RIVERA

student•

Gracias

Jesus Eduardo Castillo Saavedra

student•

Aquí la practica de lo que pedía con ayuda de gemeni pude completarlo y comprender mejor

Este es el link del dataset que utilice

José Francisco Pérez

student•

Muy buena sugerencia el link para los datasets. En mi caso utilicé el de alertas sismicas:

Jhon Freddy Tavera Blandon

student•

Brenda Iliana Gallegos López

student•

jose nazate

student•

Frida. donde encuentro el dataset con el cual se hacen los ejercicios de entrenamiento?

Scikit-learn para clasificación con Iris Dataset

Principios de la IA

Fundamentos de inteligencia artificial: conceptos, aplicaciones y ética

Diferencias entre inteligencia artificial, machine learning y deep learning

Modelo Predictivo

Regresión lineal con Python para predecir precios inmobiliarios

Implementación manual de regresión lineal con NumPy

Regresión lineal con Scikit-learn y evaluación estadística

Tipos de Aprendizaje

Aprendizaje supervisado: regresión y clasificación en machine learning

Detección de spam con Python y Google Colab

Clustering y normalización de datos con K-means

Reducción de dimensionalidad con PCA para análisis de datos

Aprendizaje por refuerzo con Q-learning y OpenAI Gym

Herramientas para IA

Instalación de Jupyter Notebook y Anaconda para análisis de datos

Creación y manipulación de series y data frames con Pandas