Modelación de Datos con Aprendizaje Supervisado y No Supervisado

Clase 18 de 31 • Curso para Crear tus Proyectos de Ciencia de Datos

Resumen

¿Cómo aplicar modelos de aprendizaje supervisado y no supervisado en tus proyectos?

La integración de aprendizaje automático es fundamental en muchos proyectos modernos. Entender cómo implementar modelos supervisados y no supervisados puede llevar tus habilidades al siguiente nivel. Vamos a explorar juntos cómo hacerlo en tu proyecto, usando un ejemplo práctico para ilustrar cómo son estos procesos.

¿Cómo preprocesar los datos para el aprendizaje supervisado?

El procesamiento de datos es crucial para el aprendizaje automático. Primero, necesitas convertir tus datos en un formato que los algoritmos de aprendizaje puedan comprender. Esto implica transformar variables categóricas en numéricas usando pandas, una poderosa biblioteca de Python.

import pandas as pd

def preprocesar_datos(df):
    for col in df.columns:
        if df[col].dtype == 'object':
            df[col].fillna(df[col].mode()[0], inplace=True)
            df[col] = df[col].astype('category').cat.codes
        else:
            df[col].fillna(df[col].median(), inplace=True)

# Supón que 'compras_df' es tu dataset enriquecido
preprocesar_datos(compras_df)

¿Cómo implementar un modelo de aprendizaje supervisado usando Random Forest?

Una vez que los datos están listos, puedes proceder a la construcción de tu modelo. Aquí, usaremos RandomForestRegressor de Scikit-learn para predecir los montos.

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score

# Variables de entrada (X) y de respuesta (y)
X = compras_df.drop('importe', axis=1)
y = compras_df['importe']

# Separar los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

# Crear y entrenar el modelo
regresor = RandomForestRegressor(n_estimators=1000, max_depth=4, random_state=42)
regresor.fit(X_train, y_train)

# Evaluar el modelo
predicciones = regresor.predict(X_test)
r2 = r2_score(y_test, predicciones)
print(f"R²: {r2}")

En este caso, el R² te ofrecerá una visión de qué tan bien se desempeña tu modelo en los datos de prueba. Este modelo es una excelente manera de entender el proceso, aunque no sea perfecto.

¿Qué otras estrategias en modelos no supervisados puedes utilizar?

Las técnicas no supervisadas son especialmente útiles para descubrir patrones ocultos. Dos técnicas populares son el análisis de clústeres y la detección de anomalías.

Análisis de clústeres de texto: Esta técnica es excelente para categorizar conjuntos grandes de datos de texto en grupos más pequeños y significativos.
Detección de anomalías en los montos: Ideal para identificar transacciones inusuales que podrían ser fraudulentas o erradas.

Al aplicar estas técnicas, puedes mejorar la calidad de los insights derivados de tus datos y descubrir patrones que no son evidentes a simple vista.

Recuerda que la clave del éxito en la implementación de modelos de aprendizaje es la comprensión detallada de tus datos y ajustarlos de acuerdo con la pregunta que deseas responder. Sigue experimentando y perfeccionando tus habilidades en el aprendizaje automático. La práctica continua te llevará a ser un experto en el campo. ¡Avanza con confianza y entusiasmo!

Comentarios

Ricardo Alanis

teacher•

Hola, seguramente notaste que el modelo aplicado resultó no ser tan bueno a la salida. Recuerda que a diferencia de muchos cursos, estamos usando un conjunto de datos recién salido del mundo real para generar el modelo, sin suficiente trabajo para poder tener la potencia inferencial necesaria.

No quiero dejar de mencionarte, que para mejorar este modelo tendríamos que continuar:

Enriqueciendo el conjunto de datos para describir mejor el contexto de las variables descritas: Todos los identificadores categóricos expandirlos con sus características.
Obtener más datos, que permitan al modelo imprimir más de las interacciones que tiene la información.

Sin duda, tendríamos que verificar si estamos en underfitting (Necesitamos mayor cantidad de características y datos) y llegar al punto de overfitting (Buscar expandir y generalizar el modelo) para ajustar y enfocarse a un modelo que generalice (Que baje su error en el set de testing)

Lo que vemos aquí es el ejemplo de como atacaríamos la primera iteración, pero tendríamos que continuar hasta el punto en el que la métrica de éxito de nuestro modelo (generalmente la precisión o Exhaustividad para modelos supervisados categóricos, la R2 o medidas de error para regresiones) esté más allá de nuestro limite inferior de tolerancia.

Para saber más de esto, te recomiendo los cursos de Machine Learning de aquí mismo: Tu escuela de data science en Platzi.

Juan R. Vergara M.

student•

Gracias por la explicación adicional 🚀🦾

Diego Jurado

student•

Gracias por el comentario. En alguna parte leí que en los modelos se buscaba el menos malo, que tan cierto es?

Julio César Alvarez Guillén

student•

Que buen curso, gracias Ricardo por compartir estos conocimientos

Ricardo Alanis

teacher•

gracias a ti por ser parte!

Juan R. Vergara M.

student•

Sí, ste curso cada vez se pone mejor 🚀

Andres Gutiérrez Castillo

student•

arreglando nulls

veo que algunos se perdieron en esta clase y puede ser debido a la primer paso realizado, les explico, practicamente estamos arreglando los nulls o datos faltantes que afectan los modelos de ML. lo haremos en 3 pasos:

usamos una lista que contiene el tipo de datos de cada columna
si el typo es "object" la columna es categorica entonces:
- llenamos nulos con la moda
- hacemos encoding de variables categoricas osea convertimos variables categoricas a numeros.
si no es typo "object" la columna es numerica entonces:
- llenamos nulos con la mediana ahora tenemos un dataset con puras variables numericas y sin datos nulos, listos para usarse en un modelo de ML.

data = df.copy()
for i, column in enumerate(list([str(d) for d in data.dtypes])):
    if column == "object":
        # llenamos null categoricos con la moda 
        data[data.columns[i]] = data[data.columns[i]].fillna(data[data.columns[i]].mode()) 
        # asignamos typo "catecory" | .cat.code hace encodign de variables categoricas
        data[data.columns[i]] = data[data.columns[i]].astype("category").cat.codes 
    else:
        #llenamos null numericos con la mediana 
        data[data.columns[i]] = data[data.columns[i]].fillna(data[data.columns[i]].median())

Ricardo Alanis

teacher•

Claro! sin duda, podemos cambiar el metodo con el que hacemos el fill de los datos, de acuerdo a nuestro caso (puede ser el promedio, minimo, maximo o lo que se busque)

El objetivo siempre es hacer algo que en general aporte mas de lo que perjudique.

Alfonso Andres Zapata Guzman

student•

Los valores faltantes a mi me gusta imputarlos con KNN. En el curso de imputacion de datos faltantes, analizamos varios metodos y metodos de imputacion como la media, mediana y otros afectan la leptocurtosis de nuestra distribucion ya que todos los valores van al punto medio de nuestra distribucion normal (en el caso de que sea normal). KNN por el contrario tiende a recrear los valores faltantes en promedio con una distribucion igual o similar a la de los valores que se usaron para recrear y es bastante sencilla de usar con respecto a otros metodos mas avanzados que tambien vimos en ese curso.

Thomas Gonzalez Rodrigues

student•

en stack me encontré una forma de simplificar el proceso de convertir una categoría a números se las dejo por si les sirve

series.astype('category').cat.codes

Ricardo Alanis

teacher•

Asi es!

Jhon Freddy Tavera Blandon

student•

Ricardo Alanis

teacher•

yay! Genial!

Thomas Gonzalez Rodrigues

student•

hola para esta parte del análisis resulta muy útil conocer herramientas que nos permitan entender que esta haciendo el modelo, para esto les recomiendo este curso realmente sencillo y gratis en Kaggle

https://www.kaggle.com/learn/machine-learning-explainability

Ricardo Alanis

teacher•

Muchas gracias Thomas! Le dare una revisada.

Oscar Javier Castelblanco Quintero

student•

No entendi un chorizo..

Ricardo Alanis

teacher•

Hola, Oscar. El core de este modulo principalmente es que veas los pasos básicos del aprendizaje supervisado: El obtener un set de entrenamiento, y a ese set tratarlo de distintas maneras para poder encontrar un modelo interesante.

Andres Martin

student•

creo que se deberia quitar importe en X es datos redundantes

FELIX DAVID CORDOVA GARCIA

student•

Hola Viendo rápidamente las columna, veo que la columna IMPORTE_GASTO_PROMEDIO tiene TODOS sus valores iguales, quizás hubo un error en alguna parte del código.....

Ricardo Alanis

teacher•

!!! Le doy una revisada, mi Felix!

Alfonso Andres Zapata Guzman

student•

No hay ningun error en el dataset, esa columna se relleno con el promedio de todos los gastos por beneficiario, el valor que aparece en el video se repite hasta la fila 12, ya que se repite el mismo beneficiario. Luego cambia a otro promedio y se repite n veces aparezca ese mismo beneficiario en el dataset.

compras_df[['BENEFICIARIO', 'IMPORTE_GASTO_PROMEDIO']][compras_df.BENEFICIARIO == 'LLANTAS Y SERVICIOS SERNA ANAHUAC,S.A. DE C.V.']

Fernando Chavez Caracas

student•

Yo vengo de la ruta de Data Science pero, no sé por qué, aún no ha salido algun curso de ML... Ya llegaré a eso; sin embargo, siguiendo el video y con mi conjunto de datos me salió un r2_score de 0.6879658753911081. ¿Es un buen valor?

Ricardo Alanis

teacher•

Depende, Mi Fernando. Recuerda que la R2 es una metrica de relación lineal entre dos variables. A veces, dos variables estan relacionadas más allá de lo lineal, por lo que la métrica de coeficiente de mutua información puede ser más poderoso.

Sin embargo, con esa relación ya es posible encarar una relación mas o menos valiosa desde el punto de vista estadístico.

Este articulo te puede ayudar en eso: https://blog.minitab.com/es/analisis-de-regresion-como-puedo-interpretar-el-r-cuadrado-y-evaluar-la-bondad-de-ajuste

Y este juego puede ayudarte a afianzar que sepas como ver una R2 al tiro :P https://guessthecorrelation.com/

Fernando Chavez Caracas

student•

Muchas gracias profe!... Usted siempre está al pendiente y se agradece.

Rodrigo Martinez

student•

Este fue mi codigo para manejar datetimes:

data = df.copy(deep=True)

for column in data.columns:
    if data[column].dtype == 'object':
        data[column] = data[column].fillna(data[column].mode()[0])
        data[column] = data[column].astype('category').cat.codes
    elif data[column].dtype == 'datetime64[ns]':
        data.drop(column, axis=1, inplace=True)
    else:
        data[column] = data[column].fillna(data[column].median())
        
data.head()
```data = df.copy(deep=True)
for column in data.columns:    if data\[column].dtype == 'object':        data\[column] = data\[column].fillna(data\[column].mode()\[0])        data\[column] = data\[column].astype('category').cat.codes    elif data\[column].dtype == 'datetime64\[ns]':        data.drop(column, axis=1, inplace=True)    else:        data\[column] = data\[column].fillna(data\[column].median())        data.head()

Oscar Rodrigo Chavez Calderon

student•

Ejecute mi codigo y me da este error

Alguien mas le paso? Saludos a todos

Lourdes Nuñez Burgos

student•

A mi no me arroja ningún resultado mi modelo supervisado, usé una data que encontré en Kaggle... alguien sabe el por qué? he buscado en Google pero no encuentro solución.. Gracias!

Ricardo Alanis

teacher•

Ya revisamos el codigo con Lourdes (ya que lo subio a github) y detectamos que hacia falta un pasito (:

Felix Gonzales

student•

y = data.pop('Venta'): Esto elimina la columna 'Venta' del DataFrame data y la asigna a la variable y. En problemas de regresión, y generalmente representa la variable de destino que estamos tratando de predecir.
X = data.copy(): Esto crea una copia del DataFrame data (sin la columna 'Venta') y la asigna a la variable X. X contendrá todas las características que se utilizarán para predecir la variable objetivo y.

Rafael Rivera

student•

Ricardo, están geniales las clases, ahora si veo la importancia de cursos anteriores y como aplicarlos.

Gracias por compartir tus conocimientos.

Ricardo Alanis

teacher•

Aqui al pendiente, lo que necesiten para lograr sus objetivos!

Diego Alejandro Hernandez Londono

student•

Es un regresor, no un clasificador.

Ricardo Alanis

teacher•

El regresor! No se que estaba pensando!! Gracias por la aclaración!

Ricardo Alanis

teacher•

Y lo digo un monton de veces, que pena! Esto a partir del minuto 8. Todo por nombrar la variable clf. Gracias por el catch!!

Jorge Olmus

student•

Este curso se encuentra en la ruta de Data Analyst en dónde no se encuentran cursos previos de ML ni otros que se recomiendan para este curso. Imposible entender esta clase en su totalidad.

Ricardo Alanis

teacher•

Bien por identificar ese tema, Jorge. Si, les recomendamos darle una pasada a los cursos de ML para hablar un poco de esto, si.

Freddy Alejandro Leal Gonzalez

student•

Llevo meses en este curso lo empecé el 22 de enero... no lo deje abandonado... llevo todo eso buscando y limpiando la data... por fin llegue al modelo y me imagino pasaré un buen rato en este punto XD

Ricardo Alanis

teacher•

A darle!!

Rubén Cuello

student•

Sinceramente no tengo idea que hice en la segunda mitad del video.

Ricardo Alanis

teacher•

Estamos armando los datos, preparandolos para ponerlos en un proceso de aprendizaje automatico. Te puedes dar una pasada a los cursos de ML antes para darle!!

Jose Manuel Rivas Márquez

student•

De esta clase si siento que aprendi menos que las demas,

Ricardo Alanis

teacher•

Gracias por el feedback Jose! Si he notado que quiza vale la pena incorporar más profundidad en el tema de ML. Para fortalecer esto, recomiendo cualquiera de las clases de ese tema en la escuela de Ciencia de Datos de Platzi!

data = df.copy()
for i, column in enumerate(list([str(d) for d in data.dtypes])):
    if column == "object":
        # llenamos null categoricos con la moda 
        data[data.columns[i]] = data[data.columns[i]].fillna(data[data.columns[i]].mode()) 
        # asignamos typo "catecory" | .cat.code hace encodign de variables categoricas
        data[data.columns[i]] = data[data.columns[i]].astype("category").cat.codes 
    else:
        #llenamos null numericos con la mediana 
        data[data.columns[i]] = data[data.columns[i]].fillna(data[data.columns[i]].median())

data = df.copy(deep=True)

for column in data.columns:
    if data[column].dtype == 'object':
        data[column] = data[column].fillna(data[column].mode()[0])
        data[column] = data[column].astype('category').cat.codes
    elif data[column].dtype == 'datetime64[ns]':
        data.drop(column, axis=1, inplace=True)
    else:
        data[column] = data[column].fillna(data[column].median())
        
data.head()
```data = df.copy(deep=True)
for column in data.columns:    if data\[column].dtype == 'object':        data\[column] = data\[column].fillna(data\[column].mode()\[0])        data\[column] = data\[column].astype('category').cat.codes    elif data\[column].dtype == 'datetime64\[ns]':        data.drop(column, axis=1, inplace=True)    else:        data\[column] = data\[column].fillna(data\[column].median())        data.head()

Modelación de Datos con Aprendizaje Supervisado y No Supervisado

Justificación y contexto de tu proyecto

Proyectos prácticos en ciencia de datos: del aprendizaje a la aplicación

Proyectos de Ciencia de Datos: Del Teórico al Práctico Realista

Cuándo iniciar un nuevo proyecto de ciencia de datos

Herramientas de Comunicación para Proyectos de Ciencia de Datos

Compartir Proyectos de Ciencia de Datos: Estrategias y Recursos

Comunicación Efectiva en Proyectos de Ciencia de Datos

Ejecutando un proyecto de ciencia de datos

Construcción de Proyectos en Ciencia de Datos: Planteamiento de Preguntas

Búsqueda y Selección de Conjuntos de Datos Eficientes

Análisis de Datos Abiertos para Detectar Anomalías en Compras Públicas

Limpieza de Datos: Técnicas y Buenas Prácticas

Limpieza de Datos con Python y Pandas para Proyectos de Transparencia

Exploración de Datos: Análisis Unidimensional y Bidimensional

Análisis y Exploración de Datos con Pandas y Matplotlib

Análisis Multidimensional y Visualización de Datos en Python

Enriquecimiento de Datos en Ciencia de Datos

Enriquecimiento de Datos para Modelos de Machine Learning

Modelos de Machine Learning: Supervisado y No Supervisado

Modelación de Datos con Aprendizaje Supervisado y No Supervisado

Clustering y Detección de Anomalías en Datos de Negocios

Detección de Anomalías en Datos Financieros con Modelos Gaussianos

Organización y Versionado de Proyectos con Git y Github

Publicación de Proyectos en GitHub: Limpieza y Conclusiones

Comunicando los resultados

Cómo Compartir Proyectos de Ciencia de Datos Efectivamente

Cómo Escribir un Block Post Técnico Efectivo

Presentaciones Efectivas en Comunidades Tecnológicas

Optimización de Repositorios en GitHub para Impacto Profesional

APIs Restful: Construcción y Despliegue Eficiente

Creación de Productos de Datos con Python y Herramientas Visuales

Últimos pasos

Cómo y Cuándo Dar Cierre a Proyectos de Ciencia de Datos

Recomendaciones para Compartir Proyectos de Datos

Presentación y Compartición de Proyectos de Ciencia de Datos