Modelación de Datos con Aprendizaje Supervisado y No Supervisado

Clase 18 de 31 • Curso para Crear tus Proyectos de Ciencia de Datos

Contenido del curso

Justificación y contexto de tu proyecto

Ejecutando un proyecto de ciencia de datos

Comunicando los resultados

Últimos pasos

Resumen

Transformar un conjunto de datos con variables categóricas y numéricas en un modelo de aprendizaje automático funcional es uno de los pasos más importantes en cualquier proyecto de ciencia de datos. Aquí se recorre el proceso completo: desde la preparación de variables hasta el entrenamiento de un Random Forest Regressor, pasando por la separación de datos en training y testing.

¿Cómo convertir variables categóricas a numéricas para aprendizaje automático?

Antes de alimentar cualquier modelo supervisado, todas las columnas deben ser numéricas. El proceso consiste en recorrer cada columna del dataset y tomar una acción según su tipo de dato [01:33].

Si la columna es de tipo objeto (texto), se llenan los valores faltantes con la moda y luego se convierte a tipo category de Pandas, que permite tener una representación tanto textual como numérica mediante .astype('category').cat.codes.
Si la columna ya es numérica, se llenan los faltantes con la mediana [02:42].
Las variables booleanas en Python se representan como unos y ceros, así que también son compatibles con los modelos sin transformación adicional [03:18].

Esta conversión garantiza que el dataset quede listo para ser procesado por algoritmos de machine learning sin perder la trazabilidad de las categorías originales.

¿Qué pasos se siguen para entrenar un modelo supervisado con Random Forest?

Una vez que los datos son numéricos, se importa el Random Forest Regressor de scikit-learn junto con la función train test split para dividir los datos [03:28].

¿Cómo separar datos en entrenamiento y prueba?

Se define la variable de respuesta Y (en este caso, el importe) y las características X como el resto de columnas. La separación se realiza con train_test_split usando un test_size de 0.33, es decir, el treinta y tres por ciento de los datos se reservan para prueba [04:06].

El parámetro random_state=42 asegura la repetitividad del experimento: cualquier persona que ejecute el mismo código obtendrá resultados idénticos [04:30].
La proporción de datos para testing depende de cada proyecto; a veces se usa veinte por ciento, a veces más.

¿Qué hiperparámetros configurar en el Random Forest?

El clasificador se configura con dos hiperparámetros principales [04:50]:

n_estimators = 1000: cantidad de árboles en el bosque. Mil es un buen punto de partida, aunque puede optimizarse con técnicas como grid search.
max_depth = 4: profundidad máxima de cada árbol. Una regla heurística útil es usar la mitad o la raíz cuadrada de la cantidad de características disponibles [05:12].

Con estos parámetros definidos, se entrena el modelo llamando a .fit(X_train, y_train) [05:30].

¿Cómo evaluar el rendimiento del modelo con R2 score?

Para medir qué tan bien predice el modelo, se utiliza el R2 score, que compara las predicciones del modelo sobre X_test contra los valores reales y_test [05:45]. En este ejemplo, el resultado es bajo, lo cual se esperaba porque se trata de un modelo de juguete diseñado para demostrar el flujo de trabajo, no para hacer predicciones precisas.

Un modelo funciona correctamente cuando el error de testing es bajo y el modelo puede generalizar ante datos nuevos [06:10]. La selección de la métrica de éxito adecuada es fundamental: el R2 es una opción para regresión, pero cada problema puede requerir métricas distintas.

Lo esencial aquí es comprender el proceso de transformación de datos textuales a numéricos, la separación en conjuntos de entrenamiento y prueba, y la evaluación del modelo. Estos pasos son la base sobre la que se construyen modelos más robustos. Si ya has aplicado este flujo en tus proyectos, comparte qué hiperparámetros te han funcionado mejor.

Comentarios

Ricardo Alanis

teacher•

Hola, seguramente notaste que el modelo aplicado resultó no ser tan bueno a la salida. Recuerda que a diferencia de muchos cursos, estamos usando un conjunto de datos recién salido del mundo real para generar el modelo, sin suficiente trabajo para poder tener la potencia inferencial necesaria.

No quiero dejar de mencionarte, que para mejorar este modelo tendríamos que continuar:

Enriqueciendo el conjunto de datos para describir mejor el contexto de las variables descritas: Todos los identificadores categóricos expandirlos con sus características.
Obtener más datos, que permitan al modelo imprimir más de las interacciones que tiene la información.

Sin duda, tendríamos que verificar si estamos en underfitting (Necesitamos mayor cantidad de características y datos) y llegar al punto de overfitting (Buscar expandir y generalizar el modelo) para ajustar y enfocarse a un modelo que generalice (Que baje su error en el set de testing)

Lo que vemos aquí es el ejemplo de como atacaríamos la primera iteración, pero tendríamos que continuar hasta el punto en el que la métrica de éxito de nuestro modelo (generalmente la precisión o Exhaustividad para modelos supervisados categóricos, la R2 o medidas de error para regresiones) esté más allá de nuestro limite inferior de tolerancia.

Para saber más de esto, te recomiendo los cursos de Machine Learning de aquí mismo: Tu escuela de data science en Platzi.

Juan R. Vergara M.

student•

Gracias por la explicación adicional 🚀🦾

Diego Jurado

student•

Gracias por el comentario. En alguna parte leí que en los modelos se buscaba el menos malo, que tan cierto es?

Julio César Alvarez Guillén

student•

Que buen curso, gracias Ricardo por compartir estos conocimientos

Ricardo Alanis

teacher•

gracias a ti por ser parte!

Juan R. Vergara M.

student•

Sí, ste curso cada vez se pone mejor 🚀

Andres Gutiérrez Castillo

student•

arreglando nulls

veo que algunos se perdieron en esta clase y puede ser debido a la primer paso realizado, les explico, practicamente estamos arreglando los nulls o datos faltantes que afectan los modelos de ML. lo haremos en 3 pasos:

usamos una lista que contiene el tipo de datos de cada columna
si el typo es "object" la columna es categorica entonces:
- llenamos nulos con la moda
- hacemos encoding de variables categoricas osea convertimos variables categoricas a numeros.
si no es typo "object" la columna es numerica entonces:
- llenamos nulos con la mediana ahora tenemos un dataset con puras variables numericas y sin datos nulos, listos para usarse en un modelo de ML.

data = df.copy()
for i, column in enumerate(list([str(d) for d in data.dtypes])):
    if column == "object":
        # llenamos null categoricos con la moda 
        data[data.columns[i]] = data[data.columns[i]].fillna(data[data.columns[i]].mode()) 
        # asignamos typo "catecory" | .cat.code hace encodign de variables categoricas
        data[data.columns[i]] = data[data.columns[i]].astype("category").cat.codes 
    else:
        #llenamos null numericos con la mediana 
        data[data.columns[i]] = data[data.columns[i]].fillna(data[data.columns[i]].median())

Ricardo Alanis

teacher•

Claro! sin duda, podemos cambiar el metodo con el que hacemos el fill de los datos, de acuerdo a nuestro caso (puede ser el promedio, minimo, maximo o lo que se busque)

El objetivo siempre es hacer algo que en general aporte mas de lo que perjudique.

Alfonso Andres Zapata Guzman

student•

Los valores faltantes a mi me gusta imputarlos con KNN. En el curso de imputacion de datos faltantes, analizamos varios metodos y metodos de imputacion como la media, mediana y otros afectan la leptocurtosis de nuestra distribucion ya que todos los valores van al punto medio de nuestra distribucion normal (en el caso de que sea normal). KNN por el contrario tiende a recrear los valores faltantes en promedio con una distribucion igual o similar a la de los valores que se usaron para recrear y es bastante sencilla de usar con respecto a otros metodos mas avanzados que tambien vimos en ese curso.

Thomas Gonzalez Rodrigues

student•

en stack me encontré una forma de simplificar el proceso de convertir una categoría a números se las dejo por si les sirve

series.astype('category').cat.codes

Ricardo Alanis

teacher•

Asi es!

Jhon Freddy Tavera Blandon

student•

Ricardo Alanis

teacher•

yay! Genial!

Thomas Gonzalez Rodrigues

student•

hola para esta parte del análisis resulta muy útil conocer herramientas que nos permitan entender que esta haciendo el modelo, para esto les recomiendo este curso realmente sencillo y gratis en Kaggle

https://www.kaggle.com/learn/machine-learning-explainability

Ricardo Alanis

teacher•

Muchas gracias Thomas! Le dare una revisada.

Oscar Javier Castelblanco Quintero

student•

No entendi un chorizo..

Ricardo Alanis

teacher•

Hola, Oscar. El core de este modulo principalmente es que veas los pasos básicos del aprendizaje supervisado: El obtener un set de entrenamiento, y a ese set tratarlo de distintas maneras para poder encontrar un modelo interesante.

Andres Martin

student•

creo que se deberia quitar importe en X es datos redundantes

FELIX DAVID CORDOVA GARCIA

student•

Hola Viendo rápidamente las columna, veo que la columna IMPORTE_GASTO_PROMEDIO tiene TODOS sus valores iguales, quizás hubo un error en alguna parte del código.....

Ricardo Alanis

teacher•

!!! Le doy una revisada, mi Felix!

Alfonso Andres Zapata Guzman

student•

No hay ningun error en el dataset, esa columna se relleno con el promedio de todos los gastos por beneficiario, el valor que aparece en el video se repite hasta la fila 12, ya que se repite el mismo beneficiario. Luego cambia a otro promedio y se repite n veces aparezca ese mismo beneficiario en el dataset.

compras_df[['BENEFICIARIO', 'IMPORTE_GASTO_PROMEDIO']][compras_df.BENEFICIARIO == 'LLANTAS Y SERVICIOS SERNA ANAHUAC,S.A. DE C.V.']

Fernando Chavez Caracas

student•

Yo vengo de la ruta de Data Science pero, no sé por qué, aún no ha salido algun curso de ML... Ya llegaré a eso; sin embargo, siguiendo el video y con mi conjunto de datos me salió un r2_score de 0.6879658753911081. ¿Es un buen valor?

Ricardo Alanis

teacher•

Depende, Mi Fernando. Recuerda que la R2 es una metrica de relación lineal entre dos variables. A veces, dos variables estan relacionadas más allá de lo lineal, por lo que la métrica de coeficiente de mutua información puede ser más poderoso.

Sin embargo, con esa relación ya es posible encarar una relación mas o menos valiosa desde el punto de vista estadístico.

Este articulo te puede ayudar en eso: https://blog.minitab.com/es/analisis-de-regresion-como-puedo-interpretar-el-r-cuadrado-y-evaluar-la-bondad-de-ajuste

Y este juego puede ayudarte a afianzar que sepas como ver una R2 al tiro :P https://guessthecorrelation.com/

Fernando Chavez Caracas

student•

Muchas gracias profe!... Usted siempre está al pendiente y se agradece.

Rodrigo Martinez

student•

Este fue mi codigo para manejar datetimes:

data = df.copy(deep=True)

for column in data.columns:
    if data[column].dtype == 'object':
        data[column] = data[column].fillna(data[column].mode()[0])
        data[column] = data[column].astype('category').cat.codes
    elif data[column].dtype == 'datetime64[ns]':
        data.drop(column, axis=1, inplace=True)
    else:
        data[column] = data[column].fillna(data[column].median())
        
data.head()
```data = df.copy(deep=True)
for column in data.columns:    if data\[column].dtype == 'object':        data\[column] = data\[column].fillna(data\[column].mode()\[0])        data\[column] = data\[column].astype('category').cat.codes    elif data\[column].dtype == 'datetime64\[ns]':        data.drop(column, axis=1, inplace=True)    else:        data\[column] = data\[column].fillna(data\[column].median())        data.head()

Oscar Rodrigo Chavez Calderon

student•

Ejecute mi codigo y me da este error

Alguien mas le paso? Saludos a todos

Lourdes Nuñez Burgos

student•

A mi no me arroja ningún resultado mi modelo supervisado, usé una data que encontré en Kaggle... alguien sabe el por qué? he buscado en Google pero no encuentro solución.. Gracias!

Ricardo Alanis

teacher•

Ya revisamos el codigo con Lourdes (ya que lo subio a github) y detectamos que hacia falta un pasito (:

Felix Gonzales

student•

y = data.pop('Venta'): Esto elimina la columna 'Venta' del DataFrame data y la asigna a la variable y. En problemas de regresión, y generalmente representa la variable de destino que estamos tratando de predecir.
X = data.copy(): Esto crea una copia del DataFrame data (sin la columna 'Venta') y la asigna a la variable X. X contendrá todas las características que se utilizarán para predecir la variable objetivo y.

Rafael Rivera

student•

Ricardo, están geniales las clases, ahora si veo la importancia de cursos anteriores y como aplicarlos.

Gracias por compartir tus conocimientos.

Ricardo Alanis

teacher•

Aqui al pendiente, lo que necesiten para lograr sus objetivos!

Diego Alejandro Hernandez Londono

student•

Es un regresor, no un clasificador.

Ricardo Alanis

teacher•

El regresor! No se que estaba pensando!! Gracias por la aclaración!

Ricardo Alanis

teacher•

Y lo digo un monton de veces, que pena! Esto a partir del minuto 8. Todo por nombrar la variable clf. Gracias por el catch!!

Jorge Olmus

student•

Este curso se encuentra en la ruta de Data Analyst en dónde no se encuentran cursos previos de ML ni otros que se recomiendan para este curso. Imposible entender esta clase en su totalidad.

Ricardo Alanis

teacher•

Bien por identificar ese tema, Jorge. Si, les recomendamos darle una pasada a los cursos de ML para hablar un poco de esto, si.

Freddy Alejandro Leal Gonzalez

student•

Llevo meses en este curso lo empecé el 22 de enero... no lo deje abandonado... llevo todo eso buscando y limpiando la data... por fin llegue al modelo y me imagino pasaré un buen rato en este punto XD

Ricardo Alanis

teacher•

A darle!!

Rubén Cuello

student•

Sinceramente no tengo idea que hice en la segunda mitad del video.

Ricardo Alanis

teacher•

Estamos armando los datos, preparandolos para ponerlos en un proceso de aprendizaje automatico. Te puedes dar una pasada a los cursos de ML antes para darle!!

Jose Manuel Rivas Márquez

student•

De esta clase si siento que aprendi menos que las demas,

Ricardo Alanis

teacher•

Gracias por el feedback Jose! Si he notado que quiza vale la pena incorporar más profundidad en el tema de ML. Para fortalecer esto, recomiendo cualquiera de las clases de ese tema en la escuela de Ciencia de Datos de Platzi!

data = df.copy()
for i, column in enumerate(list([str(d) for d in data.dtypes])):
    if column == "object":
        # llenamos null categoricos con la moda 
        data[data.columns[i]] = data[data.columns[i]].fillna(data[data.columns[i]].mode()) 
        # asignamos typo "catecory" | .cat.code hace encodign de variables categoricas
        data[data.columns[i]] = data[data.columns[i]].astype("category").cat.codes 
    else:
        #llenamos null numericos con la mediana 
        data[data.columns[i]] = data[data.columns[i]].fillna(data[data.columns[i]].median())

data = df.copy(deep=True)

for column in data.columns:
    if data[column].dtype == 'object':
        data[column] = data[column].fillna(data[column].mode()[0])
        data[column] = data[column].astype('category').cat.codes
    elif data[column].dtype == 'datetime64[ns]':
        data.drop(column, axis=1, inplace=True)
    else:
        data[column] = data[column].fillna(data[column].median())
        
data.head()
```data = df.copy(deep=True)
for column in data.columns:    if data\[column].dtype == 'object':        data\[column] = data\[column].fillna(data\[column].mode()\[0])        data\[column] = data\[column].astype('category').cat.codes    elif data\[column].dtype == 'datetime64\[ns]':        data.drop(column, axis=1, inplace=True)    else:        data\[column] = data\[column].fillna(data\[column].median())        data.head()

Modelación de Datos con Aprendizaje Supervisado y No Supervisado

Justificación y contexto de tu proyecto

Proyectos prácticos en ciencia de datos: del aprendizaje a la aplicación

Proyectos de Ciencia de Datos: Del Teórico al Práctico Realista

Cuándo iniciar un nuevo proyecto de ciencia de datos

Herramientas de Comunicación para Proyectos de Ciencia de Datos

Compartir Proyectos de Ciencia de Datos: Estrategias y Recursos

Comunicación Efectiva en Proyectos de Ciencia de Datos

Ejecutando un proyecto de ciencia de datos

Construcción de Proyectos en Ciencia de Datos: Planteamiento de Preguntas

Búsqueda y Selección de Conjuntos de Datos Eficientes

Análisis de Datos Abiertos para Detectar Anomalías en Compras Públicas

Limpieza de Datos: Técnicas y Buenas Prácticas

Limpieza de Datos con Python y Pandas para Proyectos de Transparencia

Exploración de Datos: Análisis Unidimensional y Bidimensional

Análisis y Exploración de Datos con Pandas y Matplotlib

Análisis Multidimensional y Visualización de Datos en Python

Enriquecimiento de Datos en Ciencia de Datos

Enriquecimiento de Datos para Modelos de Machine Learning

Modelos de Machine Learning: Supervisado y No Supervisado