Mapeo de Variables Categóricas en Python: Dumi y OneHot
Clase 17 de 25 • Curso de Matemáticas para Data Science: Estadística Descriptiva
Contenido del curso
- 4
Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos
01:19 - 5

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos
16:06 - 6

Medidas de Tendencia Central: Media, Mediana y Moda
09:47 - 7

Media vs. Mediana: Diferencias y Aplicaciones Prácticas
17:17 - 8

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"
20:58 - 9

Rango y Rango Intercuartil en Medidas de Dispersión
05:25 - 10

Desviación Estándar y Varianza en Estadística Descriptiva
14:29 - 11

Cálculo y Visualización de Medidas de Dispersión en Python
11:14 - 12

Visualización de Datos: Catálogo y Uso de Diagramas en Python
08:48 - 13

Diagramas de Dispersión y su Análisis con Seaborn
12:32
- 14

Escalamiento Lineal de Datos Numéricos para Machine Learning
10:54 - 15

Transformaciones No Lineales para Datos Sesgados en Machine Learning
08:51 - 16

Procesamiento y Escalamiento de Datos Numéricos en Python
14:55 - 17

Mapeo de Variables Categóricas en Python: Dumi y OneHot
05:00 - 18

Codificación de Variables Categóricas en Python con Pandas y Scikit-Learn
12:58 - 19

Correlación y covarianza en análisis de datos
09:09 - 20

Construcción y Análisis de la Matriz de Covarianza en Python
13:09
¿Qué es el procesamiento de datos categóricos en machine learning?
Dominar el tratamiento de variables categóricas es crucial en el aprendizaje automático. El manejo de estas variables es diferente al de las numéricas, requiriendo técnicas específicas para su correcta interpretación en modelos predictivos. Las representaciones dos principales son la representación dummy y el mapeo one-hot. ¡Vamos a sumergirnos en cada una de ellas para aclarar su significado y aplicación!
¿Cuándo utilizar la representación dummy?
La representación dummy se destaca por su compactación. Es ideal cuando los inputs del modelo son variables linealmente independientes, es decir, aquellas que no muestran un grado de correlación significativo entre sí. En esencia:
- Se genera una matriz binaria que mapea las categorías como números.
- Dependiendo de la categorización, se omite una para evitar multicolinealidad.
- Cada columna representa la existencia de una categoría particular (usualmente codificada con 0 y 1).
El beneficio mayor es su eficacia en situaciones donde se conoce que las categorías dentro de las variables están bien diferenciadas y no correlacionan entre sí.
¿En qué situaciones optar por el mapeo one-hot?
One-hot se enfoca en la representación extensiva de categorías, ideal cuando queremos ser amplios y no deseamos correr el riesgo de malinterpretar categorías nuevas o no relevantes:
- Cada categoría tiene su propia columna, todas codificadas con ceros y unos.
- Representa fielmente todas las categorías, incluyendo aquellas no conocidas a priori.
Este método es apto en escenarios donde el modelo pueda tener que enfrentarse a categorías desconocidas durante su uso. Esta extensividad, sin embargo, puede resultar en alta dimensionalidad, pero logra que el modelo no intente hacer interpolaciones numéricas entre categorías.
¿Cómo se aplican estas técnicas con Python?
Es en la implementación donde las garras del teórico danzan al compás del código. Gracias a librerías destacadas en Python, como pandas y scikit-learn, el proceso se vuelve accesible:
Uso de pandas para representación dummy:
import pandas as pd
# Considerando un DataFrame df con una columna 'tipo'
df_dummies = pd.get_dummies(df['tipo'], drop_first=True)
Implementación de mapeo one-hot:
from sklearn.preprocessing import OneHotEncoder
one_hot_encoder = OneHotEncoder(sparse=False)
tipo_encoded = one_hot_encoder.fit_transform(df['tipo'].values.reshape(-1,1))
Ambas implementaciones muestran formas sencillas de transformar sus datasets y asegurar un correcto manejo de variables categóricas.
Ya sea dummy o one-hot, ¿cuál elegir?
La decisión depende de la naturaleza de tus datos y del objetivo del modelo de machine learning. Recuerda:
- Dummy: Usa cuando sabes que tus categorías son independientes y se busca eficiencia en la representación.
- One-Hot: Opta cuando es crucial capturar todas las categorías, incluso aquellas que no están contempladas inicialmente.
Explorar estas metodologías y aplicar estas técnicas contribuirá a crear modelos más exactos y robustos. Sigue avanzando en tu camino, cada técnica es un paso más hacia la maestría en ciencia de datos. ¡Adelante y mucho éxito!