Mapeo de Variables Categóricas en Python: Dumi y OneHot

Clase 17 de 24 • Curso de Matemáticas para Data Science: Estadística Descriptiva

Resumen

¿Qué es el procesamiento de datos categóricos en machine learning?

Dominar el tratamiento de variables categóricas es crucial en el aprendizaje automático. El manejo de estas variables es diferente al de las numéricas, requiriendo técnicas específicas para su correcta interpretación en modelos predictivos. Las representaciones dos principales son la representación dummy y el mapeo one-hot. ¡Vamos a sumergirnos en cada una de ellas para aclarar su significado y aplicación!

¿Cuándo utilizar la representación dummy?

La representación dummy se destaca por su compactación. Es ideal cuando los inputs del modelo son variables linealmente independientes, es decir, aquellas que no muestran un grado de correlación significativo entre sí. En esencia:

Se genera una matriz binaria que mapea las categorías como números.
Dependiendo de la categorización, se omite una para evitar multicolinealidad.
Cada columna representa la existencia de una categoría particular (usualmente codificada con 0 y 1).

El beneficio mayor es su eficacia en situaciones donde se conoce que las categorías dentro de las variables están bien diferenciadas y no correlacionan entre sí.

¿En qué situaciones optar por el mapeo one-hot?

One-hot se enfoca en la representación extensiva de categorías, ideal cuando queremos ser amplios y no deseamos correr el riesgo de malinterpretar categorías nuevas o no relevantes:

Cada categoría tiene su propia columna, todas codificadas con ceros y unos.
Representa fielmente todas las categorías, incluyendo aquellas no conocidas a priori.

Este método es apto en escenarios donde el modelo pueda tener que enfrentarse a categorías desconocidas durante su uso. Esta extensividad, sin embargo, puede resultar en alta dimensionalidad, pero logra que el modelo no intente hacer interpolaciones numéricas entre categorías.

¿Cómo se aplican estas técnicas con Python?

Es en la implementación donde las garras del teórico danzan al compás del código. Gracias a librerías destacadas en Python, como pandas y scikit-learn, el proceso se vuelve accesible:

Uso de pandas para representación dummy:

import pandas as pd

# Considerando un DataFrame df con una columna 'tipo'
df_dummies = pd.get_dummies(df['tipo'], drop_first=True)

Implementación de mapeo one-hot:

from sklearn.preprocessing import OneHotEncoder

one_hot_encoder = OneHotEncoder(sparse=False)
tipo_encoded = one_hot_encoder.fit_transform(df['tipo'].values.reshape(-1,1))

Ambas implementaciones muestran formas sencillas de transformar sus datasets y asegurar un correcto manejo de variables categóricas.

Ya sea dummy o one-hot, ¿cuál elegir?

La decisión depende de la naturaleza de tus datos y del objetivo del modelo de machine learning. Recuerda:

Dummy: Usa cuando sabes que tus categorías son independientes y se busca eficiencia en la representación.
One-Hot: Opta cuando es crucial capturar todas las categorías, incluso aquellas que no están contempladas inicialmente.

Explorar estas metodologías y aplicar estas técnicas contribuirá a crear modelos más exactos y robustos. Sigue avanzando en tu camino, cada técnica es un paso más hacia la maestría en ciencia de datos. ¡Adelante y mucho éxito!

LEANDRO DARIO MAMANI

student•

Cuando se tiene variables categóricas se hace un mapeo numérico. Para eso hay 2 métodos, de manera que sean fácilmente interpretables en modelos de machine learning:

Dummy : es la representación más compacta que se puede tener de los datos. Es mejor usarla cuando los inputs son variables linealmente independientes (no tienen un grado de correlación significativo). Es decir, las cuando se sabe que las categorías son independientes entre sí. One-hot : es más extenso. Permite incluir categorías que no estaban en el dataset inicialmente. De forma que si se filtra una categoría que no estaba incluida, igual se pueda representar numéricamente y no de error en el modelo (este modelo es más cool y es el que se usa). Hay errores en la notación de Pandas y los tratan como que ambos modelos son lo mismo, pero en la realidad el Dummy no se usa. Aún así, en Pandas el método es .get_dummies().

Andres López

student•

Gracias por el resumen, me fue de mucha ayuda

Javier Suárez Meerhoff

student•

gracias!

Adrian Isaí Morales Paredes

student•

Dato curioso:

La independencia lineal tiene un transfondo matematico.

Normalmente se ve mucho en temas de algebra lineal, ya que a partir de la independencia lineal se pueden construir tanto espacios vectoriales como multiples aplicaciones para ecuaciones diferenciales y de matemática en general.

Como una idea simple, se puede decir que una variable es linealmente independiente si no puede obtenerse a partir de otras variables. Es un poco más complejo…

Dato extra: Los 3 ejes de un sistema de coordenadas cartesianas son linealmente independientes, X,Y,Z. No puedes obtener X a partir de Y y Z, lo mismo para las otras 2.

Javier Suárez Meerhoff

student•

gracias!

Mario Esser

student•

Otros esquemas también son:

Bin Counting y Feature Hashing

David Betancourt

student•

Algo importante sobre el One-Hot: One-hot encoding generally does not perform well if the categorical variable takes on a large number of values (i.e., you generally won't use it for variables taking more than 15 different values).

Aquí puedes leer más

Jhonathan Ortiz

student•

One Hot Encoding

En simples palabras lo que hace one-hot es poner todas nuestras categorias a la misma distancia. Como asi?

Asignar un numero entero a nuestras categorias, pero en caso de que no sean ordinales, esto no tendria sentido,

Gasolina = 1
Diesel = 2
Gas = 2

Aca estamos diciendo que, la relacion entre Gasolina y diesel es mas cercana que entre Gasolina y gas

One-Hot lo que hace es que nos pone a la misma distancia en el espacio todas las categoerias

Gasolina = [1, 0, 0]
Diesel = [0, 1 0]
Gas = [0, 0, 1 ]

J. M. Barrón-Adame

student•

Muy claro. Gracias.

Isaias Cruz

student•

Hola!

Una observación. En los datos que mostraste en tu comentario, no sería lo correcto esto?

· Gasolina = 1

· Diésel = 2

· Gas = 3

Por lo tanto:

· Gasolina = [0, 0, 1]

· Diésel = [0, 1, 0]

· Gas = [1, 0, 0]

CESAR PEREZ

student•

Contexto de una variable categórica para machine learning: En el contexto de los modelos de aprendizaje automático, una variable categórica es una variable que se utiliza como input o característica de entrada en el modelo y que puede tomar uno de varios valores discretos y no ordenables. Por ejemplo, en un modelo de clasificación para predecir el género de una persona a partir de su nombre, el género es una variable categórica.

En algunos algoritmos de aprendizaje automático como los árboles de decisión o las redes neuronales, las variables categóricas se deben codificar en variables numéricas antes de ser utilizadas como entrada del modelo. Una técnica común para hacer esto es utilizar la codificación one-hot, donde se crea una variable binaria para cada valor posible de la variable categórica. Esto permite que el algoritmo de aprendizaje automático pueda entender y trabajar con las variables categóricas.

Naren Fragozo

student•

Este link puede que te ayude a entender https://www.youtube.com/watch?v=DAQhQFp-sCg

Angel Garza

student•

Video con una explicación muy clara y precisa de lo que estaremos viendo a continuación. Excelente aporte. ¡Muchas gracias!

Josue Noha Valdivia

student•

Variables Categóiricas

Para codificar las variables categóricas (nuestros algoritmos no las entienden) hacemos uso de una representación numéricapor medio de ceros y unos, esto para evitar que el algoritmo entienda que hay una relación gerárjica entre los datos.
- Dummy: Es una representacion compacta, similar a la representación por números binarios.
- OneHot: Crea una nueva columna para cada dato categórico diferente, además permite añadir una nueva categoría: [0,0,0...,0,0]

Nota

El uso de etos encoders aumenta la dimensionalidad del DataSet
sklearn no tiene un encoder Dymmy como tal; el método get_dummies es en realidad un oneHot encoder

Jeisson Espinosa

student•

Información resumida de esta clase #EstudiantesDePlatzi

Existen dos métodos para procesar variables categóricas: Dummy t One-Hot
La representación Dummy se usa para inputs linealmente independientes, linealmente independientes significa que no existe una correlación entre los datos
El mapeo One-Hot permite describir categorías no incluidas inicialmente
Debemos mapear numéricamente nuestras categorías

Bryan Carvajal

student•

Cuando se tiene variables categóricas se hace un mapeo numérico. Para eso hay 2 métodos, de manera que sean fácilmente interpretables en modelos de machine learning:

Dummy: es la representación más compacta que se puede tener de los datos. Es mejor usarla cuando los inputs son variables linealmente independientes (no tienen un grado de correlación significativo). Es decir, cuando se sabe que las categorías son independientes entre sí.
One-hot: es más extenso. Permite incluir categorías que no estaban en el dataset inicialmente. De forma que si se filtra una categoría que no estaba incluida, igual se pueda representar numéricamente y no de error en el modelo (este modelo es más cool y es el que se usa).

Hay errores en la notación de Pandas y los tratan como que ambos modelos son lo mismo, pero en la realidad el Dummy no se usa. Aún así, en Pandas el método es .get_dummies().

Andres Sanchez

student•

17. Pipelines de procesamiento para variables categóricas

Mapeos numéricos

Dummy

→ Representación compacta.

→ Mejor para inputs linealmente independientes.

One-hot

→ Permite describir categorías no incluidas inicialmente.

Andres Correa

student•

wow, no había entendido muy bien lo del mapeo Dummy y chat gpt lo explicó super bien

Jhon Freddy Tavera Blandon

student•

Hay dos formas diferentes de codificar variables categóricas. Digamos que una variable categórica tiene n valores. La codificación **** one-hot**** lo convierte en n variables, mientras que la codificación ficticia lo convierte en n-1 variables. Si tenemos k variables categóricas, cada una de las cuales tiene n valores. Una codificación activa termina con variables kn , mientras que la codificación ficticia termina con variables kn-k .
Escuché que para la codificación one-hot, la intercepción puede generar un problema de colinealidad, lo que hace que el modelo no suene. Alguien lo llama " trampa de variable ficticia ".

Sebastián Andrade

student•

qué es una interpolacion

Dionicio Perez

student•

La interpolación es un método estadístico por el que se utilizan valores conocidos relacionados para estimar un precio desconocido o el rendimiento potencial de un valor, por ejemplo. La interpolación se consigue utilizando otros valores establecidos que se encuentran en secuencia con el valor desconocido.

Leonardo Federico Farfán Paredes

student•

Tómalo como una forma de encontrar un valor que desconocemos, que se encuentra dentro de dos valores que conocemos. Por ejemplo, en ingeniería se utiliza mucho, tenemos tablas que nos indican por ejemplo la presión del aire a diferentes alturas. Pero no tienen todos los datos en la tabla, por ejemplo, hay los datos de la presion a 5000 metros y a 6000 metros. Y nosotros necesitamos el valor a 5500 metros. Entonces hacemos una relacion entre los valores a 5000 y 6000 metros. y con eso obtenemos el valor de 5500 metros. Espero se haya entendido la explicación.

José Rodrigo Arana Hi

student•

¿Se usan entonces números para asignar las variables categóricas (strings)?

jhon velasque

student•

HASTA AHORA ME PREGUNTO QUE ES PIPELINES?

Eduard Giraldo Martínez

student•

https://www.ibm.com/topics/data-pipeline

María Requenes Ramos

student•

¿Qué son las técnicas de mapeo?

Las técnicas de mapeo se refieren a un conjunto de métodos utilizados para visualizar y analizar datos mediante la creación de representaciones gráficas de la información. Estas técnicas son esenciales en varios campos, incluidas las estadísticas, análisis de los datosy la ciencia de datos, ya que ayudan a comprender conjuntos de datos complejos y descubrir patrones que pueden no ser inmediatamente evidentes a través de datos sin procesar. Al emplear técnicas de mapeo, los analistas pueden transformar datos numéricos en formatos visuales, lo que facilita la interpretación y la comunicación de los hallazgos.

Jorge Levi Tapia Lugardo

student•

🎓 ¿Sabías que los pipelines en Data Science son como una cadena de montaje para tus datos? 🚀

Imagina que estás trabajando con datos que incluyen palabras como "rojo", "azul", o "verde". Antes de que un modelo de machine learning pueda entender estos datos, necesitamos convertirlos en algo que el modelo sí pueda usar: ¡números! 📊

Con un pipeline, puedes transformar automáticamente esos valores categóricos (como colores) en datos numéricos que tu modelo pueda procesar, todo en un solo paso. Esto no solo te ahorra tiempo, sino que también reduce errores. 💡

Por ejemplo, con técnicas como la codificación one-hot, cada color se convierte en una columna con un 1 o un 0. Es como traducir un idioma que la máquina pueda entender. 🌐

¡Así que, si te interesa Data Science, dominar los pipelines es clave para trabajar de manera eficiente y precisa! 💻✨

Gonzalo Ceron Denetro

student•

One-hot encoding transforma las variables a forma binaria, representando los valor como 1 o 0.

0: Representa False, el valor de la variable no pertenece a la categoría

1: Es True o Hot, el valor de la variable pertenece a la categoría.

Esto va a generar que nuestros datos tengan más columnas.

Isaac Bryan Ascanoa Roncall

student•

Es interesante el uso de las categorias y como estas pueden ser convertidas a valores numericos. Eso quiero verlo y aprender de eso.

Mapeo de Variables Categóricas en Python: Dumi y OneHot

¿Para qué sirve la estadística descriptiva?

Fundamentos de Estadística Descriptiva y sus Aplicaciones Prácticas

Estadística Descriptiva en el Flujo de Ciencia de Datos

Estadística Descriptiva Aplicada a Ciencia de Datos

Estadística descriptiva para analítica

Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos

Medidas de Tendencia Central: Media, Mediana y Moda

Media vs. Mediana: Diferencias y Aplicaciones Prácticas

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"

Rango y Rango Intercuartil en Medidas de Dispersión

Desviación Estándar y Varianza en Estadística Descriptiva

Cálculo y Visualización de Medidas de Dispersión en Python

Visualización de Datos: Catálogo y Uso de Diagramas en Python

Diagramas de Dispersión y su Análisis con Seaborn

Estadística en la ingesta de datos

Escalamiento Lineal de Datos Numéricos para Machine Learning

Transformaciones No Lineales para Datos Sesgados en Machine Learning

Procesamiento y Escalamiento de Datos Numéricos en Python

Mapeo de Variables Categóricas en Python: Dumi y OneHot

Codificación de Variables Categóricas en Python con Pandas y Scikit-Learn

Correlación y covarianza en análisis de datos

Construcción y Análisis de la Matriz de Covarianza en Python

Proyecto de aplicación

Álgebra Lineal: Vectores y Valores Propios de una Matriz

Análisis de Componentes Principales (PCA) y Proyección de Vectores

Reducción de Dimensionalidad con PCA en Python

Despedida

Estadística Descriptiva: Claves para el Análisis de Datos