Mapeo de Variables Categóricas en Python: Dumi y OneHot

Clase 17 de 24 • Curso de Matemáticas para Data Science: Estadística Descriptiva

Contenido del curso

¿Para qué sirve la estadística descriptiva?

Estadística descriptiva para analítica

Estadística en la ingesta de datos

Proyecto de aplicación

Despedida

24
Estadística Descriptiva: Claves para el Análisis de Datos
03:06 min

Tomar examen

Resumen

Cuando trabajas con modelos de machine learning, no basta con saber procesar datos numéricos. Las variables categóricas —como el tipo de motor de un auto o la especie de una flor— requieren un tratamiento completamente distinto para que los algoritmos puedan interpretarlas correctamente. Aquí se explican los dos métodos principales para convertir categorías de texto en atributos numéricos: la representación dummy y la representación one hot.

¿Por qué no se pueden usar números simples para representar categorías?

Imagina un dataset de autos donde el tipo de motor puede ser gasolina, diésel, eléctrico o híbrido. Si asignas gasolina = 1 y diésel = 2, el modelo podría intentar interpolar un valor como 1.5, buscando una categoría intermedia que no existe [1:52]. Eso sucede porque el algoritmo trata esos números como variables continuas tipo float y asume que hay valores intermedios válidos.

Este problema se presenta con las variables no ordinales, es decir, aquellas donde no existe una relación de orden entre las categorías. No tiene sentido decir que diésel está "después" de gasolina. Por eso, la comunidad de ciencia de datos adoptó representaciones más robustas como dummy y one hot [2:22].

¿Qué diferencia hay entre el mapeo dummy y el mapeo one hot?

Ambos métodos comparten la misma filosofía: convertir cadenas de texto en valores numéricos que el modelo pueda procesar sin caer en interpolaciones incorrectas. Sin embargo, tienen diferencias importantes.

¿Cuándo conviene usar la representación dummy?

La representación dummy es la más compacta que puedes obtener de tus datos [0:22]. Es preferible usarla cuando sabes de antemano que tus variables de entrada son linealmente independientes, lo que significa que no presentan un grado de correlación significativo entre sí [0:33]. Este concepto de independencia lineal cobrará más sentido al estudiar correlaciones, pero la regla general es:

Usa mapeo dummy cuando las categorías son independientes entre sí.
El resultado ocupa menos espacio en memoria.
Funciona bien con datasets donde las categorías ya están bien definidas.

¿Qué ventaja ofrece la representación one hot?

El mapeo one hot genera atributos numéricos más extensos, pero tiene una ventaja clave: permite representar categorías que no estaban en el dataset original [1:02]. Piensa en un escenario donde entrenas tu modelo con ciertas categorías y luego se filtra un valor desconocido o una categoría nueva. Con one hot, el modelo puede manejar esa situación porque:

Cada categoría se representa como un vector independiente.
Un valor desconocido también obtiene una representación numérica válida.
Es más robusto ante datos inesperados en producción.

¿Cómo se aplican estos métodos en datasets reales?

Los dos datasets que sirven como ejemplo práctico son el de autos y el de flores iris [2:52]. En el caso de las flores iris, la única variable categórica es la especie. En el de autos, existen varias variables categóricas como el tipo de motor, lo que ofrece más material para practicar ambos métodos.

La implementación se realiza en Python usando las librerías disponibles dentro de un notebook en Deepnote [2:40], donde se puede observar cómo:

El mapeo dummy reduce las columnas resultantes.
El mapeo one hot genera una columna por cada categoría posible.
Ambos eliminan el riesgo de que el modelo interpole valores sin sentido.

Entender cuándo usar cada representación depende del contexto de tus datos y de si necesitas flexibilidad ante categorías nuevas. ¿Ya has trabajado con alguno de estos métodos en tus proyectos? Comparte tu experiencia en los comentarios.

Comentarios

LEANDRO DARIO MAMANI

student•

Cuando se tiene variables categóricas se hace un mapeo numérico. Para eso hay 2 métodos, de manera que sean fácilmente interpretables en modelos de machine learning:

Dummy : es la representación más compacta que se puede tener de los datos. Es mejor usarla cuando los inputs son variables linealmente independientes (no tienen un grado de correlación significativo). Es decir, las cuando se sabe que las categorías son independientes entre sí. One-hot : es más extenso. Permite incluir categorías que no estaban en el dataset inicialmente. De forma que si se filtra una categoría que no estaba incluida, igual se pueda representar numéricamente y no de error en el modelo (este modelo es más cool y es el que se usa). Hay errores en la notación de Pandas y los tratan como que ambos modelos son lo mismo, pero en la realidad el Dummy no se usa. Aún así, en Pandas el método es .get_dummies().

Andres López

student•

Gracias por el resumen, me fue de mucha ayuda

Javier Suárez Meerhoff

student•

gracias!

Adrian Isaí Morales Paredes

student•

Dato curioso:

La independencia lineal tiene un transfondo matematico.

Normalmente se ve mucho en temas de algebra lineal, ya que a partir de la independencia lineal se pueden construir tanto espacios vectoriales como multiples aplicaciones para ecuaciones diferenciales y de matemática en general.

Como una idea simple, se puede decir que una variable es linealmente independiente si no puede obtenerse a partir de otras variables. Es un poco más complejo…

Dato extra: Los 3 ejes de un sistema de coordenadas cartesianas son linealmente independientes, X,Y,Z. No puedes obtener X a partir de Y y Z, lo mismo para las otras 2.

Javier Suárez Meerhoff

student•

gracias!

Mario Esser

student•

Otros esquemas también son:

Bin Counting y Feature Hashing

David Betancourt

student•

Algo importante sobre el One-Hot: One-hot encoding generally does not perform well if the categorical variable takes on a large number of values (i.e., you generally won't use it for variables taking more than 15 different values).

Aquí puedes leer más

Jhonathan Ortiz

student•

One Hot Encoding

En simples palabras lo que hace one-hot es poner todas nuestras categorias a la misma distancia. Como asi?

Asignar un numero entero a nuestras categorias, pero en caso de que no sean ordinales, esto no tendria sentido,

Gasolina = 1
Diesel = 2
Gas = 2

Aca estamos diciendo que, la relacion entre Gasolina y diesel es mas cercana que entre Gasolina y gas

One-Hot lo que hace es que nos pone a la misma distancia en el espacio todas las categoerias

Gasolina = [1, 0, 0]
Diesel = [0, 1 0]
Gas = [0, 0, 1 ]

J. M. Barrón-Adame

student•

Muy claro. Gracias.

Isaias Cruz

student•

Hola!

Una observación. En los datos que mostraste en tu comentario, no sería lo correcto esto?

· Gasolina = 1

· Diésel = 2

· Gas = 3

Por lo tanto:

· Gasolina = [0, 0, 1]

· Diésel = [0, 1, 0]

· Gas = [1, 0, 0]

CESAR PEREZ

student•

Contexto de una variable categórica para machine learning: En el contexto de los modelos de aprendizaje automático, una variable categórica es una variable que se utiliza como input o característica de entrada en el modelo y que puede tomar uno de varios valores discretos y no ordenables. Por ejemplo, en un modelo de clasificación para predecir el género de una persona a partir de su nombre, el género es una variable categórica.

En algunos algoritmos de aprendizaje automático como los árboles de decisión o las redes neuronales, las variables categóricas se deben codificar en variables numéricas antes de ser utilizadas como entrada del modelo. Una técnica común para hacer esto es utilizar la codificación one-hot, donde se crea una variable binaria para cada valor posible de la variable categórica. Esto permite que el algoritmo de aprendizaje automático pueda entender y trabajar con las variables categóricas.

Naren Fragozo

student•

Este link puede que te ayude a entender https://www.youtube.com/watch?v=DAQhQFp-sCg

Angel Garza

student•

Video con una explicación muy clara y precisa de lo que estaremos viendo a continuación. Excelente aporte. ¡Muchas gracias!

Josue Noha Valdivia

student•

Variables Categóiricas

Para codificar las variables categóricas (nuestros algoritmos no las entienden) hacemos uso de una representación numéricapor medio de ceros y unos, esto para evitar que el algoritmo entienda que hay una relación gerárjica entre los datos.
- Dummy: Es una representacion compacta, similar a la representación por números binarios.
- OneHot: Crea una nueva columna para cada dato categórico diferente, además permite añadir una nueva categoría: [0,0,0...,0,0]

Nota

El uso de etos encoders aumenta la dimensionalidad del DataSet
sklearn no tiene un encoder Dymmy como tal; el método get_dummies es en realidad un oneHot encoder

Jeisson Espinosa

student•

Información resumida de esta clase #EstudiantesDePlatzi

Existen dos métodos para procesar variables categóricas: Dummy t One-Hot
La representación Dummy se usa para inputs linealmente independientes, linealmente independientes significa que no existe una correlación entre los datos
El mapeo One-Hot permite describir categorías no incluidas inicialmente
Debemos mapear numéricamente nuestras categorías

Bryan Carvajal

student•

Cuando se tiene variables categóricas se hace un mapeo numérico. Para eso hay 2 métodos, de manera que sean fácilmente interpretables en modelos de machine learning:

Dummy: es la representación más compacta que se puede tener de los datos. Es mejor usarla cuando los inputs son variables linealmente independientes (no tienen un grado de correlación significativo). Es decir, cuando se sabe que las categorías son independientes entre sí.
One-hot: es más extenso. Permite incluir categorías que no estaban en el dataset inicialmente. De forma que si se filtra una categoría que no estaba incluida, igual se pueda representar numéricamente y no de error en el modelo (este modelo es más cool y es el que se usa).

Hay errores en la notación de Pandas y los tratan como que ambos modelos son lo mismo, pero en la realidad el Dummy no se usa. Aún así, en Pandas el método es .get_dummies().

Andres Sanchez

student•

17. Pipelines de procesamiento para variables categóricas

Mapeos numéricos

Dummy

→ Representación compacta.

→ Mejor para inputs linealmente independientes.

One-hot

→ Permite describir categorías no incluidas inicialmente.

Andres Correa

student•

wow, no había entendido muy bien lo del mapeo Dummy y chat gpt lo explicó super bien

Jhon Freddy Tavera Blandon

student•

Hay dos formas diferentes de codificar variables categóricas. Digamos que una variable categórica tiene n valores. La codificación **** one-hot**** lo convierte en n variables, mientras que la codificación ficticia lo convierte en n-1 variables. Si tenemos k variables categóricas, cada una de las cuales tiene n valores. Una codificación activa termina con variables kn , mientras que la codificación ficticia termina con variables kn-k .
Escuché que para la codificación one-hot, la intercepción puede generar un problema de colinealidad, lo que hace que el modelo no suene. Alguien lo llama " trampa de variable ficticia ".

Aaron Mainero

student•

Sebastián Andrade

student•

qué es una interpolacion

Dionicio Perez

student•

La interpolación es un método estadístico por el que se utilizan valores conocidos relacionados para estimar un precio desconocido o el rendimiento potencial de un valor, por ejemplo. La interpolación se consigue utilizando otros valores establecidos que se encuentran en secuencia con el valor desconocido.

Leonardo Federico Farfán Paredes

student•

Tómalo como una forma de encontrar un valor que desconocemos, que se encuentra dentro de dos valores que conocemos. Por ejemplo, en ingeniería se utiliza mucho, tenemos tablas que nos indican por ejemplo la presión del aire a diferentes alturas. Pero no tienen todos los datos en la tabla, por ejemplo, hay los datos de la presion a 5000 metros y a 6000 metros. Y nosotros necesitamos el valor a 5500 metros. Entonces hacemos una relacion entre los valores a 5000 y 6000 metros. y con eso obtenemos el valor de 5500 metros. Espero se haya entendido la explicación.

José Rodrigo Arana Hi

student•

¿Se usan entonces números para asignar las variables categóricas (strings)?

jhon velasque

student•

HASTA AHORA ME PREGUNTO QUE ES PIPELINES?

Eduard Giraldo Martínez

student•

https://www.ibm.com/topics/data-pipeline

María Requenes Ramos

student•

¿Qué son las técnicas de mapeo?

Las técnicas de mapeo se refieren a un conjunto de métodos utilizados para visualizar y analizar datos mediante la creación de representaciones gráficas de la información. Estas técnicas son esenciales en varios campos, incluidas las estadísticas, análisis de los datosy la ciencia de datos, ya que ayudan a comprender conjuntos de datos complejos y descubrir patrones que pueden no ser inmediatamente evidentes a través de datos sin procesar. Al emplear técnicas de mapeo, los analistas pueden transformar datos numéricos en formatos visuales, lo que facilita la interpretación y la comunicación de los hallazgos.

Jorge Levi Tapia Lugardo

student•

🎓 ¿Sabías que los pipelines en Data Science son como una cadena de montaje para tus datos? 🚀

Imagina que estás trabajando con datos que incluyen palabras como "rojo", "azul", o "verde". Antes de que un modelo de machine learning pueda entender estos datos, necesitamos convertirlos en algo que el modelo sí pueda usar: ¡números! 📊

Con un pipeline, puedes transformar automáticamente esos valores categóricos (como colores) en datos numéricos que tu modelo pueda procesar, todo en un solo paso. Esto no solo te ahorra tiempo, sino que también reduce errores. 💡

Por ejemplo, con técnicas como la codificación one-hot, cada color se convierte en una columna con un 1 o un 0. Es como traducir un idioma que la máquina pueda entender. 🌐

¡Así que, si te interesa Data Science, dominar los pipelines es clave para trabajar de manera eficiente y precisa! 💻✨

Gonzalo Ceron Denetro

student•

One-hot encoding transforma las variables a forma binaria, representando los valor como 1 o 0.

0: Representa False, el valor de la variable no pertenece a la categoría

1: Es True o Hot, el valor de la variable pertenece a la categoría.

Esto va a generar que nuestros datos tengan más columnas.

Mapeo de Variables Categóricas en Python: Dumi y OneHot

¿Para qué sirve la estadística descriptiva?

Fundamentos de Estadística Descriptiva y sus Aplicaciones Prácticas

Estadística Descriptiva en el Flujo de Ciencia de Datos

Estadística Descriptiva Aplicada a Ciencia de Datos

Estadística descriptiva para analítica

Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos

Medidas de Tendencia Central: Media, Mediana y Moda

Media vs. Mediana: Diferencias y Aplicaciones Prácticas

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"

Rango y Rango Intercuartil en Medidas de Dispersión

Desviación Estándar y Varianza en Estadística Descriptiva

Cálculo y Visualización de Medidas de Dispersión en Python

Visualización de Datos: Catálogo y Uso de Diagramas en Python

Diagramas de Dispersión y su Análisis con Seaborn

Estadística en la ingesta de datos

Escalamiento Lineal de Datos Numéricos para Machine Learning

Transformaciones No Lineales para Datos Sesgados en Machine Learning

Procesamiento y Escalamiento de Datos Numéricos en Python