Codificación de Variables Categóricas en Python con Pandas y Scikit-Learn

Curso de Matemáticas para Data Science: Estadística Descriptiva

Contenido del curso

¿Para qué sirve la estadística descriptiva?

Estadística descriptiva para analítica

Estadística en la ingesta de datos

Proyecto de aplicación

Despedida

24
Estadística Descriptiva: Claves para el Análisis de Datos
03:06 min

Tomar examen

Codificación de Variables Categóricas en Python con Pandas y Scikit-Learn

Resumen

¿Cómo codificar numéricamente variables categóricas en Python?

En el mundo del análisis de datos y del machine learning, es crucial poder manejar diferentes tipos de datos de manera eficiente. Una pregunta recurrente es cómo transformar variables categóricas en datos numéricos en Python, para lo cual existen distintas estrategias que pueden aplicarse dependiendo del caso específico y las herramientas utilizadas, como pandas o scikit-learn. Aquí exploramos las diferencias entre estos métodos y su implementación práctica.

¿Qué es la codificación dummy y one-hot encoding?

Existen dos métodos principales para transformar variables categóricas en numéricas:

Dummmy encoding: Se trata de una representación compacta, donde, por ejemplo, si tenemos tres categorías (inglés, español y francés), podemos codificar esas tres categorías en un vector de dos números: Inglés (0,0), Español (0,1) y Francés (1,0). La debilidad de este método es que no puede manejar nuevas categorías o valores no esperados.
One-hot encoding: Aquí se crea un vector con tantas componentes como categorías existan. Siguiendo el ejemplo anterior, Inglés se codificaría como (1,0,0), Español como (0,1,0), y Francés como (0,0,1). Este método, aunque usa más números, permite codificar valores no identificados como (0,0,0), lo que le otorga flexibilidad al manejar nuevas categorías.

¿Cómo aplicar one-hot encoding en pandas?

En pandas, la función get_dummies ofrece la funcionalidad necesaria para realizar un one-hot encoding, aunque el nombre de la función pueda generar confusión. Aquí un ejemplo de aplicación:

import pandas as pd

# Supongamos que tenemos un dataframe df con una columna categórica 'engine_type'
df = pd.DataFrame({'engine_type': ['diesel', 'electric', 'gas']})

# Aplicamos get_dummies para realizar un one-hot encoding
df_encoded = pd.get_dummies(df['engine_type'])
print(df_encoded)

Esto transformará la columna engine_type en tres columnas binarias, una por cada categoría encontrada.

¿Cómo implementar one-hot encoding en scikit-learn?

Scikit-learn también ofrece soluciones robustas para el one-hot encoding mediante su clase OneHotEncoder.

from sklearn.preprocessing import OneHotEncoder

# Inicializamos el codificador
encoder = OneHotEncoder(handle_unknown='ignore')

# Ajustamos el encoder a nuestros datos
encoder.fit(df[['engine_type']])

# Transformamos los datos
encoded_data = encoder.transform([['gas'], ['diesel'], ['unknown']]).toarray()
print(encoded_data)

Al configurarlo con handle_unknown='ignore', el encoder asignará un vector de ceros a cualquier categoría no conocida, multiplicando así la flexibilidad del método.

¿Es posible tratar variables numéricas como categóricas?

Definitivamente, y puede ser útil dependiendo del análisis a realizar. Un ejemplo es tratar los años de producción de un auto como categorías:

# Suponemos que gear_produced es una columna con años
encoder.fit(df[['gear_produced']])

# Transformamos años conocidos y desconocidos
encoded_years = encoder.transform([[2009], [2016], [1900]]).toarray()
print(encoded_years)

Al hacer esto, cada año se convierte en una categoría distinta, lo que si bien aumenta la dimensionalidad del dataset, ofrece una nueva perspectiva para su análisis.

Con estas técnicas en mano, tienes la capacidad de adaptar y manipular datos categóricos de una forma que potencie tus análisis y modelos. Sigue explorando y aplicando estas técnicas para avanzar en tu dominio del análisis de datos en Python.

catergoria	Dummy	One-hot
ingles	[0,0]	[1,0,0]
español	[0,1]	[0,1,0]
frances	[1,0]	[0,0,1]

Jose Luis Higuera Caraveo

Estudiante

Si agregamos dos categorías nuevas al encoder, ambas son transformadas en 0,0,0. Con esto concluyo que todas las nuevas categorías que se agreguen serán procesadas de la misma manera (0,0,0).

Mi pregunta es: Que todas las nuevas categorías sean igualmente procesadas. Esto no causaría problemas con el análisis? Cuando se considere que una categoría afecte realmente al análisis. Lo más conveniente es agregarla al dataset para ser interpretada?

encoder.transform([['gasoline'], ['diesel'], ['electric'], ['oil'], ['hybrid']]).toarray()

Alex Aguirre

Estudiante

Yo lo pienso de esta manera: mas allá de como serán tratadas nuevas categorías por Scikit-Learn y su encoder, el hecho de tener que sumar una nueva categoría es porque así lo requieren les nuevos posibles datos del dataset, y no porque queremos ir sumando categorías porque si. Con esto quiero decir que, siempre que tengamos que "sumar una categoría" sea porque esta apareció realmente en el dataset, y no porque se me ocurrió sumar categorías. Con esto nos aseguramos que cada "nueva categoría" efectivamente va a tener significado en el encoder (o sea, en algún lado aparecerá un "1").

Dennis Ricardo López Morell

Estudiante

creo que deberia ser manual el proceso, porque al agregar una nueva categoria se tendria que expandir en 1 la longitud del vector actual, entonces se modificaria todo nuevamente.

Ejemplo: se agrega 'hybrid'

tendria que quedar como:

gasoline=[1,0,0,0] diesel=[0,1,0,0] electric=[0,0,1,0] hybrid=[0,0,0,1] oil=[0,0,0,0]

Aún no se como sea, pero me imagino que si debe ser manual, a menos que exista algun tipo de algoritmo de detección

JHØN AVALØZ

Miguel Angel Reyes Moreno

Jeinfferson Bernal G

Emmanuel Corral Marco

Alex Antonio Angulo Luna

Agustín Ravena

Javier Suárez Meerhoff

Mario Esser

César Isaac González Naranjo

Jeisson Espinosa

Nicolás García Caicedo

Sebastián Andrade

Orlando Reyes

Felipe Arias Rubiano

Juan García Bauzá

Carlos Mazzaroli

Mateo Albornoz

Martin Davíd Altamar Peña

Aaron Mainero

Wilson Fernando baquero gonzalez

vicesur

jhon Gutierrez

Diego Buesaquillo

alejandro chico

Jhon Freddy Tavera Blandon

David Mauricio Jácobo Ruiz

Fernando Vázquez Duran

Eddy Vladimir Maradiaga Flores

Codificación de Variables Categóricas en Python con Pandas y Scikit-Learn

¿Para qué sirve la estadística descriptiva?

Fundamentos de Estadística Descriptiva y sus Aplicaciones Prácticas

Estadística Descriptiva en el Flujo de Ciencia de Datos

Estadística Descriptiva Aplicada a Ciencia de Datos

Estadística descriptiva para analítica

Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos

Medidas de Tendencia Central: Media, Mediana y Moda

Media vs. Mediana: Diferencias y Aplicaciones Prácticas

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"

Rango y Rango Intercuartil en Medidas de Dispersión

Desviación Estándar y Varianza en Estadística Descriptiva

Cálculo y Visualización de Medidas de Dispersión en Python

Visualización de Datos: Catálogo y Uso de Diagramas en Python

Diagramas de Dispersión y su Análisis con Seaborn

Estadística en la ingesta de datos

Escalamiento Lineal de Datos Numéricos para Machine Learning

Transformaciones No Lineales para Datos Sesgados en Machine Learning

Procesamiento y Escalamiento de Datos Numéricos en Python

Mapeo de Variables Categóricas en Python: Dumi y OneHot