La decodificación de variables categóricas a numéricas implica que cada elemento del nuevo vector se interpreta como una nueva variable. Por tanto, aumenta la dimensión del dataset y el tiempo de procesamiento.
¿Para qué sirve la estadística descriptiva?
Estadística descriptiva vs. inferencial
Flujo de trabajo en data science
Plan del curso
Estadística descriptiva para analítica
¿Cómo usar Deepnote?
Tipos de datos
Medidas de tendencia central
Metáfora de Bill Gates en un bar
Medidas de tendencia central en Python
Medidas de dispersión
Desviación estándar
Medidas de dispersión en Python
Exploración visual de los datos
Diagramas de dispersión en el análisis de datos
Estadística en la ingesta de datos
Pipelines de procesamiento para variables numéricas
Transformación no lineal
Procesamiento de datos numéricos en Python
Pipelines de procesamiento para variables categóricas
Procesamiento para variables categóricas con Python
Correlaciones
Matriz de covarianza
Proyecto de aplicación
Cálculo de valores propios de una matriz
PCA: análisis de componentes principales
Reducción de dimensionalidad con PCA
Despedida
Conclusiones
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
No se trata de lo que quieres comprar, sino de quién quieres ser. Aprovecha el precio especial.
Antes: $249
Paga en 4 cuotas sin intereses
Termina en:
Francisco Camacho
Aportes 22
Preguntas 15
La decodificación de variables categóricas a numéricas implica que cada elemento del nuevo vector se interpreta como una nueva variable. Por tanto, aumenta la dimensión del dataset y el tiempo de procesamiento.
¿Podemos tratar a las variables numéricas como categóricas? Claro que sí. Todo depende del contexto y del proyecto.
En el mundo de ciencia de datos, es muy común usar el modo ‘one-hot’, puesto que ‘dummy’ ni siquiera existe en las librerías de Python.
La desventaja del one-hot es que cada elemento de los vectores que resultan es como si fueran nuevas variables. Esto aumenta demasiado
la dimensionalidad de nuestro dataset y se vea afectado en el rendimiento.
Me pregunto si se podria utlizar una codificacion tipo Word Embeddings para variables categoricas.
catergoria | Dummy | One-hot |
---|---|---|
ingles | [0,0] | [1,0,0] |
español | [0,1] | [0,1,0] |
frances | [1,0] | [0,0,1] |
Aquí pueden aprender un poquito mas de one hot
Información resumida de esta clase
#EstudiantesDePlatzi
Lo que buscamos es convertir estas variables categóricas en variables numéricas para poder trabajar nuestros modelos
También podemos tratar variables numéricas como categóricas
Con le encoding one hot la longitud del vector es igual a la cantidad de categorías que tengan mis datos, esto me ayuda para cuando tengo valores nulos
En Python hago esto con la función get_dummies de la librería panda
Puedo realizar la misma operación usando la librería sklearn.preprocessing
Cuando hago este mismo ejercicio ahora con variables numéricas se incrementan bastante los datos y se debe hacer una reducción de los mismos
Si uno cuenta con una variable categórica con muchos datos distintos (por ejemplo países del mundo) una alternativa en vez de convertirlas a one-hot es asignarles un valor descriptivo del problema en el que uno esté trabajando, como por ejemplo el PIB de esos países.
Esta super interesante.
Francisco felicitaciones, tiempos, conceptos, ejemplos y practica consistente.
Procesamiento para variables categóricas con Python
Codificación de números enteros
Para las variables categóricas ordinales también se puede usar la función OrdinalEncoder de sklearn, aunque la codificación one hot, la mayoría de veces, también es valida en este tipo de variables
Es interesante como se puede convertir valores categoricos a numericos con el proposito de entender la funcionalidad de estos y que no tengan algun problema al momento de trabajarlo.
En este video de DotCSV encuentro muy útil la forma gráfica de entender la usabilidad del one-hot, aplicado al NLP. Este tipo de visualizaciones cobran más sentido cuando igual estás familiarizado con el álgebra lineal 🫣
Es posible ver otra forma de hacer codificación. Esta se llama Label_encoder. La documentación queda adjunta
Buena clase.
encoder.transform([[2016],[2009],[190]]).toarray()
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?