Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Pipelines de procesamiento para variables categóricas

17/25
Recursos

Aportes 5

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Cuando se tiene variables categóricas se hace un mapeo numérico. Para eso hay 2 métodos, de manera que sean fácilmente interpretables en modelos de machine learning:

Dummy : es la representación más compacta que se puede tener de los datos. Es mejor usarla cuando los inputs son variables linealmente independientes (no tienen un grado de correlación significativo). Es decir, las cuando se sabe que las categorías son independientes entre sí.
One-hot : es más extenso. Permite incluir categorías que no estaban en el dataset inicialmente. De forma que si se filtra una categoría que no estaba incluida, igual se pueda representar numéricamente y no de error en el modelo (este modelo es más cool y es el que se usa).
Hay errores en la notación de Pandas y los tratan como que ambos modelos son lo mismo, pero en la realidad el Dummy no se usa. Aún así, en Pandas el método es .get_dummies().

Dato curioso:

La independencia lineal tiene un transfondo matematico.

Normalmente se ve mucho en temas de algebra lineal, ya que a partir de la independencia lineal se pueden construir tanto espacios vectoriales como multiples aplicaciones para ecuaciones diferenciales y de matemática en general.

Como una idea simple, se puede decir que una variable es linealmente independiente si no puede obtenerse a partir de otras variables. Es un poco más complejo…

Dato extra:
Los 3 ejes de un sistema de coordenadas cartesianas son linealmente independientes, X,Y,Z.
No puedes obtener X a partir de Y y Z, lo mismo para las otras 2.

Algo importante sobre el One-Hot:
One-hot encoding generally does not perform well if the categorical variable takes on a large number of values (i.e., you generally won’t use it for variables taking more than 15 different values).

Aquí puedes leer más

One Hot Encoding

En simples palabras lo que hace one-hot es poner todas nuestras categorias a la misma distancia. Como asi?

Asignar un numero entero a nuestras categorias, pero en caso de que no sean ordinales, esto no tendria sentido,

  • Gasolina = 1

  • Diesel = 2

  • Gas = 2

Aca estamos diciendo que, la relacion entre Gasolina y diesel es mas cercana que entre Gasolina y gas

One-Hot lo que hace es que nos pone a la misma distancia en el espacio todas las categoerias

  • Gasolina = [1, 0, 0]

  • Diesel = [0, 1 0]

  • Gas = [0, 0, 1 ]