Si agregamos dos categorías nuevas al encoder, ambas son transformadas en 0,0,0. Con esto concluyo que todas las nuevas categorías que se...

Jose Luis Higuera Caraveo

Pregunta

student•

Si agregamos dos categorías nuevas al encoder, ambas son transformadas en 0,0,0.

Con esto concluyo que todas las nuevas categorías que se agreguen serán procesadas de la misma manera (0,0,0).

Mi pregunta es: Que todas las nuevas categorías sean igualmente procesadas. Esto no causaría problemas con el análisis?

Cuando se considere que una categoría afecte realmente al análisis. Lo más conveniente es agregarla al dataset para ser interpretada?

encoder.transform([['gasoline'], ['diesel'], ['electric'], ['oil'], ['hybrid']]).toarray()

Alex Aguirre

student•

Yo lo pienso de esta manera: mas allá de como serán tratadas nuevas categorías por Scikit-Learn y su encoder, el hecho de tener que sumar una nueva categoría es porque así lo requieren les nuevos posibles datos del dataset, y no porque queremos ir sumando categorías porque si. Con esto quiero decir que, siempre que tengamos que "sumar una categoría" sea porque esta apareció realmente en el dataset, y no porque se me ocurrió sumar categorías. Con esto nos aseguramos que cada "nueva categoría" efectivamente va a tener significado en el encoder (o sea, en algún lado aparecerá un "1").

Dennis Ricardo López Morell

student•

creo que deberia ser manual el proceso, porque al agregar una nueva categoria se tendria que expandir en 1 la longitud del vector actual, entonces se modificaria todo nuevamente.

Ejemplo: se agrega 'hybrid'

tendria que quedar como:

gasoline=[1,0,0,0] diesel=[0,1,0,0] electric=[0,0,1,0] hybrid=[0,0,0,1] oil=[0,0,0,0]

Aún no se como sea, pero me imagino que si debe ser manual, a menos que exista algun tipo de algoritmo de detección

Si agregamos dos categorías nuevas al encoder, ambas son transformadas en 0,0,0. Con esto concluyo que todas las nuevas categorías que se...

Curso de Estadística Descriptiva

Curso de Estadística Descriptiva