Si agregamos dos categorías nuevas al encoder, ambas son transformadas en 0,0,0. Con esto concluyo que todas las nuevas categorías que se...

Jose Luis Higuera Caraveo

Jose Luis Higuera Caraveo

Pregunta
student
hace 4 años

Si agregamos dos categorías nuevas al encoder, ambas son transformadas en 0,0,0.

Con esto concluyo que todas las nuevas categorías que se agreguen serán procesadas de la misma manera (0,0,0).

Mi pregunta es: Que todas las nuevas categorías sean igualmente procesadas. Esto no causaría problemas con el análisis?

Cuando se considere que una categoría afecte realmente al análisis. Lo más conveniente es agregarla al dataset para ser interpretada?

encoder.transform([['gasoline'], ['diesel'], ['electric'], ['oil'], ['hybrid']]).toarray()

Captura.PNG

2 respuestas
para escribir tu comentario
    Dennis Ricardo López Morell

    Dennis Ricardo López Morell

    student
    hace un año

    creo que deberia ser manual el proceso, porque al agregar una nueva categoria se tendria que expandir en 1 la longitud del vector actual, entonces se modificaria todo nuevamente.

    Ejemplo: se agrega 'hybrid'

    tendria que quedar como:

    gasoline=[1,0,0,0] diesel=[0,1,0,0] electric=[0,0,1,0] hybrid=[0,0,0,1] oil=[0,0,0,0]

    Aún no se como sea, pero me imagino que si debe ser manual, a menos que exista algun tipo de algoritmo de detección

    Alex Aguirre

    Alex Aguirre

    student
    hace 2 años

    Yo lo pienso de esta manera: mas allá de como serán tratadas nuevas categorías por Scikit-Learn y su encoder, el hecho de tener que sumar una nueva categoría es porque así lo requieren les nuevos posibles datos del dataset, y no porque queremos ir sumando categorías porque si. Con esto quiero decir que, siempre que tengamos que "sumar una categoría" sea porque esta apareció realmente en el dataset, y no porque se me ocurrió sumar categorías. Con esto nos aseguramos que cada "nueva categoría" efectivamente va a tener significado en el encoder (o sea, en algún lado aparecerá un "1").

Curso de Estadística Descriptiva

Curso de Estadística Descriptiva

Entiende y aplica estadísticas descriptivas para analizar datos en data science. Desde diferenciar estadísticas descriptivas e inferenciales hasta el uso de visualizaciones y reducción de dimensionalidad con PCA. Mejora tus análisis.

Curso de Estadística Descriptiva
Curso de Estadística Descriptiva

Curso de Estadística Descriptiva

Entiende y aplica estadísticas descriptivas para analizar datos en data science. Desde diferenciar estadísticas descriptivas e inferenciales hasta el uso de visualizaciones y reducción de dimensionalidad con PCA. Mejora tus análisis.