Como aporte, algunos ingenieros de datos recomiendan no eliminar las columnas con un alto valor de datos Nan sino imputar su argumento con el valor None. Esto para no eliminar caracteristicas y darles luego un Label Encoding. Esto es recomendable sobre todo si el dataset de prueba también contiene información nula.
Ahora si los valores nulos solo se encuetran en el dataset de training y no su alcance no afecta para nada el problema, ahí sí se recomienda eliminar la caracteristica.
Estas recomendaciones fueron un sumario de las presentadas por:
-
Julien Cohen-Solal de su notebook A study on Regression applied to the Ames dataset, link: https://www.kaggle.com/juliencs/a-study-on-regression-applied-to-the-ames-dataset
-
Alexandru Papiu de su notebook Regularized Linear Models, link: https://www.kaggle.com/apapiu/regularized-linear-models
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?