El EDA es para conocer los datos que tenemos 📊
Y es que puede pasar que luego de haber recolectado información aún nos haga falta para responder nuestra pregunta. El EDA (Exploratory Data Analysis) entonces nos hace ver lo que tenemos y lo que podemos hacer con los datos.
¿Y cómo podemos podemos hacer un EDA?
Ve de lo más pequeño a lo más grande. Y de lo más general a lo más específico.
Un buen inicio es hacer una breve descripción estadística de nuestro dataframe usando df.info()
. Luego pasa al análisis univariable, bivariable y multivariable. Además, recuerda que necesitas mucha visualización de datos.
Análisis univariable
Aquí buscas entender lo que representa cada variable (columna) por sí sola. Puedes usar distribuciones o histogramas.
Análisis bivariable
En este caso, tu objetivo es entender la relación entre dos variables de interés. Puedes usar distribuciones e histogramas, pero ya añades un hue
según necesites. Las correlaciones son muy usadas también.
Análisis multivariable
Ahora ya necesitas entender la relación entre 3 o más variables.
Toma el Curso de Análisis Exploratorio de Datos para entender más.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?