No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Correlación de nulidad

17/21
Recursos

Aportes 2

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Correlacion de Nulidad

Existen valores faltantes que aparecen conjuntamente con otras variables en el conjunto de datos? . La correlacion de nulidad nos ayuda a encontrar relaciones entre las variables en funcion de su nulidad

  • Heatmap de la variable riskfactors
missingno.heatmap(
    df=riskfactors_df
)

Los valores coloreados de color gris representan que no hay una correlacion ni positiva ni negativa entre las valores faltantes de las variables

Los valores coloreados de azul indican una correlacion positiva, es decir, la presencia de un valor faltante en una de las variables esta correlacionado con un valor faltante en la otra como es el caso de las variables dieta

Los valores coloreados de rojo simboliza una correlacion negativa, es decir, mientras en una de las variables hay un valor faltante en la otro se tiene un valor completo y vicerversa como en el caso de las variables smoke_last y smoke_stop

Hay caso donde te puedes encontrar un simbolo de <1 lo que indica que estas cerca del 100% de correlacion bien sea negativa o positiva dependiendo del color

  • Dendograma de la variable riskfactors. Se trata de un clustering jerarquica que agrupa las variables con correlaciones muy altas
missingno.dendrogram(
    df=riskfactors_df   
)

Las variables que estan agrupadas cerca del nivel base indican que la presencia de valores faltantes estan muy relacionadas entre si

Mientras mas separado esten las variables en el diagrama es menos probable que los valores faltantes esten correlacionados entre las columnas

Porque hay variables que comparadas consigo mismas dan valores diferentes a 1, esto en la columna diagonal? Esto es debido a los valores faltantes?

Creo entender que el que el heatmap esta tomando en cuenta la relacion de valores faltantes dentro del dataframe, y tomandolos en cuenta unicamente a ellos para mostrarnos la correlacion ergo de datos faltantes por columna, por esto en las columnas de dieta muestra correlacion de 1, ya que como visualizamos en clases anteriores, los casos que no colocaron valor en alguna columna de dieta tampoco lo hizo en ninguno de los apartados de dieta.

Pero y la variable smoke_last, si dicha columna se compara consigo misma en cuanto valores faltantes, deberia haber correlacion 1 a 1, ya que faltaria el mismo dato en los mismos casos al realizarse la comparacion.