No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Correlación de nulidad

17/21
Recursos

Aportes 5

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Correlacion de Nulidad

Existen valores faltantes que aparecen conjuntamente con otras variables en el conjunto de datos? . La correlacion de nulidad nos ayuda a encontrar relaciones entre las variables en funcion de su nulidad

  • Heatmap de la variable riskfactors
missingno.heatmap(
    df=riskfactors_df
)

Los valores coloreados de color gris representan que no hay una correlacion ni positiva ni negativa entre las valores faltantes de las variables

Los valores coloreados de azul indican una correlacion positiva, es decir, la presencia de un valor faltante en una de las variables esta correlacionado con un valor faltante en la otra como es el caso de las variables dieta

Los valores coloreados de rojo simboliza una correlacion negativa, es decir, mientras en una de las variables hay un valor faltante en la otro se tiene un valor completo y vicerversa como en el caso de las variables smoke_last y smoke_stop

Hay caso donde te puedes encontrar un simbolo de <1 lo que indica que estas cerca del 100% de correlacion bien sea negativa o positiva dependiendo del color

  • Dendograma de la variable riskfactors. Se trata de un clustering jerarquica que agrupa las variables con correlaciones muy altas
missingno.dendrogram(
    df=riskfactors_df   
)

Las variables que estan agrupadas cerca del nivel base indican que la presencia de valores faltantes estan muy relacionadas entre si

Mientras mas separado esten las variables en el diagrama es menos probable que los valores faltantes esten correlacionados entre las columnas

Me confundí con el dendrograma. Un poco.
Pero esto me ayudo a aclarar las ideas

Chat GPT de OpenAi explica el dendrograma así:

Un dendrograma es una representación gráfica de un árbol de jerarquía que muestra cómo diferentes elementos se agrupan en función de sus similitudes. En el contexto de correlación entre variables con valores nulos o faltantes, un dendrograma puede ser utilizado para visualizar patrones de agrupación entre las variables en términos de la similitud en los patrones de valores faltantes.

Aquí hay una breve descripción de cómo interpretar un dendrograma en este contexto:

  1. Similitud entre Variables:

    • Las hojas del dendrograma representan las variables.
    • La longitud de las ramas que se unen en un nodo indica la similitud entre las variables. Ramas más largas indican menor similitud, mientras que ramas más cortas indican mayor similitud.
  2. Altura del Dendrograma:

    • La altura en la que dos variables se unen en el dendrograma representa la distancia entre ellas en términos de la similitud de los patrones de valores faltantes.
    • Las variables que se unen a una altura baja comparten patrones de valores faltantes más similares que las variables que se unen a una altura más alta.
  3. Estructura Jerárquica:

    • La estructura jerárquica del dendrograma muestra cómo las variables se agrupan en subgrupos y cómo estos subgrupos se combinan en grupos más grandes.
    • Las ramas cortas y agrupadas indican variables que tienen patrones de valores faltantes similares y, por lo tanto, podrían estar correlacionadas en términos de la falta de datos.
  4. Uso para Imputación o Análisis:

    • Al comprender la estructura del dendrograma, se puede identificar grupos de variables que tienen patrones de valores faltantes similares.
    • Esto puede ser útil para decidir estrategias de imputación específicas para cada grupo, ya que variables dentro del mismo grupo pueden ser más propensas a ser imputadas de manera similar.

En resumen, el dendrograma en el contexto de correlación entre variables con valores faltantes proporciona una visualización que facilita la identificación de patrones de similitud en los patrones de valores faltantes entre diferentes variables. Esto puede ser útil para tomar decisiones informadas sobre cómo abordar la imputación de valores faltantes en conjuntos de datos.

Porque hay variables que comparadas consigo mismas dan valores diferentes a 1, esto en la columna diagonal? Esto es debido a los valores faltantes?

Creo entender que el que el heatmap esta tomando en cuenta la relacion de valores faltantes dentro del dataframe, y tomandolos en cuenta unicamente a ellos para mostrarnos la correlacion ergo de datos faltantes por columna, por esto en las columnas de dieta muestra correlacion de 1, ya que como visualizamos en clases anteriores, los casos que no colocaron valor en alguna columna de dieta tampoco lo hizo en ninguno de los apartados de dieta.

Pero y la variable smoke_last, si dicha columna se compara consigo misma en cuanto valores faltantes, deberia haber correlacion 1 a 1, ya que faltaria el mismo dato en los mismos casos al realizarse la comparacion.

missingno.heatmap(
    df=riskfactors_df
)
--------------------------------------
missingno.dendrogram(
    df=riskfactors_df
)