No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

No se trata de lo que quieres comprar, sino de quién quieres ser. Invierte en tu educación con el precio especial

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

12 Días
13 Hrs
57 Min
59 Seg

Correlación de nulidad

17/21
Recursos

Aportes 7

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Correlacion de Nulidad

Existen valores faltantes que aparecen conjuntamente con otras variables en el conjunto de datos? . La correlacion de nulidad nos ayuda a encontrar relaciones entre las variables en funcion de su nulidad

  • Heatmap de la variable riskfactors
missingno.heatmap(
    df=riskfactors_df
)

Los valores coloreados de color gris representan que no hay una correlacion ni positiva ni negativa entre las valores faltantes de las variables

Los valores coloreados de azul indican una correlacion positiva, es decir, la presencia de un valor faltante en una de las variables esta correlacionado con un valor faltante en la otra como es el caso de las variables dieta

Los valores coloreados de rojo simboliza una correlacion negativa, es decir, mientras en una de las variables hay un valor faltante en la otro se tiene un valor completo y vicerversa como en el caso de las variables smoke_last y smoke_stop

Hay caso donde te puedes encontrar un simbolo de <1 lo que indica que estas cerca del 100% de correlacion bien sea negativa o positiva dependiendo del color

  • Dendograma de la variable riskfactors. Se trata de un clustering jerarquica que agrupa las variables con correlaciones muy altas
missingno.dendrogram(
    df=riskfactors_df   
)

Las variables que estan agrupadas cerca del nivel base indican que la presencia de valores faltantes estan muy relacionadas entre si

Mientras mas separado esten las variables en el diagrama es menos probable que los valores faltantes esten correlacionados entre las columnas

Chat GPT de OpenAi explica el dendrograma así:

Un dendrograma es una representación gráfica de un árbol de jerarquía que muestra cómo diferentes elementos se agrupan en función de sus similitudes. En el contexto de correlación entre variables con valores nulos o faltantes, un dendrograma puede ser utilizado para visualizar patrones de agrupación entre las variables en términos de la similitud en los patrones de valores faltantes.

Aquí hay una breve descripción de cómo interpretar un dendrograma en este contexto:

  1. Similitud entre Variables:

    • Las hojas del dendrograma representan las variables.
    • La longitud de las ramas que se unen en un nodo indica la similitud entre las variables. Ramas más largas indican menor similitud, mientras que ramas más cortas indican mayor similitud.
  2. Altura del Dendrograma:

    • La altura en la que dos variables se unen en el dendrograma representa la distancia entre ellas en términos de la similitud de los patrones de valores faltantes.
    • Las variables que se unen a una altura baja comparten patrones de valores faltantes más similares que las variables que se unen a una altura más alta.
  3. Estructura Jerárquica:

    • La estructura jerárquica del dendrograma muestra cómo las variables se agrupan en subgrupos y cómo estos subgrupos se combinan en grupos más grandes.
    • Las ramas cortas y agrupadas indican variables que tienen patrones de valores faltantes similares y, por lo tanto, podrían estar correlacionadas en términos de la falta de datos.
  4. Uso para Imputación o Análisis:

    • Al comprender la estructura del dendrograma, se puede identificar grupos de variables que tienen patrones de valores faltantes similares.
    • Esto puede ser útil para decidir estrategias de imputación específicas para cada grupo, ya que variables dentro del mismo grupo pueden ser más propensas a ser imputadas de manera similar.

En resumen, el dendrograma en el contexto de correlación entre variables con valores faltantes proporciona una visualización que facilita la identificación de patrones de similitud en los patrones de valores faltantes entre diferentes variables. Esto puede ser útil para tomar decisiones informadas sobre cómo abordar la imputación de valores faltantes en conjuntos de datos.

Respecto al eje Y del dendrograma: Los números son una **referencia abstracta** que indica qué tanta similitud hay entre los patrones de nulos de las columnas. * Entre más cerca estén al 0 (eje y) mayor es la similitud entre los patrones de nulos de las variables. En esta casó podríamos afirmar que *"Si hay un nulo en una columna, es muy probable que la otra también lo tenga"*. * Y entre más lejos estén del 0, menor será la similitud, ya que el cálculo de la distancia *(euclidiana o de Manhattan)* ha resultado en una medida mayor. Una línea horizontal que esté cerca del 10 (eje Y) indicaría una menor similitud en los patrones de nulos entre las columnas comparadas. * Sin embargo, esto no nos habla sobre las ocurrencias donde haya nulos en una columna y completos en otra. Solo señala que la distancia calculada entre estas dos columnas es grande, y por lo tanto, tendrían una **menor relación entre sus patrones de nulos**.
missingno.heatmap(
    df=riskfactors_df
)
--------------------------------------
missingno.dendrogram(
    df=riskfactors_df
)
La \*\*correlación de nulidad\*\* te permite evaluar si la ausencia de datos en una columna está relacionada con la ausencia de datos en otra columna. Esta técnica es útil para detectar patrones en los valores faltantes. En Python, puedes calcular la correlación de nulidad utilizando la \*\*matriz de nulidad\*\* de un DataFrame. La función `isnull()` genera una matriz booleana que puedes usar para calcular correlaciones entre las columnas. \### Ejemplo de Correlación de Nulidad: ```python import pandas as pd import seaborn as sns import matplotlib.pyplot as plt \# Crear un DataFrame de ejemplo con algunos valores faltantes data = {'Variable1': \[1, 2, None, 4, 5, 6, None, 8, 9, 10], 'Variable2': \[5, None, 7, 8, 9, 10, None, 12, 13, 14], 'Variable3': \[None, 1, 2, None, 4, None, 6, 7, 8, 9]} df = pd.DataFrame(data) \# Crear la matriz de nulidad (True para valores nulos) nullity\_matrix = df.isnull() \# Calcular la correlación de nulidad nullity\_corr = nullity\_matrix.corr() \# Visualizar la correlación de nulidad con un heatmap plt.figure(figsize=(8, 6)) sns.heatmap(nullity\_corr, annot=True, cmap='coolwarm') plt.title('Correlación de Nulidad entre Variables') plt.show() ``` \### Explicación: 1\. \*\*`isnull()`\*\*: Crea una matriz donde `True` representa valores faltantes. 2\. \*\*`corr()`\*\*: Calcula la correlación entre las columnas en términos de la presencia o ausencia de valores nulos. Un valor cercano a 1 indica que las columnas tienden a tener valores nulos al mismo tiempo; un valor cercano a 0 sugiere que no hay correlación. 3\. \*\*`heatmap()`\*\*: Visualiza la matriz de correlación de nulidad. \### Interpretación: \- Si la correlación de nulidad es alta (cercana a 1), significa que cuando una columna tiene valores faltantes, es probable que la otra también los tenga. \- Si la correlación es baja o cercana a 0, significa que la ausencia de datos en una columna no está relacionada con la otra.
📝 La <u>correlación de nulidad</u> es una \*\*medida estadística\*\* para determinar si la ausencia de valores en una variable esta relacionada con la ausencia de valores en otra variable. Es un Coeficiente de correlación como el de Pearson (Kendall  ó Spearman), sin embargo este se calcula sobre la ausencia o presencia de valores en las variables. Responde a la pregunta: **¿Existen valores faltantes que aparecen conjuntamente con otras variables en el dataset?** La podemos responder con 2 gráficos. 1. heatmap 2. dendrogram **Interpretación:** * ➕ Positiva: La **ausencia** de valores en una variable **esta asociada** a la ausencia de valores en la otra variable. * 💡 La ausencia de una variable puede predecir la ausencia de la otra variable. * ➖ Negativa: La **presencia** de valores de una variable **esa asociada** con la ausencia de valores en la otra variable ⚠️ La correlación de nulidad no implica causalidad, lo que significa que otras variables o factores pueden estar involucrados en la presencia de datos faltantes

Porque hay variables que comparadas consigo mismas dan valores diferentes a 1, esto en la columna diagonal? Esto es debido a los valores faltantes?

Creo entender que el que el heatmap esta tomando en cuenta la relacion de valores faltantes dentro del dataframe, y tomandolos en cuenta unicamente a ellos para mostrarnos la correlacion ergo de datos faltantes por columna, por esto en las columnas de dieta muestra correlacion de 1, ya que como visualizamos en clases anteriores, los casos que no colocaron valor en alguna columna de dieta tampoco lo hizo en ninguno de los apartados de dieta.

Pero y la variable smoke_last, si dicha columna se compara consigo misma en cuanto valores faltantes, deberia haber correlacion 1 a 1, ya que faltaria el mismo dato en los mismos casos al realizarse la comparacion.