No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Matriz de sombras: shadow matrix

13/21
Recursos

Aportes 5

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Preguntando por los valores faltantes de “pregnant” según la edad, podemos ver que donde hay datos la media de edad es de 33 y la edad máxima es de 44 (mujeres en edad reproductiva). Mientras que para los valores faltantes, la media de edad es de 61 y la edad máxima de 97 (mujeres que probablemente no están en edad reproductiva). Por lo tanto, podemos inferir que los valores faltante en “pregnant” están relacionados con la variable “age”.

Matriz de Sombra

Permiten establecer relaciones entre las variables que tienen todas sus observaciones y la ausencia o presencia de otras variables de forma que se pueda comparar estadisticos o visualizarlos de manera efectiva

Construccion de la Matriz de Sombra

(
    riskfactors_df
    .isna() #crea una matriz de booleanos del dataframe
    .replace({ #reemplaza los valores booleanos por valores adecuados
        False:"Not missing",
        True:"Missing"
    })
    .add_suffix("_NA") #agrega un sufijo en cada variable
    .pipe(
        lambda shadow_matrix: pd.concat(  # concatena los valores de la matriz de sombra a la derecha del dataframe
            [riskfactors_df, shadow_matrix],
            axis="columns"
        )
    )
)

Construcion de la Matriz de Sombra utilizando la funcion de utileria bind_shadow_matrix

(
    riskfactors_df
    .missing
    .bind_shadow_matrix(only_missing=True) # con este parametro = True solo se pasaran las variables que tienen valores faltantes
)

Explorando estadisticos utilizando las nuevas columnas de la matriz de sombra

# Nos ayuda a encontrar si existe diferencias de alguna variable referente a la ausencia de otra
(
    riskfactors_df
    .missing.bind_shadow_matrix(only_missing=True) #une la matriz de sombra creada
    .groupby(["weight_lbs_NA"]) # agrupar por la ausencia de la variable peso 
    ["age"] # variable age como referencia
    .describe()
    .reset_index()
)

Como crear una matriz de sombra

Resultados de la creacion de la Matriz de Sombra

La diferencia de media de edad entre los datos faltantes y no es de 4 años, lo cual similar al caso que uso el profe y puedaramos decir:

Los datos faltantes de peso e indice de masa corporal son valores faltantes de tipo MAR ya que probablemente la bascula estaba fuera de servicio. 👍🏼