MCAR, MAR, MNAR en Python

Curso de Manejo de Datos Faltantes: Detección y Exploración

Contenido del curso

Introducción a los valores faltantes

Manipulación inicial de valores faltantes

Búsqueda de relaciones de valores faltantes

Tratamiento de valores faltantes

Cierre de curso

21
Continúa aprendiendo sobre el manejo de valores faltantes
03:21 min

Tomar examen

MCAR, MAR, MNAR en Python

Juan Pablo García Chávez

Estudiante

Visualizar mecanismos de valores faltantes

1.-4 Palabras clave

MCAR
MAR
MNAR
missingno.matrix()

2.-4 Preguntas

¿Cómo convertir ceros en valores faltantes reales en un dataset?
¿Cómo se ven visualmente los patrones de MCAR, MAR y MNAR?
¿Por qué ordenar variables o filas ayuda a detectar mecanismos de faltantes?
¿Qué limitaciones tiene inferir el mecanismo solo con visualización?

3.-Notas completas del tema

A) Paso previo: identificar faltantes codificados como ceros

En algunos datasets, los faltantes no están como NaN, sino como ceros en columnas donde un cero no tendría sentido.

Para analizarlos correctamente:

se seleccionan las columnas afectadas,
se reemplazan los ceros por NaN,
y después se vuelve a graficar.

B) Visualizar MCAR

Los faltantes parecen aparecer de forma dispersa y sin patrón claro.
No se agrupan por columnas, filas o valores observables.
Visualmente parecen “accidentales” o aislados.

Interpretación:

podría tratarse de un patrón completamente aleatorio.

C) Visualizar MAR

Los faltantes se relacionan con otra variable observada.
Ordenar el dataset por una columna ayuda a ver si los faltantes aparecen alineados con esa variable.
Puede haber cierta estructura, aunque no tan evidente como en MNAR.

Interpretación:

la ausencia depende de una condición observable.

D) Visualizar MNAR

Los faltantes tienden a agruparse de forma más marcada.
Algunas variables muestran huecos que podrían depender del propio valor ausente o de límites de medición.
Se observa una acumulación más “sospechosa” o sistemática.

Interpretación:

el mecanismo podría estar ligado al valor que falta en sí mismo.

E) Herramientas útiles

sort_variables_by_missingness
- ordena columnas por cantidad de faltantes.
missingno.matrix()
- muestra patrón visual de presencia/ausencia por filas.
Ordenar por una variable específica puede ayudar a detectar relaciones con faltantes.

F) Advertencia importante

La visualización no prueba con certeza si un mecanismo es MCAR, MAR o MNAR.
Solo permite construir hipótesis razonables.
La interpretación siempre debe apoyarse en el contexto del problema.

4.-Código necesario

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import missingno as msno

# ==========================================================
# Dataset de ejemplo tipo diabetes
# ==========================================================
diabetes_df = pd.DataFrame({
    "pregnancies": [6, 1, 8, 1, 0, 5, 3, 10],
    "glucose": [148, 85, 183, 89, 0, 116, 0, 115],
    "blood_pressure": [72, 66, 64, 66, 0, 74, 0, 0],
    "skin_thickness": [35, 29, 0, 23, 0, 0, 32, 0],
    "insulin": [0, 0, 0, 94, 168, 0, 0, 0],
    "bmi": [33.6, 26.6, 23.3, 28.1, 0, 25.6, 24.0, 30.5],
})

print("== DataFrame original ==")
print(diabetes_df)

# ==========================================================
# Ejercicio 1/2: Convertir ceros a NaN en columnas seleccionadas
# ==========================================================
print("\n--- Ejercicio 1/2: reemplazo de ceros ---")

cols_missing = ["glucose", "blood_pressure", "skin_thickness", "insulin", "bmi"]

diabetes_df[cols_missing] = diabetes_df[cols_missing].replace(0, np.nan)

print("\n== DataFrame con NaN explícitos ==")
print(diabetes_df)

# Visualización simple de faltantes
msno.bar(diabetes_df, color="black")
plt.title("Proporción de valores faltantes por variable")
plt.show()

# ==========================================================
# Ejercicio 2/2: Comparar patrones visuales
# ==========================================================
print("\n--- Ejercicio 2/2: patrones visuales ---")

# Ordenar variables por cantidad de faltantes
sorted_cols = diabetes_df.isna().sum().sort_values(ascending=False).index
df_sorted = diabetes_df[sorted_cols]

# Matriz visual de faltantes
msno.matrix(df_sorted, color=(0, 0, 0), fontsize=10)
plt.title("Patrón de faltantes ordenado por missingness")
plt.show()

# Ordenar por una variable para explorar posible MAR
df_by_glucose = diabetes_df.sort_values("glucose")
msno.matrix(df_by_glucose, color=(0, 0, 0), fontsize=10)
plt.title("Patrón de faltantes ordenado por glucose")
plt.show()

# Ordenar por otra variable para explorar posible MNAR
df_by_insulin = diabetes_df.sort_values("insulin")
msno.matrix(df_by_insulin, color=(0, 0, 0), fontsize=10)
plt.title("Patrón de faltantes ordenado por insulin")
plt.show()

4.- Mapa conceptual

Datos con faltantes
        |
        +--> Faltantes codificados como 0
        |       |
        |       v
        |   Reemplazo a NaN
        |
        v
Visualización
   |
   +--> MCAR: dispersos, sin patrón claro
   +--> MAR: asociados a otra variable observada
   +--> MNAR: agrupados / sospecha de dependencia del propio valor
        |
        v
Conclusión: hipótesis, no certeza absoluta

5.-Pequeño resumen

Primero debes convertir los faltantes codificados como ceros en NaN para poder analizarlos bien. Luego, con herramientas como missingno.matrix() y ordenamientos por variables, puedes buscar patrones que sugieran MCAR, MAR o MNAR. Aun así, la visualización solo da pistas: el mecanismo real se infiere con exploración y contexto, no con certeza absoluta.

Si quieres, te hago el siguiente apunte sobre estrategias para tratar valores faltantes.

MCAR, MAR, MNAR en Python

Introducción a los valores faltantes

¿Por qué explorar y lidiar con valores faltantes?

Operaciones con valores faltantes

Conociendo datasets para manejo de datos faltantes

Ejecución de Notebooks en Deepnote con %run

Extendiendo la API de Pandas

Tabulación de valores faltantes

Visualización de valores faltantes

Manipulación inicial de valores faltantes

Codificación de valores faltantes

Conversión de valores faltantes implícitos en explícitos

Exponer filas faltantes implícitas en explícitas

Tipos de valores faltantes