Visualización de valores faltantes en dos variables

Curso de Manejo de Datos Faltantes: Detección y Exploración

Contenido del curso

Introducción a los valores faltantes

Manipulación inicial de valores faltantes

Búsqueda de relaciones de valores faltantes

Tratamiento de valores faltantes

Cierre de curso

21
Continúa aprendiendo sobre el manejo de valores faltantes
03:21 min

Tomar examen

Visualización de valores faltantes en dos variables

Mario Alexander Vargas Celis

Estudiante

Para visualizar los valores faltantes en dos variables de un conjunto de datos, puedes usar varias técnicas que permiten comparar la relación entre las dos variables y cómo los valores faltantes están distribuidos entre ellas. A continuación te muestro algunas técnicas comunes para visualizar esta información.

### 1. Gráfico de Dispersión con Colores que Indiquen los Valores Faltantes

Puedes crear un gráfico de dispersión para comparar dos variables, usando colores diferentes para mostrar si alguno de los puntos tiene valores faltantes en alguna de las variables.


import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt



\# Crear un DataFrame de ejemplo con valores faltantes

data = {'Variable1': \[1, 2, None, 4, 5, 6, 7, None, 9, 10],

&#x20;       'Variable2': \[5, None, 7, None, 9, 10, None, 12, 13, 14]}

df = pd.DataFrame(data)



\# Crear una nueva columna que identifique si hay valores faltantes en alguna de las dos variables

df\['Missing'] = df.isnull().any(axis=1)



\# Visualizar con un gráfico de dispersión

plt.figure(figsize=(8, 6))

sns.scatterplot(x='Variable1', y='Variable2', hue='Missing', data=df, palette='coolwarm')

plt.title('Valores Faltantes en Dos Variables')

plt.show()

### 2. Gráfico de Mapa de Calor para Mostrar Correlación de Faltantes

Otra técnica es un mapa de calor que indica la correlación de valores faltantes entre dos o más variables, permitiendo ver si los valores faltantes en una variable coinciden con los faltantes en otra.


import seaborn as sns

import matplotlib.pyplot as plt

import pandas as pd



\# Crear un DataFrame de ejemplo con valores faltantes

data = {'Variable1': \[1, None, 3, 4, 5, None, 7, 8, 9, None],

&#x20;       'Variable2': \[None, 2, 3, None, 5, 6, None, 8, None, 10]}

df = pd.DataFrame(data)



\# Visualización de valores faltantes con un mapa de calor

plt.figure(figsize=(6, 4))

sns.heatmap(df.isnull(), cmap='coolwarm', cbar=False, yticklabels=False)

plt.title('Mapa de Calor de Valores Faltantes en Dos Variables')

plt.show()

### 3. Gráfico de Barras Apiladas

Otra opción es usar un gráfico de barras apiladas para visualizar la proporción de valores faltantes en dos variables. Esto permite ver claramente qué porcentaje de los datos está presente o ausente.


import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt



\# Crear un DataFrame de ejemplo con valores faltantes

data = {'Variable1': \[1, 2, None, 4, 5, None, 7, 8, 9, 10],

&#x20;       'Variable2': \[None, 2, 3, None, 5, None, 7, 8, None, 10]}

df = pd.DataFrame(data)



\# Contar valores faltantes y no faltantes

missing\_counts = df.isnull().sum()

present\_counts = len(df) - missing\_counts



\# Crear DataFrame para el gráfico

bar\_df = pd.DataFrame({'Missing': missing\_counts, 'Present': present\_counts})



\# Gráfico de barras apiladas

bar\_df.T.plot(kind='bar', stacked=True, color=\['red', 'green'])

plt.title('Valores Faltantes en Dos Variables')

plt.xlabel('Variables')

plt.ylabel('Conteo')

plt.show()

### Descripción:

1. **Gráfico de Dispersión**: Permite ver la relación entre dos variables, con los puntos coloreados según si tienen o no valores faltantes.

2. **Mapa de Calor**: Muestra de manera visual qué celdas del DataFrame tienen valores faltantes, utilizando colores.

3. **Gráfico de Barras Apiladas**: Da una vista general de cuántos valores faltantes y presentes hay para cada variable.

Estas visualizaciones ayudan a entender mejor cómo se distribuyen los valores faltantes entre las dos variables, lo que es crucial antes de aplicar técnicas de imputación o limpieza.

¿Te gustaría más ejemplos o alguna ampliación sobre alguno de estos métodos?

Visualización de valores faltantes en dos variables

Introducción a los valores faltantes

¿Por qué explorar y lidiar con valores faltantes?

Operaciones con valores faltantes

Conociendo datasets para manejo de datos faltantes

Ejecución de Notebooks en Deepnote con %run

Extendiendo la API de Pandas

Tabulación de valores faltantes