Amplía tu conjunto de herramientas para explorar valores faltantes

Curso de Manejo de Datos Faltantes: Imputación

Contenido del curso

Problemática de valores faltantes

Imputación basada en el donante

Imputación basada en modelos

Conclusión

Tomar examen

Amplía tu conjunto de herramientas para explorar valores faltantes

Mario Alexander Vargas Celis

Estudiante

Para explorar y manejar valores faltantes de manera efectiva, es crucial ampliar las herramientas y técnicas que tienes a tu disposición. Aquí te dejo algunas herramientas y enfoques útiles que puedes implementar:

### 1. **Visualización de valores faltantes**:

Existen varias librerías en Python que permiten visualizar valores faltantes de manera intuitiva:

- **Matplotlib y Seaborn**: Úsalos para crear gráficos de calor o gráficos de barras que te permitan identificar la cantidad de valores faltantes.

```python

import seaborn as sns

import matplotlib.pyplot as plt

sns.heatmap(df.isnull(), cbar=False)

plt.show()

```

- **Missingno**: Una librería especializada en la visualización de datos faltantes.

```python

import missingno as msno

# Visualización básica

msno.matrix(df)

# Visualización de dendograma para identificar patrones de valores faltantes correlacionados

msno.dendrogram(df)

```

### 2. **Matriz de sombras**:

Una técnica avanzada que permite crear una matriz binaria donde 1 indica la presencia de un valor y 0 indica su ausencia. Esto permite analizar las correlaciones entre la presencia de valores faltantes en diferentes variables.

```python

import pandas as pd

# Matriz de sombras

shadow_matrix = df.isnull().astype(int)

```

Esta técnica puede ser útil para identificar si la falta de datos en una columna está correlacionada con la falta de datos en otra.

### 3. **Correlación de nulidad**:

Explorar la relación entre valores faltantes en diferentes columnas es clave para entender el origen de los valores faltantes. Esto se puede hacer usando la función pandas.DataFrame.corr() para calcular la correlación entre la matriz de nulidad.

```python

# Calcular la correlación entre valores faltantes

nullity_corr = df.isnull().corr()

```

También puedes calcular correlaciones específicas con valores faltantes usando el método pairwise deletion o la imputación de valores como último recurso.

### 4. **Imputación de valores faltantes**:

Hay múltiples enfoques que puedes usar para imputar valores faltantes:

- **Imputación por la media/mediana/moda**: Fácil de implementar, pero puede sesgar los resultados.

```python

df['column'].fillna(df['column'].mean(), inplace=True)

```

- **Imputación usando métodos más avanzados**:

- **K-Nearest Neighbors (KNN)**: Este método utiliza las observaciones más cercanas para imputar valores faltantes.

- **Iterative Imputer**: Realiza imputaciones iterativas en las columnas del conjunto de datos utilizando un modelo de regresión.

```python

from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors=5)

df_imputed = imputer.fit_transform(df)

```

### 5. **Análisis de patrones de valores faltantes**:

Identificar patrones en los datos faltantes te ayudará a elegir la estrategia adecuada. Existen tres tipos de valores faltantes:

- **MCAR (Missing Completely at Random)**: No hay patrón.

- **MAR (Missing at Random)**: Los valores faltantes dependen de otras variables.

- **MNAR (Missing Not at Random)**: Los valores faltantes dependen de la propia variable con valores ausentes.

Usando herramientas de visualización como **Missingno** y análisis estadístico, puedes descubrir estos patrones.

### 6. **Funciones adicionales de pyjanitor**:

pyjanitor expande las capacidades de pandas con funciones específicas para limpieza, incluidas aquellas que exponen valores faltantes implícitos:

```python

import janitor

df = df.complete()

```

Puedes utilizar janitor para completar los valores implícitos y exponer relaciones entre variables.

### 7. **Uso de máscaras para filtrar y analizar valores faltantes**:

Puedes utilizar máscaras booleanas para filtrar filas y columnas con valores faltantes y hacer un análisis más detallado.

```python

missing_mask = df.isnull()

missing_columns = df.columns[missing_mask.any()]

```

### Conclusión

Ampliar tu conjunto de herramientas para manejar valores faltantes implica una combinación de **visualización**, **análisis estadístico** y **métodos de imputación** avanzados. Utilizar bibliotecas como **Seaborn**, **Missingno**, **pyjanitor**, junto con las funciones integradas de **Pandas**, te permitirá explorar los datos de manera más efectiva y tomar decisiones informadas sobre cómo manejar valores faltantes.

Amplía tu conjunto de herramientas para explorar valores faltantes

Problemática de valores faltantes

El problema de trabajar con valores faltantes

Proceso de análisis y limpieza de datos

Visualizar y eliminar valores faltantes

Implicaciones de los distintos tipos de valores faltantes