Imputación por interpolación

Curso de Manejo de Datos Faltantes: Imputación

Contenido del curso

Problemática de valores faltantes

Imputación basada en el donante

Imputación basada en modelos

Conclusión

Tomar examen

Imputación por interpolación

Mario Alexander Vargas Celis

Estudiante

La **imputación por interpolación** es un método para estimar valores faltantes en un conjunto de datos, particularmente útil en series temporales o cuando se espera que los datos cambien de manera continua o progresiva. Este método utiliza la tendencia y el comportamiento de los valores circundantes para estimar el valor faltante.

### Tipos de interpolación:

1. **Interpolación lineal**:

Es el método más básico. Estima los valores faltantes asumiendo que los datos varían de manera lineal entre los puntos observados.

```python

# Interpolación lineal

df['columna'] = df['columna'].interpolate(method='linear')

```

2. **Interpolación polinómica**:

Utiliza un polinomio de grado n para ajustar los valores entre los puntos. Es más flexible que la lineal, pero también puede ser más propensa a oscilar en los extremos.

```python

# Interpolación polinómica (grado 2)

df['columna'] = df['columna'].interpolate(method='polynomial', order=2)

```

3. **Interpolación basada en splines**:

Utiliza splines cúbicos o de otro grado para suavizar las curvas entre los puntos. Es útil para datos que no siguen un patrón lineal simple, pero que aún deben mantener una curva suave.

```python

# Interpolación cúbica (splines cúbicos)

df['columna'] = df['columna'].interpolate(method='spline', order=3)

```

4. **Interpolación basada en el índice temporal**:

Si trabajas con series temporales, puedes interpolar usando los índices temporales. Esto es útil cuando la regularidad temporal es más importante que la relación entre los valores de las columnas.

```python

# Interpolación basada en el índice temporal

df['columna'] = df['columna'].interpolate(method='time')

```

### Ejemplo práctico:

Imagina un conjunto de datos que registra la temperatura diaria, pero algunos días faltan registros. Usamos interpolación para estimar esos valores faltantes.


import pandas as pd

import numpy as np



\# Crear un DataFrame con fechas y temperaturas

data = {'fecha': pd.date\_range('2023-01-01', periods=10),

&#x20;       'temperatura': \[30, np.nan, np.nan, 35, 33, np.nan, 32, 31, np.nan, 30]}



df = pd.DataFrame(data)



\# Interpolación lineal

df\['temperatura\_interpolada'] = df\['temperatura'].interpolate(method='linear')



\# Mostrar el resultado

print(df)

### Ventajas de la interpolación:

- **Aprovecha el patrón de los datos**: Si los datos siguen una tendencia continua, la interpolación proporciona estimaciones razonables.

- **Flexibilidad**: Puedes usar diferentes métodos de interpolación (lineal, polinómica, spline) para ajustar el método a la naturaleza de los datos.

- **Preserva la estructura temporal**: En series temporales, la interpolación basada en el tiempo permite hacer imputaciones manteniendo el orden cronológico de los datos.

### Desventajas de la interpolación:

- **No es adecuada para todos los tipos de datos**: Si los valores faltantes son el resultado de un proceso no continuo o aleatorio, la interpolación puede introducir sesgos.

- **Oscilaciones**: Métodos más complejos como los polinomios pueden producir oscilaciones inesperadas, especialmente en los extremos de los datos.

- **Asume continuidad**: Funciona mejor cuando se puede suponer que los valores entre los puntos siguen un patrón predecible o continuo.

### Consideraciones:

- Si los valores faltantes son numerosos o consecutivos, la interpolación puede generar estimaciones menos fiables.

- La interpolación es más adecuada para datos numéricos y en su mayoría aplicable a series temporales, aunque también se puede usar en otras estructuras siempre que los datos tengan una secuencia o patrón claro.

Este método es útil en muchos casos, pero siempre debes evaluar si las suposiciones de continuidad son razonables para tus datos.

Imputación por interpolación

Problemática de valores faltantes

El problema de trabajar con valores faltantes

Proceso de análisis y limpieza de datos

Visualizar y eliminar valores faltantes

Implicaciones de los distintos tipos de valores faltantes

Amplía tu conjunto de herramientas para explorar valores faltantes

Tratamiento de variables categóricas para imputación: codificación ordinal

Tratamiento de variables categóricas para imputación: one-hot encoding

Métodos de imputación de valores faltantes

Imputación basada en el donante

Imputación por media, mediana y moda

Imputación por llenado hacia atrás y hacia adelante