Imputación por KNN en Python

Curso de Manejo de Datos Faltantes: Imputación

Contenido del curso

Problemática de valores faltantes

Imputación basada en el donante

Imputación basada en modelos

Conclusión

Tomar examen

Imputación por KNN en Python

Mario Alexander Vargas Celis

Estudiante

La **imputación por KNN** en Python se puede realizar de manera efectiva utilizando la clase KNNImputer de la librería scikit-learn. Esta herramienta es útil para reemplazar los valores faltantes basándose en las observaciones más cercanas en términos de distancia entre puntos.

### Pasos para implementar KNNImputer en Python:

1. **Instalación de las dependencias necesarias** (si aún no las tienes instaladas):

```bash

pip install scikit-learn pandas

```

2. **Imputación por KNN** con un ejemplo práctico.

#### Ejemplo paso a paso:


import numpy as np

import pandas as pd

from sklearn.impute import KNNImputer



\# Crear un DataFrame con valores faltantes

data = {'A': \[1, 2, np.nan, 4, 5],

&#x20;       'B': \[5, np.nan, np.nan, 3, 2],

&#x20;       'C': \[7, 8, 9, 10, 11]}



df = pd.DataFrame(data)



\# Mostrar el DataFrame original con valores faltantes

print("DataFrame original:")

print(df)



\# Crear un objeto KNNImputer con K=2 (número de vecinos más cercanos)

imputer = KNNImputer(n\_neighbors=2)



\# Imputar los valores faltantes utilizando KNN

df\_imputed = pd.DataFrame(imputer.fit\_transform(df), columns=df.columns)



\# Mostrar el DataFrame después de la imputación

print("\nDataFrame imputado por KNN:")

print(df\_imputed)

### Explicación del código:

1. **DataFrame con valores faltantes**: Creamos un DataFrame con algunas celdas vacías (representadas por np.nan).

2. **KNNImputer**: Inicializamos el objeto KNNImputer con 2 vecinos más cercanos (n\_neighbors=2). Puedes ajustar este valor dependiendo de cuántos vecinos desees utilizar.

3. **Imputación**: Aplicamos el método fit\_transform() para realizar la imputación de los valores faltantes.

4. **Resultados**: Visualizamos el DataFrame con los valores imputados.

### Salida esperada:


DataFrame original:

&#x20;    A    B   C

0  1.0  5.0   7

1  2.0  NaN   8

2  NaN  NaN   9

3  4.0  3.0  10

4  5.0  2.0  11



DataFrame imputado por KNN:

&#x20;    A    B     C

0  1.0  5.0   7.0

1  2.0  4.0   8.0

2  3.0  4.0   9.0

3  4.0  3.0  10.0

4  5.0  2.0  11.0

### Consideraciones adicionales:

- **Escalado de los datos**: Si los datos tienen escalas muy diferentes, es recomendable normalizarlos antes de aplicar KNNImputer para que las variables no dominen en el cálculo de las distancias.

```python

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

df_scaled = scaler.fit_transform(df)

# Aplicar KNN después de escalar los datos

df_imputed_scaled = pd.DataFrame(imputer.fit_transform(df_scaled), columns=df.columns)

```

- **Elección del número de vecinos (\( K \))**: El número de vecinos a utilizar puede variar según el tipo de datos y la cantidad de valores faltantes. Generalmente, se prueba con distintos valores de \( K \) y se evalúa cuál proporciona mejores resultados para el conjunto de datos.

La imputación por KNN es útil cuando los valores faltantes están relacionados con otras observaciones cercanas en el espacio de características, proporcionando una forma eficiente de imputar datos faltantes sin introducir sesgos arbitrarios.

Imputación por KNN en Python

Problemática de valores faltantes

El problema de trabajar con valores faltantes

Proceso de análisis y limpieza de datos

Visualizar y eliminar valores faltantes

Implicaciones de los distintos tipos de valores faltantes

Amplía tu conjunto de herramientas para explorar valores faltantes

Tratamiento de variables categóricas para imputación: codificación ordinal

Tratamiento de variables categóricas para imputación: one-hot encoding

Métodos de imputación de valores faltantes

Imputación basada en el donante

Imputación por media, mediana y moda

Imputación por llenado hacia atrás y hacia adelante

Imputación por interpolación