Imputación por media, mediana y moda

Curso de Manejo de Datos Faltantes: Imputación

Contenido del curso

Problemática de valores faltantes

Imputación basada en el donante

Imputación basada en modelos

Conclusión

Tomar examen

Imputación por media, mediana y moda

Mario Alexander Vargas Celis

Estudiante

La **imputación por media, mediana y moda** es uno de los métodos más simples y comunes para manejar valores faltantes. Estos métodos son fáciles de implementar y proporcionan una solución rápida, especialmente cuando los valores faltantes son pocos. A continuación, te explico cada uno de estos enfoques:

### 1. **Imputación por Media**

La imputación por media reemplaza los valores faltantes de una variable numérica por el promedio de todos los valores no faltantes de esa variable.

- **Ventajas**: Es fácil de calcular e implementar.

- **Desventajas**: Puede distorsionar la distribución de los datos, especialmente si hay outliers, y puede subestimar la varianza.


\# Imputación por media

df\['columna'] = df\['columna'].fillna(df\['columna'].mean())

### 2. **Imputación por Mediana**

La imputación por mediana utiliza el valor central de los datos para reemplazar los valores faltantes. Es más robusta que la media en presencia de valores atípicos.

- **Ventajas**: La mediana es menos sensible a outliers, por lo que es más adecuada para datos sesgados.

- **Desventajas**: Al igual que con la media, puede reducir la variabilidad en los datos.


\# Imputación por mediana

df\['columna'] = df\['columna'].fillna(df\['columna'].median())

### 3. **Imputación por Moda**

Para variables categóricas, la imputación por moda reemplaza los valores faltantes con la categoría más frecuente en los datos.

- **Ventajas**: Es útil para variables categóricas.

- **Desventajas**: Si hay varias categorías con frecuencias similares, puede no ser representativo imputar con la moda.


\# Imputación por moda (valores categóricos)

df\['columna'] = df\['columna'].fillna(df\['columna'].mode()\[0])

### Comparación y Aplicaciones

|-------------|-----------------------------------------|--------------------------------------------------------|--------------------------------------------------------|

### Consideraciones

- **Reducción de la varianza**: Al utilizar la media, mediana o moda, se reduce la variabilidad en los datos, lo que puede ser perjudicial en algunos análisis.

- **Sesgo**: Estos métodos suponen que los valores faltantes son aleatorios. Si los valores faltantes tienen un patrón, la imputación por media, mediana o moda puede introducir sesgos.

Este enfoque es más adecuado cuando hay pocos valores faltantes y no se requiere una alta precisión. Para conjuntos de datos con muchas variables o relaciones complejas, se pueden usar métodos más avanzados como la imputación multivariante o la regresión.

Imputación por media, mediana y moda

Problemática de valores faltantes

El problema de trabajar con valores faltantes

Proceso de análisis y limpieza de datos

Visualizar y eliminar valores faltantes

Implicaciones de los distintos tipos de valores faltantes

Amplía tu conjunto de herramientas para explorar valores faltantes

Tratamiento de variables categóricas para imputación: codificación ordinal

Tratamiento de variables categóricas para imputación: one-hot encoding

Métodos de imputación de valores faltantes

Imputación basada en el donante