Imputación por llenado hacia atrás y hacia adelante

Curso de Manejo de Datos Faltantes: Imputación

Contenido del curso

Problemática de valores faltantes

Imputación basada en el donante

Imputación basada en modelos

Conclusión

Tomar examen

Imputación por llenado hacia atrás y hacia adelante

Diego Cesar Lerma Torres

Estudiante

Hay que tener en cuenta que, si hacemos groupby y luego aplicamos ffill o bfill, en los grupos, muchas veces al inicio o al final no habrá ningún dato para extender y lo dejará nulo.

Por ejemplo. Si resolvemos el reto mediante un apply:

(
    nhanes_df
    .select_columns('height', 'weight', 'gender', 'diabetes', 'general_health_condition')
    .sort_values(
        by=['gender', 'diabetes', 'general_health_condition','height'],
        ascending=True
    )
    .groupby(['gender', 'general_health_condition', 'height'],
        group_keys=True, 
        dropna=False
    )
    .apply(
        lambda df: df['weight'].ffill()
    )
    .reset_index()
    .isna().sum()
)

Retorna que quedaron 249 valores nulos gender 0 general_health_condition 1360 height 1669 SEQN 0 weight 249 dtype: int64

Si usamos transform:

# Seleccionar las columnas de interés y ordenar
df_modificado = (
    nhanes_df
    .select_columns('height', 'weight', 'gender', 'diabetes', 'general_health_condition')
    .sort_values(by=['gender', 'diabetes', 'general_health_condition', 'height'], ascending=True)
)

# Realizar la imputación. Importante: Aplicamos 'transform' directamente sobre la columna 'weight'.
df_modificado['weight'] = (
    df_modificado
    .groupby(['gender', 'general_health_condition', 'height'], group_keys=True, dropna=False)['weight']
    .transform(lambda x: x.ffill())
)

# Resetear el índice si es necesario y calcular los valores faltantes
df_modificado = df_modificado.reset_index(drop=True)
print(df_modificado.isna().sum())

Queda igual height 1669 weight 249 gender 0 diabetes 0 general_health_condition 1360 dtype: int64

Y si hacemos ffill().bfill() encadenado porque hay un grupo completo de nulos, quedan 2 sin imputar height 1669 weight 2 gender 0 diabetes 0 general_health_condition 1360 dtype: int64

Imputación por llenado hacia atrás y hacia adelante

Problemática de valores faltantes

El problema de trabajar con valores faltantes

Proceso de análisis y limpieza de datos

Visualizar y eliminar valores faltantes

Implicaciones de los distintos tipos de valores faltantes

Amplía tu conjunto de herramientas para explorar valores faltantes

Tratamiento de variables categóricas para imputación: codificación ordinal

Tratamiento de variables categóricas para imputación: one-hot encoding

Métodos de imputación de valores faltantes

Imputación basada en el donante

Imputación por media, mediana y moda