Imputación por interpolación: se estiman los valores perdidos interpolando (uniendo de manera lineal, polinomial, etc.) el último valor válido antes del valor perdido y el primer valor válido después del valor perdido.
Problemática de valores faltantes
El problema de trabajar con valores faltantes
Proceso de análisis y limpieza de datos
Visualizar y eliminar valores faltantes
Implicaciones de los distintos tipos de valores faltantes
Amplía tu conjunto de herramientas para explorar valores faltantes
Tratamiento de variables categóricas para imputación: codificación ordinal
Tratamiento de variables categóricas para imputación: one-hot encoding
Métodos de imputación de valores faltantes
Imputación basada en el donante
Imputación por media, mediana y moda
Imputación por llenado hacia atrás y hacia adelante
Imputación por interpolación
Imputación por KNN
Imputación por KNN en Python
Imputación basada en modelos
Introducción a la imputación basada en modelos
Imputaciones Múltiples por Ecuaciones Encadenadas (MICE)
Conclusión
Transformación inversa de los datos
¿Cómo continuar practicando?
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Jesús Vélez Santiago
Aportes 12
Preguntas 0
Imputación por interpolación: se estiman los valores perdidos interpolando (uniendo de manera lineal, polinomial, etc.) el último valor válido antes del valor perdido y el primer valor válido después del valor perdido.
Existen dos metodos para el tratamiento de valores faltantes
Existe otra forma de de clasificar los metodos de imputacion y es a traves de definir si son metodos de imputacion basados en Donantes o en Modelos.
Completa los valores que faltan para una unidad dada copiando los valores observados de otra unidad, el donante
El objetivo es encontrar un modelo predictivo para cada variable objetivo en el conjunto de datos que contiene valores faltantes
El método de interpolación es un enfoque común utilizado para la imputación de datos faltantes. En lugar de reemplazar los valores faltantes por un valor constante o un valor estimado basado en otras observaciones, la interpolación utiliza técnicas de interpolación matemática para estimar los valores faltantes en función de los valores observados cercanos en el tiempo o en el espacio.
La interpolación implica crear una función continua que pasa a través de los puntos de datos conocidos y luego estimar los valores faltantes en función de esta función continua. Hay varias técnicas de interpolación que se pueden utilizar, y la elección depende del tipo de datos y la estructura de los mismos. Algunas técnicas comunes de interpolación incluyen:
Interpolación lineal: La técnica más simple, que asume una relación lineal entre los puntos de datos conocidos y utiliza una línea recta para conectar los puntos adyacentes.
Interpolación polinómica: Utiliza polinomios para conectar los puntos conocidos y estimar los valores faltantes. Los polinomios de diferentes órdenes, como lineales, cuadráticos o cúbicos, pueden utilizarse según la complejidad de los datos.
Interpolación spline: Utiliza una función spline, que es una curva suave definida por segmentos polinómicos, para conectar los puntos conocidos. La interpolación spline es más flexible y puede adaptarse mejor a patrones no lineales en los datos.
Cabe mencionar que la interpolación tiene sus limitaciones y supone que existe una relación continua y suave entre los puntos de datos. En algunos casos, como datos con patrones complejos o ruido significativo, la interpolación puede no ser la mejor opción y pueden requerirse enfoques más avanzados.
Es importante evaluar cuidadosamente los datos y considerar otros métodos de imputación, como la media, la mediana, la moda o algoritmos más sofisticados, según la naturaleza de los datos faltantes y el contexto del problema.
Métodos de imputación avanzados KNN (K-Nearest Neighbors), MICE (Multiple Imputation by Chained Equations), NN (Neural Networks) y SVM (Support Vector Machines):
Estos métodos de imputación avanzada son utilizados cuando se necesita manejar datos con valores faltantes de manera más sofisticada y precisa. Cada método tiene sus propias características y supuestos, por lo que es importante considerar el contexto y las características de los datos al seleccionar el método de imputación más adecuado.
¿Qué son las imputaciones con base en el donante?
Completa los valores que faltan para una unidad dada copiando los valores observados de otra unidad, el donante.
¿Qué son las imputaciones con base en modelos?
El objetivo de la imputación basada en modelos es encontrar un modelo predictivo para cada variable objetivo en el conjunto de datos que contiene valores faltantes.
La interpolación puede ser tanto basada en donante como basada en modelo. Ambos enfoques se utilizan para estimar los valores faltantes utilizando información de las observaciones existentes.
Existen tres categorías principales de métodos de imputación:
El objetivo de la imputacion basada en modelos es encontrar un modelo predictivo para cada variable objetivo en el conjunto de datos que contiene valores faltantes
Esto fue lo que encontré:
La interpolación se puede clasificar en dos categorías principales: interpolación basada en el donante y interpolación basada en modelos.
**La interpolación basada en el donante **utiliza los valores conocidos más cercanos, llamados donantes, para estimar los valores faltantes. Algunos métodos comunes en esta categoría son la interpolación por vecino más cercano y la interpolación ponderada por distancia.
La interpolación basada en modelos utiliza modelos estadísticos o matemáticos para estimar los valores faltantes. Se ajusta un modelo a los datos conocidos y se utiliza para predecir los valores faltantes. Algunos métodos comunes en esta categoría son la interpolación polinómica, la interpolación spline y la interpolación mediante regresión.
La imputación por donante es un método utilizado en la estadística para rellenar valores perdidos en un conjunto de datos. Consiste en buscar un “donante” o conjunto de datos similares y utilizar sus valores para rellenar los valores perdidos.
Por otro lado, un modelo es una representación matemática o computacional de un sistema o proceso. En estadística y machine learning, los modelos se utilizan para representar y predecir patrones en los datos.
KNN como Método de Imputación
KNN puede ser considerado tanto como un método de imputación por donantes como un método de imputación por distribuciones.
En el contexto de la imputación de valores faltantes, KNN opera de la siguiente manera:
Desde la perspectiva de donantes, los K vecinos más cercanos pueden considerarse como donantes que proporcionan sus valores para imputar el valor faltante del registro receptor.
Desde la perspectiva de distribuciones, KNN se basa en la suposición de que los valores de las variables se distribuyen de manera similar en los vecinos cercanos. Al calcular la media (o la mediana) de los valores de los vecinos, KNN está imputando el valor faltante utilizando la distribución de los valores en la vecindad del registro receptor.
En resumen, KNN puede ser considerado como un método de imputación por donantes y por distribuciones. La elección de la perspectiva más adecuada depende del contexto del análisis y de las preferencias del analista.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?