Preparar un conjunto de datos para un modelo de machine learning implica enfrentar situaciones que pueden comprometer la calidad de las predicciones. Una de las más frecuentes es la presencia de datos atípicos, también conocidos como outliers. Entender qué son, por qué aparecen y cómo tratarlos marca la diferencia entre un modelo confiable y uno que genera errores sistemáticos en producción.
¿Qué es un valor atípico y por qué aparece en tu dataset?
Un valor atípico es todo dato que no se comporta como el patrón general del resto de observaciones [0:12]. Son datos excepcionales que no encajan en la distribución habitual. Sus causas pueden ser muy diversas:
- Errores en la medición de los datos.
- Errores durante la carga al dataset.
- Variabilidad natural del fenómeno que se está modelando.
- Novedades o comportamientos no contemplados previamente.
Identificarlos antes de iniciar el proceso de modelado es fundamental, porque ignorarlos puede tener consecuencias graves.
¿Por qué los datos atípicos son problemáticos para tus modelos?
Si no se manejan adecuadamente, los outliers pueden sesgar los modelos de machine learning y generar un error considerable cuando se utilicen con datos del mundo real [1:08]. Sin embargo, no siempre representan un problema técnico. En ocasiones revelan que existe alguna variable que falta medir o que el fenómeno no se ha entendido por completo.
Además, detectarlos a tiempo funciona como un mecanismo de detección temprana de fallos en el modelo, lo cual permite corregir el rumbo antes de llegar a producción.
¿Cómo identificar valores atípicos con métodos estadísticos y gráficos?
Existen dos grandes familias de técnicas para detectar estos datos: los métodos estadísticos-matemáticos y los métodos gráficos [1:42].
¿Qué métodos estadísticos puedes usar?
- Z score: calcula la distancia de cada punto respecto a la media, expresada en desviaciones estándar [1:55]. Un valor muy alejado de la media, medido en esas unidades, se considera atípico.
- DBSCAN (Density-Based Spatial Clustering): es una técnica de clustering que agrupa los datos por densidad y señala aquellos puntos que no pertenecen a los clústeres principales [2:14].
- Rango intercuartílico (IQR): un dato se considera atípico si cae por debajo de Q1 − 1.5 × IQR o por encima de Q3 + 1.5 × IQR [2:30]. El rango intercuartílico se define como la diferencia entre el cuartil tres y el cuartil uno (Q3 − Q1).
¿Cómo ayudan los box plot a visualizar outliers?
El diagrama de caja o box plot es la herramienta gráfica más directa para observar la distribución de una variable y detectar valores atípicos [3:02]. Su estructura se interpreta así:
- Mediana: la línea central de la caja, donde se ubica el 50 % de los datos.
- Q1 y Q3: los bordes inferior y superior de la caja, representando el 25 % y el 75 % de los datos respectivamente.
- Bigotes: se extienden hasta Q1 − 1.5 × IQR (dato mínimo dentro del comportamiento general) y Q3 + 1.5 × IQR (dato máximo dentro del comportamiento general).
- Puntos fuera de los bigotes: son los datos atípicos que necesitas identificar [3:48].
Esta representación permite evaluar rápidamente si una variable contiene observaciones fuera de lo esperado sin necesidad de cálculos complejos.
¿Qué opciones existen para manejar datos atípicos en Scikit-Learn?
Una vez identificados, el siguiente paso es decidir qué hacer con ellos. Se pueden aplicar diversas técnicas de preprocesamiento, como eliminarlos, transformarlos o imputar valores más representativos. Sin embargo, Scikit-Learn ofrece una ventaja particular: cuenta con modelos de clasificación y regresión que manejan automáticamente los valores atípicos sin requerir un proceso adicional por parte del usuario [4:05].
Esto simplifica considerablemente el flujo de trabajo, especialmente cuando se trabaja con datasets donde la presencia de outliers es inevitable o difícil de controlar manualmente.
Si has tenido experiencias lidiando con outliers en tus proyectos, comparte en los comentarios qué técnica te ha funcionado mejor.