Identificación de Valores Atípicos en Datos para Modelos Predictivos

Clase 17 de 37 • Curso Profesional de Machine Learning con scikit-learn

Contenido del curso

Aprender los conceptos clave

1
Curso Completo de Machine Learning con Scikit-learn para Principiantes
07:31 min
2
Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo
04:18 min
3
Problemas de Clasificación, Regresión y Clustering con Scikit-learn
06:13 min
4
Fundamentos Matemáticos para Machine Learning Avanzado
04:52 min

Iniciar un proyecto con sklearn

Optimización de features

Regresiones robustas

Métodos de ensamble aplicados a clasificación

Clustering

Optimización paramétrica

Salida a producción

Tomar examen

Resumen

Preparar un conjunto de datos para un modelo de machine learning implica enfrentar situaciones que pueden comprometer la calidad de las predicciones. Una de las más frecuentes es la presencia de datos atípicos, también conocidos como outliers. Entender qué son, por qué aparecen y cómo tratarlos marca la diferencia entre un modelo confiable y uno que genera errores sistemáticos en producción.

¿Qué es un valor atípico y por qué aparece en tu dataset?

Un valor atípico es todo dato que no se comporta como el patrón general del resto de observaciones [0:12]. Son datos excepcionales que no encajan en la distribución habitual. Sus causas pueden ser muy diversas:

Errores en la medición de los datos.
Errores durante la carga al dataset.
Variabilidad natural del fenómeno que se está modelando.
Novedades o comportamientos no contemplados previamente.

Identificarlos antes de iniciar el proceso de modelado es fundamental, porque ignorarlos puede tener consecuencias graves.

¿Por qué los datos atípicos son problemáticos para tus modelos?

Si no se manejan adecuadamente, los outliers pueden sesgar los modelos de machine learning y generar un error considerable cuando se utilicen con datos del mundo real [1:08]. Sin embargo, no siempre representan un problema técnico. En ocasiones revelan que existe alguna variable que falta medir o que el fenómeno no se ha entendido por completo.

Además, detectarlos a tiempo funciona como un mecanismo de detección temprana de fallos en el modelo, lo cual permite corregir el rumbo antes de llegar a producción.

¿Cómo identificar valores atípicos con métodos estadísticos y gráficos?

Existen dos grandes familias de técnicas para detectar estos datos: los métodos estadísticos-matemáticos y los métodos gráficos [1:42].

¿Qué métodos estadísticos puedes usar?

Z score: calcula la distancia de cada punto respecto a la media, expresada en desviaciones estándar [1:55]. Un valor muy alejado de la media, medido en esas unidades, se considera atípico.
DBSCAN (Density-Based Spatial Clustering): es una técnica de clustering que agrupa los datos por densidad y señala aquellos puntos que no pertenecen a los clústeres principales [2:14].
Rango intercuartílico (IQR): un dato se considera atípico si cae por debajo de Q1 − 1.5 × IQR o por encima de Q3 + 1.5 × IQR [2:30]. El rango intercuartílico se define como la diferencia entre el cuartil tres y el cuartil uno (Q3 − Q1).

¿Cómo ayudan los box plot a visualizar outliers?

El diagrama de caja o box plot es la herramienta gráfica más directa para observar la distribución de una variable y detectar valores atípicos [3:02]. Su estructura se interpreta así:

Mediana: la línea central de la caja, donde se ubica el 50 % de los datos.
Q1 y Q3: los bordes inferior y superior de la caja, representando el 25 % y el 75 % de los datos respectivamente.
Bigotes: se extienden hasta Q1 − 1.5 × IQR (dato mínimo dentro del comportamiento general) y Q3 + 1.5 × IQR (dato máximo dentro del comportamiento general).
Puntos fuera de los bigotes: son los datos atípicos que necesitas identificar [3:48].

Esta representación permite evaluar rápidamente si una variable contiene observaciones fuera de lo esperado sin necesidad de cálculos complejos.

¿Qué opciones existen para manejar datos atípicos en Scikit-Learn?

Una vez identificados, el siguiente paso es decidir qué hacer con ellos. Se pueden aplicar diversas técnicas de preprocesamiento, como eliminarlos, transformarlos o imputar valores más representativos. Sin embargo, Scikit-Learn ofrece una ventaja particular: cuenta con modelos de clasificación y regresión que manejan automáticamente los valores atípicos sin requerir un proceso adicional por parte del usuario [4:05].

Esto simplifica considerablemente el flujo de trabajo, especialmente cuando se trabaja con datasets donde la presencia de outliers es inevitable o difícil de controlar manualmente.

Si has tenido experiencias lidiando con outliers en tus proyectos, comparte en los comentarios qué técnica te ha funcionado mejor.

Comentarios

johan Stever Rodriguez Molina

student•

también esta el paquete seaborn para hacer los boxplot.

import seaborn as sns
sns.boxplot(hearth.sex, hearth.chol, hue = hearth.target)

Luciano Gauchez

student•

Gracias por tu aporte

johan Stever Rodriguez Molina

student•

Si quieren visualizar rápidamente para su dataset los datos atípicos. Pandas permite hacer con facilidad. Dejo el código para el caso del dataset hearth. Claramente se debe entender que para las variables indicadoras no tendría mucho sentido considerarlo.

num_features = hearth[['age', 'trestbps', 'thalach', 'oldpeak']]
num_features

plt.figure(figsize=(10,7))
num_features.boxplot(grid=False)

Camilo Andrés Hurtado Erasso

student•

Excelente, gracias. También se podría agregar la variable "chol", que de hecho tiene varios valores extremos.

Juan R. Vergara M.

student•

🥇✔

Miguel Angel Velazquez Romero

student•

Clase 17: El problema de los valores atípicos

Un valor atípico es cualquier medición que se encuentre por fuera del comportamiento general de una muestra de datos.
Pueden indicar variabilidad, errores de medición o novedades.

¿Por qué son problemáticos?

1.- Pueden generar sesgos importantes en los modelos de ML.

2.- A veces contienen información relevante sobre la naturaleza de los datos.

3.- Detección temprana de fallos.

¿Cómo identificarlos?

A través de métodos estadísticos:

Z - Score: Mide la distancia (en desviaciones estándar) de un punto dado a la media.
Técnicas de clustering como DBSCAN.
Si q< Q1-1.5IQR ó q > Q3+1.5IQR

Marcelo Sánchez

student•

El grafico de caja de una buena forma para detectar los valores atípicos en un set de datos, a su vez también es aconsejable (dependiendo del caso) eliminarlos para que nuestro análisis sea lo más confiable posible.

Me explicó, si sabemos que el promedio de autos que cruza una calle x de cuadra a cuadra es de aproximadamente de 10 segundos, un auto que tenga un tiempo de 100 segundo o de 10 minutos, claramente nos está indicando que tenemos un problema con ese dato.

Fredy Alberto Orozco Loaiza

student•

Los datos atipicos, son muy crueles con los modelos lieneales, o que se midan con distancia. En solociones tipo tree, no le importa tanto los atipicos, ni los valores null. Los arboles son mero amor

Diego Alejandro Hernandez Londono

student•

Este es el mejor profesor de platzi hasta ahora.

Jhon Freddy Tavera Blandon

student•

Un valor atípico, también conocido como valor extremo u atípico, es una observación en un conjunto de datos que difiere significativamente de los demás valores en términos de magnitud o distribución. Los valores atípicos pueden ser valores excepcionalmente altos o bajos en comparación con los demás puntos de datos en el conjunto. Son problemáticos porque pueden distorsionar las estadísticas y los resultados de análisis, así como influir negativamente en la precisión y la interpretación de los modelos de machine learning y estadísticas.

Los valores atípicos pueden ser problemáticos por varias razones:

Distorsionan Estadísticas
Impacto en Modelos
Modelos Sensibles
Errores en Interpretación
Ruido en Datos

Algunos métodos estadísticos comunes para identificar valores atípicos son:

Z-Score
DBSCAN (Agrupación espacial basada en densidad de aplicaciones con ruido) :
Criterio de Tukey Este criterio se basa en el rango intercuartil (IQR). Si un punto de datos está por debajo de Q1 - 1.5 * IQR o por encima de Q3 + 1.5 * IQR, se considera un valor atípico.

La elección del método depende del contexto y la naturaleza de los datos. Es importante utilizar múltiples métodos y herramientas visuales para identificar y confirmar la presencia de valores atípicos antes de tomar decisiones sobre su tratamiento.

Mauricio Escobar

student•

Qué onda 👋, les comparto mi análisis.

cluster map (Pearson) con todas las columnas menos rank:
histograma + iqr, indicando las medias y las medianas de las 6 columnas con mayor correlación:

El dataset que estuve utilizando es del 2023.

Santiago García Rincón

student•

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) es un algoritmo de agrupamiento que también se puede utilizar para identificar datos atípicos. A diferencia de los Z-scores, DBSCAN se basa en la densidad de los puntos de datos en el espacio para identificar áreas densas de puntos y puntos aislados que se considerarán atípicos.

Aquí tienes un ejemplo para ilustrar el uso de DBSCAN en la identificación de datos atípicos:

from sklearn.cluster import DBSCAN
import numpy as np

# Datos de ejemplo (coordenadas x, y)
data = np.array([[1, 1], [1, 2], [2, 2], [8, 7], [8, 8], [25, 80]])

# Crear objeto DBSCAN y ajustar el modelo
dbscan = DBSCAN(eps=3, min_samples=2)
dbscan.fit(data)

# Obtener las etiquetas de los clusters y los valores únicos
labels = dbscan.labels_
unique_labels = np.unique(labels)

# Identificar los índices de los datos atípicos (etiqueta -1)
outlier_indices = np.where(labels == -1)[0]

# Imprimir los resultados
print("Etiquetas de los clusters:", labels)
print("Datos atípicos:", data[outlier_indices])

En este ejemplo, los datos de ejemplo son coordenadas bidimensionales (x, y) que representan puntos en un espacio. Utilizamos DBSCAN con un valor de eps=3 para especificar la distancia máxima entre dos puntos para considerarlos vecinos y min_samples=2 para especificar el número mínimo de puntos necesarios para formar un clúster.

El algoritmo DBSCAN asigna etiquetas a los puntos de datos, donde -1 representa los datos atípicos. Utilizamos np.where para identificar los índices de los datos atípicos basados en la etiqueta -1 y luego los extraemos de los datos originales.

Al ejecutar el código, obtendrás las etiquetas de los clusters asignadas por DBSCAN y los datos atípicos identificados.

Recuerda que los resultados de DBSCAN pueden depender de los parámetros eps y min_samples, por lo que es importante ajustarlos adecuadamente para tu conjunto de datos específico.

Jaime Hipólito Cabrera Salcedo

student•

n_cols = len(dt_heart.columns)
plt.figure(figsize=(10,50))
for i, col in enumerate(dt_heart.columns):
    
    plt.subplot(n_cols,2,2*i+1)
    sns.boxplot(data=dt_heart[col])
    plt.subplot(n_cols,2,2*i+2)
    sns.violinplot(data=dt_heart[col])

José David Escobar Muñoz

student•

Esto me funcionó en mi versión actual para el boxplot: import seaborn as sns

sns.boxplot(

data=dt_heart,

x='sex', # eje X (categoría)

y='chol', # eje Y (variable numérica)

hue='target' # color por grupo

)

Antonio Demarco Bonino

student•

Use este código para mostrar el IQR:

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Generar un conjunto de datos con más variabilidad y outliers
np.random.seed(42)
valores = np.random.normal(loc=50, scale=10, size=100)  # Generar datos normales
outliers = np.array([10, 120, 5, 150, 100])  # Algunos outliers artificiales
data = np.concatenate([valores, outliers])

# Crear el DataFrame
df = pd.DataFrame(data, columns=['valores'])

# Crear el Boxplot horizontal y cambiar el color a verde esmeralda
plt.figure(figsize=(10, 6))
sns.boxplot(data=df, x='valores', color='mediumseagreen')

# Título y etiquetas
plt.title('Detección de Outliers con Boxplot (IQR)', fontsize=14)
plt.xlabel('Valores')

# Mostrar el gráfico
plt.show()
```![](https://static.platzi.com/media/user_upload/image-ba748fb5-4361-4e15-9eac-7217a2c75076.jpg)

Sebastian Lopez Acero

student•

Tengo una duda, realizando el box plot con la columna "family" no logro ubicar las lineas con las ecuaciones

q1 -1.5*iqr
q3 +1.5*iqr

Santiago García Rincón

student•

Esta sección es muy importante, muchas veces no los iedentificamos y trabajamos incluyendolos, los cuales nos genera información falsa

camilo franco

student•

🤓Hice un video y lo cargue en youtube donde pueden ver el proceso de eliminación de valores atípicos, con la metodología que el profe explica en el video.👀

https://www.youtube.com/watch?v=gc1y-r6hzG4&t=2626s

Identificación de Valores Atípicos en Datos para Modelos Predictivos

Aprender los conceptos clave

Curso Completo de Machine Learning con Scikit-learn para Principiantes

Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo

Problemas de Clasificación, Regresión y Clustering con Scikit-learn

Fundamentos Matemáticos para Machine Learning Avanzado

Iniciar un proyecto con sklearn

Configuración Profesional de Entorno de Trabajo para Python

Instalación y configuración de librerías para Python

Análisis de Datos para el Bienestar y la Felicidad Humana

Optimización de features

Selección de Variables en Modelos de Aprendizaje Automático

Reducción de Dimensionalidad con Análisis de Componentes Principales

Reducción de Dimensionalidad y Regresión Logística con Python

Clasificación de Enfermedad Cardiaca con PCA y Regresión Logística

Funciones Kernel en la Clasificación de Datos Complejos

Regularización en Modelos de Machine Learning

Implementación de Regularización en Modelos de Regresión Lineal

Análisis de Resultados en Modelos de Regresión Ridge y Lasso

Regularización ElasticNet con Scikit-learn: Conceptos y Aplicación

Regresiones robustas