Regresión Lineal y Soporte Vectorial: Manejo de Datos Atípicos

Curso Profesional de Machine Learning con scikit-learn

Contenido del curso

Aprender los conceptos clave

1
Curso Completo de Machine Learning con Scikit-learn para Principiantes
07:31 min
2
Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo
04:18 min
3
Problemas de Clasificación, Regresión y Clustering con Scikit-learn
06:13 min
4
Fundamentos Matemáticos para Machine Learning Avanzado
04:52 min

Iniciar un proyecto con sklearn

Optimización de features

Regresiones robustas

Métodos de ensamble aplicados a clasificación

Clustering

Optimización paramétrica

Salida a producción

Tomar examen

Regresión Lineal y Soporte Vectorial: Manejo de Datos Atípicos

Resumen

¿Cómo implementar un regresor robusto frente a datos corruptos?

¡Bienvenido al fascinante mundo del machine learning aplicado! Aquí vamos a adentrarnos en la implementación de un regresor robusto que nos ayudará a lidiar con datos corruptos, una situación común en escenarios del mundo real. Vamos a trabajar con el conjunto de datos CD la felicidad, modificándolo ligeramente para introducir valores atípicos al final de nuestro dataset. Esta táctica nos permitirá comprobar la eficacia y robustez de nuestros modelos al enfrentarse con datos corrompidos.

¿Cómo estructuramos nuestro script y cargamos los datos?

Para empezar, es crucial comprender cómo estructuramos nuestro script y preparamos nuestros datos. Utilizaremos pandas para la manipulación de datos y Sklearn para la implementación del modelo. Aquí te mostramos cómo comenzamos configurando el entorno de trabajo y cargando los datos:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Cargar los datos del archivo CSV
data = pd.read_csv('./data/felicidad_corrupta.csv')
print(data.head())

Este snippet de código nos permite verificar que los datos se han cargado correctamente, mostrando los primeros cinco registros del dataset.

¿Cómo preparamos nuestros datos para modelar?

En esta fase, el objetivo es identificar las características que serán nuestros predictores y nuestra variable objetivo. Aquí descartamos las columnas que no aportan información relevante de predicción, como el nombre del país:

# Eliminamos columnas no relevantes
features = data.drop(['país', 'score'], axis=1)
target = data['score']

# Dividimos los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.3, random_state=42)

Es fundamental recordar configurar el random_state para asegurar la replicabilidad de los resultados.

¿Cómo configuramos y evaluamos múltiples modelos eficazmente?

Una parte interesante de este proyecto es cómo configuramos múltiples modelos de manera eficiente utilizando un diccionario en Python. Esto nos permite entrenar y evaluar varios modelos de manera simplificada.

from sklearn.svm import SVR
from sklearn.linear_model import RANSACRegressor, HuberRegressor

# Diccionario de estimadores
estimadores = {
    'SVR': SVR(gamma='auto', C=1.0, epsilon=0.1),
    'RANSAC': RANSACRegressor(),
    'Huber': HuberRegressor(epsilon=1.35)
}

# Entrenar y evaluar modelos
for nombre, modelo in estimadores.items():
    modelo.fit(X_train, y_train)
    predicciones = modelo.predict(X_test)
    error = mean_squared_error(y_test, predicciones)
    print(f'{nombre} error cuadrático medio: {error}')

Este procedimiento no solo ahorra tiempo, sino que también facilita la comparación de resultados para elegir el modelo más adecuado.

¿Qué recomendaciones debemos seguir para mejorar nuestro modelo?

Análisis de datos atípicos: Evaluar el impacto de los outliers en tu dataset. Ajustar los parámetros epsilon del HuberRegressor para manipular cómo se manejan estos valores.
Ajuste de hiperparámetros: Realiza una búsqueda de hiperparámetros para el modelo SVR y otros modelos susceptibles a configuraciones específicas para optimizar su rendimiento.
Validación cruzada: Implementa técnicas de validación cruzada para asegurar que tu modelo tiene un rendimiento consistente a través de diferentes particiones del dataset.

Este enfoque ofrece una metodología práctica y efectiva para manejar datos corruptos y asegurar que nuestros modelos sean robustos y confiables. ¡Sigue explorando y aprendiendo para afinar tus habilidades en el machine learning!

Mario Alexander Vargas Celis

Estudiante

Excelente tema. El manejo de datos atípicos (outliers) es crucial tanto en Regresión Lineal como en Máquinas de Vectores de Soporte para Regresión (SVR). A continuación te explico cómo cada una de estas técnicas enfrenta los outliers y qué estrategias puedes usar en la práctica.

🧮 Regresión Lineal y Outliers

📉 Problema:

La Regresión Lineal Ordinaria (OLS) minimiza el error cuadrático medio:

LOLS(β^)=∑i=1n(yi−xiTβ^)2L_{OLS}(\hat{\beta}) = \sum_{i=1}^{n}(y_i - x_i^T\hat{\beta})^2

Esto hace que:

Outliers tengan un gran impacto, ya que los errores se elevan al cuadrado.
El modelo se ajuste tratando de compensar esos puntos extremos, deteriorando el rendimiento general.

✅ Soluciones:

Transformación de variables (log, raíz cuadrada).
Regresión robusta:
- HuberRegressor (penaliza suavemente los errores grandes).
- RANSACRegressor (ignora los outliers).

🤖 Soporte Vectorial para Regresión (SVR) y Outliers

🧠 ¿Qué es SVR?

Es una extensión de las Máquinas de Vectores de Soporte (SVM) aplicada a regresión. La idea es encontrar una función plana que esté dentro de un margen de tolerancia ε respecto a las verdaderas etiquetas yiy_i.

∣yi−f(xi)∣<ϵ(sin penalizacioˊn)|y_i - f(x_i)| < \epsilon \quad \text{(sin penalización)}

🎯 ¿Cómo maneja outliers SVR?

Dentro del margen ε: no se penaliza.
Fuera del margen ε: se penaliza linealmente (menos sensible que OLS).
El hiperparámetro C controla el nivel de tolerancia a errores grandes (outliers):
- Bajo C: más tolerante a outliers.
- Alto C: menos tolerante (modelo más rígido).

🔧 Hiperparámetros importantes:

epsilon: tamaño del margen sin penalización.
C: penalización por errores fuera del margen.
kernel: lineal, rbf, etc.

🧪 Ejemplo en Scikit-learn:

from sklearn.svm import SVR from sklearn.linear_model import LinearRegression import numpy as np import matplotlib.pyplot as plt

# Datos simulados con outliers np.random.seed(1) X = np.sort(5 * np.random.rand(100, 1), axis=0) y = np.sin(X).ravel() y[::10] += 3 * (0.5 - np.random.rand(10)) # Agregar outliers

# Modelos svr = SVR(kernel='rbf', C=1.0, epsilon=0.1) ols = LinearRegression()

# Ajustar svr.fit(X, y) ols.fit(X, y)

# Visualizar plt.scatter(X, y, color='gray', label='Datos') plt.plot(X, svr.predict(X), color='blue', label='SVR') plt.plot(X, ols.predict(X), color='red', label='OLS') plt.legend() plt.title("Regresión Lineal vs SVR (con outliers)") plt.show()

📌 Comparación Rápida

MétodoSensible a outliersTratamientoRecomendado cuando...OLS✅ AltaPenaliza cuadradoDatos sin outliersHuber⚠️ MediaPenaliza suavementeAlgunos outliersRANSAC❌ BajaIgnora erroresMuchos outliersSVR⚠️ Baja-mediaPenalización controladaSe desea margen de error tolerable

Jhon Freddy Puentes Nuñez

Santiago Restrepo Escalante

William Leonardo Torres Toloza

Salvador Cardona Noriega

Luis Eduardo Chacón Wilches

Jesús Ángel Martínez Briones

Juan R. Vergara M.

Natalia Caro Barrios

Gerardo Mayel Fernández Alamilla

Jaime Hipólito Cabrera Salcedo

Hugo Montoya Diaz

Neicer Vásquez

Andres Sanchez

Jorge Andrés Robledo Ariza

Thomas Gonzalez Rodrigues

Christian Sanclemente

Luciano Gauchez

Felipe Astudillo

Anabel Chavez Berumen

Fernando Jesús Núñez Valdez

Joaquín Ricardo Svoboda Abregú

Jhon Freddy Tavera Blandon

Santiago García Rincón

Arturo Baduna

Ariel Sharpe

Juan Diego

Alfonso G. Bastias

Daniel Augusto Muñoz Viveros

Antonio Demarco Bonino

Regresión Lineal y Soporte Vectorial: Manejo de Datos Atípicos

Aprender los conceptos clave

Curso Completo de Machine Learning con Scikit-learn para Principiantes

Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo

Problemas de Clasificación, Regresión y Clustering con Scikit-learn

Fundamentos Matemáticos para Machine Learning Avanzado

Iniciar un proyecto con sklearn

Configuración Profesional de Entorno de Trabajo para Python

Instalación y configuración de librerías para Python

Análisis de Datos para el Bienestar y la Felicidad Humana

Optimización de features

Selección de Variables en Modelos de Aprendizaje Automático

Reducción de Dimensionalidad con Análisis de Componentes Principales

Reducción de Dimensionalidad y Regresión Logística con Python

Clasificación de Enfermedad Cardiaca con PCA y Regresión Logística

Funciones Kernel en la Clasificación de Datos Complejos

Regularización en Modelos de Machine Learning

Implementación de Regularización en Modelos de Regresión Lineal

Análisis de Resultados en Modelos de Regresión Ridge y Lasso

Regularización ElasticNet con Scikit-learn: Conceptos y Aplicación

Regresiones robustas

Identificación de Valores Atípicos en Datos para Modelos Predictivos

Técnicas de Regresión Robusta: RANSAC y Huber en Scikit-Learn