Árbol de decisión vs regresión lineal

Curso de Fundamentos de Machine Learning

Contenido del curso

No sé dónde empezar

Fundamentos de Machine Learning y Contexto Deportivo

Preparación y Exploración de Datos

Ingeniería de Características

Modelado Predictivo Supervisado

Aprendizaje No Supervisado

Árbol de decisión vs regresión lineal

Resumen

Cuando un modelo de regresión lineal entrega métricas pobres, la respuesta no siempre está en ajustar parámetros, sino en cuestionar si el algoritmo es el correcto para tus datos. Aquí descubres por qué un R2 negativo indica un fallo estructural y cómo un árbol de decisión puede transformar tu estrategia de modelado en problemas no lineales.

¿Qué significa que un modelo de regresión lineal tenga R2 negativo?

Un R2 negativo es una señal de alarma que muchos pasan por alto. Cuando comparas las métricas de tu modelo lineal y ves ese signo menos delante del coeficiente de determinación, los datos te están hablando directamente.

¿Qué es un R2 negativo? Es un indicador de que tu modelo predice peor que simplemente usar el promedio de la variable objetivo. En otras palabras, sería más útil tirar el modelo a la basura y devolver el valor medio para cada predicción.

En el ejercicio que veníamos trabajando, la regresión lineal arrojó errores muy altos en RMSE y MAE, además de ese R2 negativo que confirma el diagnóstico. Y aquí viene lo interesante: esto no significa que hayas hecho algo mal en la preparación de datos, significa que la relación entre tus variables no es lineal.

El modelo lineal asume que existe una línea recta capaz de explicar el comportamiento entre las variables independientes y la variable objetivo. Cuando esa suposición no se cumple, el algoritmo falla por diseño.

¿Por qué el árbol de decisión mejora las métricas frente a la regresión lineal?

Al cambiar a un árbol de decisión como modelo base, las métricas cuentan otra historia. Los errores bajan, el R2 se vuelve positivo y las predicciones empiezan a tener sentido.

Esto sucede porque el árbol de decisión no necesita asumir linealidad. En lugar de trazar una recta, divide el espacio de datos en regiones mediante reglas condicionales que capturan patrones complejos. Cada nodo del árbol hace una pregunta sobre los datos y bifurca el camino hasta llegar a una predicción.

¿Cuándo conviene usar un árbol de decisión en lugar de regresión lineal? Cuando las métricas de tu modelo lineal muestran R2 negativo o errores altos, y sospechas que las variables tienen relaciones no lineales, interacciones complejas o umbrales de comportamiento.

En la comparación de métricas tabuladas en el notebook, el árbol de decisión mostró:

Menor RMSE, lo que significa errores cuadráticos más pequeños.
Menor MAE, indicando que el error absoluto promedio se redujo.
R2 positivo, demostrando capacidad real para explicar la variabilidad de los datos.

Este contraste te confirma que no todos los algoritmos sirven para todos los problemas, una lección que vale más que cualquier ajuste fino de hiperparámetros.

¿Qué sigue después de identificar el modelo correcto?

Con el árbol de decisión validado como mejor punto de partida, abres la puerta a una estrategia más sólida. El siguiente paso es rediseñar el flujo de trabajo completo aprovechando lo aprendido.

Algunas direcciones concretas que puedes tomar desde aquí:

Redefinir el pipeline de procesamiento para alinearlo con modelos basados en árboles.
Mejorar las visualizaciones para interpretar mejor las decisiones del modelo.
Explorar algoritmos más robustos como Random Forest o Gradient Boosting, que extienden la lógica del árbol de decisión.

Lo importante es que ya dominas cómo preparar datos, construir modelos básicos y evaluar métricas con criterio. Ese conjunto de habilidades te permite cuestionar resultados en lugar de aceptarlos sin más.

¿Qué modelo vas a probar a continuación? Cuéntame en los comentarios cómo te fue al comparar la regresión lineal con el árbol de decisión en tus propios datos.

Mario Alexander Vargas Celis

Estudiante

📊 Métricas proporcionadas:

MétricaValor¿Qué indica?RMSE2.23Error típico de predicción ≈ 2.23 goles (en la misma unidad que la variable objetivo).MAE1.89En promedio, el modelo se equivoca por 1.89 goles.R²-0.03El modelo no explica la varianza de los datos (peor que una línea horizontal).

🚨 Interpretación del R² negativo

Un R² de -0.03 significa que el modelo:

Es menos preciso que adivinar el promedio de y para todos los casos.
No está captando la relación entre las variables predictoras y el resultado (goles, por ejemplo).

✅ ¿Qué podrías hacer para mejorar?

Revisar las variables predictoras (X):
- ¿Son relevantes? ¿Hay ruido o columnas irrelevantes?
- ¿Faltan variables importantes como ubicación (local/visitante), rival, tarjetas, etc.?
Visualiza las correlaciones:import seaborn as sns sns.heatmap(df.corr(), annot=True)
Agregar variables derivadas (ingeniería de características):
- Ej: diferencia de goles, ratio de goles por tiro, eficacia defensiva.
Probar modelos más complejos:
- Como RandomForestRegressor, XGBoost, o incluso redes neuronales simples.
Normalización o estandarización (si los rangos son muy diferentes).

📌 Conclusión:

MAE y RMSE no son malos por sí solos, pero R² negativo sugiere que el modelo no está generalizando nada bien.
Un modelo útil debería tener R² > 0.3 al menos, idealmente > 0.6 para tareas bien definidas.

Árbol de decisión vs regresión lineal

Fundamentos de Machine Learning y Contexto Deportivo

Supervisado, no supervisado o refuerzo: cuál elegir

Modelos supervisados para predecir partidos

Clustering y PCA sin etiquetas en datos

Configuración de Python y Jupyter para análisis deportivo

Preparación y Exploración de Datos

Limpieza de datos CSV con Pandas

Estadística descriptiva para analizar partidos

MinMaxScaler y StandardScaler en Python

Ingeniería de Características

Feature engineering con pandas para fútbol

Selección de características con SelectKBest y árboles de decisión

Modelado Predictivo Supervisado

División de datos en machine learning con train_test_split

Regresión lineal para predecir goles en Python

Cómo saber si tu modelo de regresión funciona

Análisis de métricas R² en modelos de regresión deportiva