Árbol de decisión vs regresión lineal

Resumen

Cuando un modelo de regresión lineal entrega métricas pobres, la respuesta no siempre está en ajustar parámetros, sino en cuestionar si el algoritmo es el correcto para tus datos. Aquí descubres por qué un R2 negativo indica un fallo estructural y cómo un árbol de decisión puede transformar tu estrategia de modelado en problemas no lineales.

¿Qué significa que un modelo de regresión lineal tenga R2 negativo?

Un R2 negativo es una señal de alarma que muchos pasan por alto. Cuando comparas las métricas de tu modelo lineal y ves ese signo menos delante del coeficiente de determinación, los datos te están hablando directamente.

¿Qué es un R2 negativo? Es un indicador de que tu modelo predice peor que simplemente usar el promedio de la variable objetivo. En otras palabras, sería más útil tirar el modelo a la basura y devolver el valor medio para cada predicción.

En el ejercicio que veníamos trabajando, la regresión lineal arrojó errores muy altos en RMSE y MAE, además de ese R2 negativo que confirma el diagnóstico. Y aquí viene lo interesante: esto no significa que hayas hecho algo mal en la preparación de datos, significa que la relación entre tus variables no es lineal.

El modelo lineal asume que existe una línea recta capaz de explicar el comportamiento entre las variables independientes y la variable objetivo. Cuando esa suposición no se cumple, el algoritmo falla por diseño.

¿Por qué el árbol de decisión mejora las métricas frente a la regresión lineal?

Al cambiar a un árbol de decisión como modelo base, las métricas cuentan otra historia. Los errores bajan, el R2 se vuelve positivo y las predicciones empiezan a tener sentido.

Esto sucede porque el árbol de decisión no necesita asumir linealidad. En lugar de trazar una recta, divide el espacio de datos en regiones mediante reglas condicionales que capturan patrones complejos. Cada nodo del árbol hace una pregunta sobre los datos y bifurca el camino hasta llegar a una predicción.

¿Cuándo conviene usar un árbol de decisión en lugar de regresión lineal? Cuando las métricas de tu modelo lineal muestran R2 negativo o errores altos, y sospechas que las variables tienen relaciones no lineales, interacciones complejas o umbrales de comportamiento.

En la comparación de métricas tabuladas en el notebook, el árbol de decisión mostró:

  • Menor RMSE, lo que significa errores cuadráticos más pequeños.
  • Menor MAE, indicando que el error absoluto promedio se redujo.
  • R2 positivo, demostrando capacidad real para explicar la variabilidad de los datos.

Este contraste te confirma que no todos los algoritmos sirven para todos los problemas, una lección que vale más que cualquier ajuste fino de hiperparámetros.

¿Qué sigue después de identificar el modelo correcto?

Con el árbol de decisión validado como mejor punto de partida, abres la puerta a una estrategia más sólida. El siguiente paso es rediseñar el flujo de trabajo completo aprovechando lo aprendido.

Algunas direcciones concretas que puedes tomar desde aquí:

  • Redefinir el pipeline de procesamiento para alinearlo con modelos basados en árboles.
  • Mejorar las visualizaciones para interpretar mejor las decisiones del modelo.
  • Explorar algoritmos más robustos como Random Forest o Gradient Boosting, que extienden la lógica del árbol de decisión.

Lo importante es que ya dominas cómo preparar datos, construir modelos básicos y evaluar métricas con criterio. Ese conjunto de habilidades te permite cuestionar resultados en lugar de aceptarlos sin más.

¿Qué modelo vas a probar a continuación? Cuéntame en los comentarios cómo te fue al comparar la regresión lineal con el árbol de decisión en tus propios datos.