Análisis de métricas R² en modelos de regresión deportiva

Clase 13 de 20Curso de Fundamentos de Machine Learning

Resumen

Analizar un modelo de regresión es fundamental para determinar su utilidad práctica en escenarios deportivos, como predecir diferencias de goles en partidos. Al evaluar el modelo construido para nuestro caso específico, detectamos claramente que presenta una baja capacidad explicativa, evidenciada por un valor negativo del indicador R².

¿Qué nos dice el R² sobre nuestro modelo?

El R² o coeficiente de determinación es clave para entender cuánto explica nuestro modelo respecto a la variabilidad de los datos:

  • R² menor a cero: indica que el modelo es peor que adivinar, pues no explica ninguna variabilidad.
  • R² entre 0 y 0.3: muestra un posible under fitting, es decir, muy poca capacidad explicativa.
  • R² claramente superior a 0.3: señala un poder explicativo aceptable.

En nuestra situación actual, observamos un R² negativo, reflejando la necesidad urgente de mejorar el modelo.

¿Qué variables podríamos considerar para mejorar el modelo?

Es importante cuestionarnos si las variables actuales reflejan realmente lo necesario para explicar nuestro fenómeno deportivo. Algunas sugerencias interesantes podrían incluir:

  • La localidad o lejanía del rival.
  • Las estadísticas de tiros y ataques del adversario.
  • Otros factores contextuales específicos del deporte.

¿Es válido confiar únicamente en un modelo de regresión lineal?

Si bien la regresión lineal es básica y fácil de interpretar, posee limitaciones importantes aplicadas en el fútbol, especialmente en capturar relaciones complejas o interacciones entre variables. Para tomar decisiones deportivas, a menudo es necesario un modelo más robusto o que maneje información no lineal.

¿Cuáles alternativas de modelo podemos explorar?

Contamos con varias opciones para avanzar a un modelo más robusto y efectivo:

  • Árboles de decisiones, que explotan relaciones no lineales fácilmente.
  • Modelos basados en random forest o XGBoost, optimizados para predecir y manejar relaciones complejas.
  • Incrementar la calidad y precisión del modelo usando validaciones cruzadas, filtrado y transformaciones de datos.

Es fundamental dar prioridad a aprender rápidamente, mejorar tras equivocarnos y avanzar hacia modelos más precisos y útiles en la práctica deportiva. Compártenos qué opinas sobre la aplicabilidad de este modelo y cómo te gustaría mejorarlo.