Modelos supervisados para predecir partidos

Curso de Fundamentos de Machine Learning

Contenido del curso

No sé dónde empezar

Fundamentos de Machine Learning y Contexto Deportivo

Preparación y Exploración de Datos

Ingeniería de Características

Modelado Predictivo Supervisado

Aprendizaje No Supervisado

Modelos supervisados para predecir partidos

Resumen

Predecir el resultado de un partido antes de que se juegue suena a ciencia ficción, pero es justo lo que permiten los modelos supervisados de machine learning. Aquí aprenderás cómo funcionan, qué algoritmos existen y cuándo usar cada uno, con el caso del equipo Cebollitas FC como hilo conductor.

¿Qué son los modelos supervisados y cómo aprenden de datos pasados?

Un modelo supervisado aprende de ejemplos donde ya conocemos el resultado. En el caso de Cebollitas FC, que ha perdido más del 60% de sus partidos como visitante, tomamos partidos reales con información de quién jugó, cuántos goles marcó, qué posición ocupó y cuántos tiros al arco hizo, y los cruzamos con el rendimiento individual.

Ahí entran datos como la precisión de tiros de Tara Álvarez o los pases completados de Karol McLean. Esa información se llama datos etiquetados: sabemos el resultado final, así que el modelo puede aprender a anticipar el próximo.

¿Qué son los datos etiquetados? Son datos donde cada ejemplo viene con su resultado conocido. Por ejemplo, un partido con sus estadísticas y la etiqueta ganamos o perdimos. Sin esa etiqueta, no hay aprendizaje supervisado.

¿Qué algoritmos supervisados existen y para qué sirve cada uno?

No todos los problemas se resuelven igual. Algunos buscan un número, otros una categoría y otros patrones complejos. Veamos los más usados.

Regresión lineal y regresión logística

La regresión lineal traza una línea que ajusta la relación entre dos variables. Si quieres predecir cuántos goles meterá tu equipo según los tiros al arco, este modelo es simple pero poderoso cuando la relación es clara.

La regresión logística, en cambio, no predice un número sino una probabilidad. Por ejemplo, un 80% de chances de ganar el domingo. Y aunque su nombre confunde, su juego real es la clasificación: ganar o perder, sí o no.

¿Cuál es la diferencia entre regresión lineal y logística? La lineal predice valores numéricos continuos, como goles. La logística predice probabilidades de pertenecer a una categoría, como ganar o perder.

Árboles de decisión y random forest

Un árbol de decisión divide los datos como lo haría un director técnico eligiendo jugadas. Si hay más de 10 tiros al arco y la posesión supera el 60%, vamos por el gol. La lógica es clara y fácil de seguir.

El problema es que pueden sobreajustarse, es decir, memorizar partidos pasados sin generalizar a nuevos escenarios. Para evitarlo usamos random forest, una técnica de equipo que junta muchos árboles y deja que voten por el resultado. Más robusto, menos errores y precisiones quirúrgicas.

Máquinas de soporte vectorial y redes neuronales

Las máquinas de soporte vectorial (SVM por sus siglas en inglés) dibujan un límite que separa con precisión partidos ganados y perdidos dentro de un plano de características. Funcionan muy bien cuando hay una frontera clara entre las categorías.

Y cuando los patrones son demasiado complejos, llamamos a los pesos pesados: las redes neuronales. Estas detectan relaciones no lineales entre pases, tiros, edad de los jugadores y otras variables. Son ideales para tareas intensas como descubrir jugadas o patrones ocultos, aunque exigen muchos datos y bastante potencia de cómputo.

¿Cómo elegir el modelo supervisado correcto para tu problema?

La elección depende de qué quieres predecir y de la complejidad de tus datos. Una relación simple no necesita una red neuronal, y un problema con miles de variables no se resuelve con una línea recta.

Usa regresión lineal cuando buscas predecir un número y la relación entre variables es directa.
Usa regresión logística cuando necesitas clasificar entre dos opciones, como ganar o perder.
Usa árboles de decisión cuando quieres reglas claras y explicables, tipo si pasa esto, entonces aquello.
Usa random forest cuando un solo árbol se queda corto y necesitas más precisión.
Usa SVM cuando hay fronteras bien definidas entre categorías.
Usa redes neuronales cuando los patrones son no lineales, tienes muchos datos y suficiente cómputo.

Más allá del algoritmo, hay un punto que ningún modelo perdona: necesitas datos etiquetados de calidad. Y ahí el trabajo del analista, dentro o fuera de Cebollitas FC, se vuelve fundamental.

¿Y qué viene después de los modelos supervisados?

No todos los problemas vienen con respuestas previas. Existen los modelos no supervisados, otra rama del machine learning que no necesita resultados conocidos y que sirve para descubrir grupos de jugadores o estilos de partido sin que nadie te diga qué buscar.

Antes de avanzar, te dejo una pregunta para los comentarios: ¿qué modelo usarías hoy para mejorar el próximo partido de Cebollitas FC?