Contenido del curso
Preparación y Exploración de Datos
Ingeniería de Características
Modelado Predictivo Supervisado
Aprendizaje No Supervisado
Pipeline y Proyecto Final
Introducción al Deep Learning
NLP en nuestro caso de uso
Pipeline ML que une predicción y scouting
Resumen
El entrenador de Cebollitas necesitaba una sola herramienta que uniera dos mundos: predecir resultados de partidos y clasificar jugadores por rendimiento. La respuesta fue construir un pipeline avanzado de machine learning que combina aprendizaje supervisado y no supervisado en un flujo automatizado, escalable y listo para decisiones tácticas en tiempo real.
¿Qué es un pipeline integrado en machine learning?
Un pipeline es un flujo de trabajo que automatiza cada paso del análisis: escala los datos, entrena los modelos, genera predicciones y entrega resultados interpretables. En este proyecto se trabajan dos pipelines que corren en paralelo pero se presentan juntos como un motor de análisis deportivo.
- Un modelo supervisado con Ridge Regression que predice la diferencia de goles esperada usando posesión y tiros [0:55].
- Un modelo no supervisado con K-Means que agrupa a los jugadores en perfiles según goles, asistencias, pases y tiros [1:05].
- Una capa interactiva con widgets que permite probar escenarios en vivo [8:30].
¿Para qué sirve un pipeline en machine learning? Para encadenar escalado, entrenamiento y predicción en un solo objeto. Así evitas errores manuales y puedes reutilizar el mismo flujo con datos nuevos.
¿Cómo se construye el pipeline supervisado con Ridge Regression?
El primer bloque importa las herramientas necesarias: pandas, train_test_split, Pipeline, StandardScaler, Ridge y KMeans [3:10]. Cada pieza tiene un rol claro dentro del flujo.
¿Qué función cumple cada componente?
- train_test_split separa los datos en 80/20 para medir generalización [3:55].
- StandardScaler normaliza las variables a media cero y desviación uno, condición clave para modelos sensibles a la varianza como Ridge y K-Means [4:30].
- Ridge aplica regresión lineal con regularización, penalizando coeficientes grandes para evitar overfitting [3:25].
- Pipeline encadena el escalado y el modelado en un solo objeto entrenable con
fit[4:45].
La variable X_partidos contiene posesión y tiros, mientras que y_partidos guarda la diferencia de goles como objetivo a predecir. Una vez entrenado, el pipeline predice resultados de partidos nuevos con una sola llamada a predict.
¿Cómo agrupar jugadores con K-Means clustering?
El pipeline no supervisado analiza individualmente a cada jugador. Primero escala las métricas para que goles, asistencias, pases completados y tiros aporten por igual. Luego aplica K-Means con tres clusters [5:20].
¿Qué hace K-Means con tres clusters en jugadores? Divide automáticamente al plantel en tres perfiles típicos: goleadores, creadores y defensivos. El método
fit_predictajusta el modelo y devuelve la etiqueta de cada jugador en un solo paso.
Esta segmentación da al cuerpo técnico una lectura rápida del plantel disponible. En lugar de revisar tabla por tabla, ves de inmediato a qué perfil pertenece cada jugador y cómo se complementan entre ellos.
¿Cómo integrar predicción de partidos y perfiles de jugadores?
La magia ocurre cuando los dos modelos se presentan juntos. Se crea un DataFrame con un caso nuevo, por ejemplo 58% de posesión y 9 tiros al arco, y se llama a predict del pipeline supervisado [6:30].
En paralelo, se muestran los primeros 10 jugadores con su etiqueta de cluster usando head(10). El resultado entrega dos cosas al mismo tiempo:
- La predicción del partido: una diferencia de goles de 0.25 a favor [7:50].
- El perfil de jugadores disponibles para enfrentar ese escenario.
Con esa lectura, el entrenador puede decidir si refuerza el mediocampo, ajusta la delantera o cambia la presión. Eso es inteligencia táctica real apoyada en datos.
¿Cómo crear predicciones interactivas con widgets en Python?
Para que la herramienta sea útil en el día a día, se suma una capa interactiva con ipywidgets [8:30]. Se definen sliders con rangos realistas de posesión y tiros al arco.
- Una función
predecir_resultadosconstruye el DataFrame con los valores del slider. - La función llama a
predicty muestra el resultado en pantalla. interactiveenlaza los sliders con la función y genera la herramienta en tiempo real.
¿Qué ventaja da un widget interactivo en analítica deportiva? Permite al cuerpo técnico mover variables como posesión o tiros y ver cómo cambia la predicción al instante, sin tocar código.
Esta interactividad convierte el notebook en algo cercano a una app de scouting o una herramienta web de análisis en vivo. Sirve también para diseñar entrenamientos personalizados según el perfil de cada jugador.
¿Cómo presentar este proyecto al cuerpo técnico?
La entrega al club tiene un orden claro: contexto del problema, pipeline supervisado para predecir partidos, pipeline no supervisado para perfiles de jugadores, integración de ambos modelos y recomendaciones accionables. Entre esas recomendaciones entran ajustes tácticos, identificación de fortalezas, fichajes y entrenamientos personalizados.
Si tuvieras 58% de posesión y 9 tiros con una diferencia esperada de solo 0.25 goles, ¿qué ajustarías tú en el mediocampo o la delantera? Déjalo en los comentarios.