Pipeline ML que une predicción y scouting

Curso de Fundamentos de Machine Learning

Contenido del curso

No sé dónde empezar

Fundamentos de Machine Learning y Contexto Deportivo

Preparación y Exploración de Datos

Ingeniería de Características

Modelado Predictivo Supervisado

Aprendizaje No Supervisado

Pipeline ML que une predicción y scouting

Resumen

El entrenador de Cebollitas necesitaba una sola herramienta que uniera dos mundos: predecir resultados de partidos y clasificar jugadores por rendimiento. La respuesta fue construir un pipeline avanzado de machine learning que combina aprendizaje supervisado y no supervisado en un flujo automatizado, escalable y listo para decisiones tácticas en tiempo real.

¿Qué es un pipeline integrado en machine learning?

Un pipeline es un flujo de trabajo que automatiza cada paso del análisis: escala los datos, entrena los modelos, genera predicciones y entrega resultados interpretables. En este proyecto se trabajan dos pipelines que corren en paralelo pero se presentan juntos como un motor de análisis deportivo.

Un modelo supervisado con Ridge Regression que predice la diferencia de goles esperada usando posesión y tiros [0:55].
Un modelo no supervisado con K-Means que agrupa a los jugadores en perfiles según goles, asistencias, pases y tiros [1:05].
Una capa interactiva con widgets que permite probar escenarios en vivo [8:30].

¿Para qué sirve un pipeline en machine learning? Para encadenar escalado, entrenamiento y predicción en un solo objeto. Así evitas errores manuales y puedes reutilizar el mismo flujo con datos nuevos.

¿Cómo se construye el pipeline supervisado con Ridge Regression?

El primer bloque importa las herramientas necesarias: pandas, train_test_split, Pipeline, StandardScaler, Ridge y KMeans [3:10]. Cada pieza tiene un rol claro dentro del flujo.

¿Qué función cumple cada componente?

train_test_split separa los datos en 80/20 para medir generalización [3:55].
StandardScaler normaliza las variables a media cero y desviación uno, condición clave para modelos sensibles a la varianza como Ridge y K-Means [4:30].
Ridge aplica regresión lineal con regularización, penalizando coeficientes grandes para evitar overfitting [3:25].
Pipeline encadena el escalado y el modelado en un solo objeto entrenable con fit [4:45].

La variable X_partidos contiene posesión y tiros, mientras que y_partidos guarda la diferencia de goles como objetivo a predecir. Una vez entrenado, el pipeline predice resultados de partidos nuevos con una sola llamada a predict.

¿Cómo agrupar jugadores con K-Means clustering?

El pipeline no supervisado analiza individualmente a cada jugador. Primero escala las métricas para que goles, asistencias, pases completados y tiros aporten por igual. Luego aplica K-Means con tres clusters [5:20].

¿Qué hace K-Means con tres clusters en jugadores? Divide automáticamente al plantel en tres perfiles típicos: goleadores, creadores y defensivos. El método fit_predict ajusta el modelo y devuelve la etiqueta de cada jugador en un solo paso.

Esta segmentación da al cuerpo técnico una lectura rápida del plantel disponible. En lugar de revisar tabla por tabla, ves de inmediato a qué perfil pertenece cada jugador y cómo se complementan entre ellos.

¿Cómo integrar predicción de partidos y perfiles de jugadores?

La magia ocurre cuando los dos modelos se presentan juntos. Se crea un DataFrame con un caso nuevo, por ejemplo 58% de posesión y 9 tiros al arco, y se llama a predict del pipeline supervisado [6:30].

En paralelo, se muestran los primeros 10 jugadores con su etiqueta de cluster usando head(10). El resultado entrega dos cosas al mismo tiempo:

La predicción del partido: una diferencia de goles de 0.25 a favor [7:50].
El perfil de jugadores disponibles para enfrentar ese escenario.

Con esa lectura, el entrenador puede decidir si refuerza el mediocampo, ajusta la delantera o cambia la presión. Eso es inteligencia táctica real apoyada en datos.

¿Cómo crear predicciones interactivas con widgets en Python?

Para que la herramienta sea útil en el día a día, se suma una capa interactiva con ipywidgets [8:30]. Se definen sliders con rangos realistas de posesión y tiros al arco.

Una función predecir_resultados construye el DataFrame con los valores del slider.
La función llama a predict y muestra el resultado en pantalla.
interactive enlaza los sliders con la función y genera la herramienta en tiempo real.

¿Qué ventaja da un widget interactivo en analítica deportiva? Permite al cuerpo técnico mover variables como posesión o tiros y ver cómo cambia la predicción al instante, sin tocar código.

Esta interactividad convierte el notebook en algo cercano a una app de scouting o una herramienta web de análisis en vivo. Sirve también para diseñar entrenamientos personalizados según el perfil de cada jugador.

¿Cómo presentar este proyecto al cuerpo técnico?

La entrega al club tiene un orden claro: contexto del problema, pipeline supervisado para predecir partidos, pipeline no supervisado para perfiles de jugadores, integración de ambos modelos y recomendaciones accionables. Entre esas recomendaciones entran ajustes tácticos, identificación de fortalezas, fichajes y entrenamientos personalizados.

Si tuvieras 58% de posesión y 9 tiros con una diferencia esperada de solo 0.25 goles, ¿qué ajustarías tú en el mediocampo o la delantera? Déjalo en los comentarios.

Mario Alexander Vargas Celis

Estudiante

Un pipeline de Machine Learning bien diseñado para análisis deportivo te permite automatizar y optimizar todo el flujo de trabajo, desde los datos hasta las predicciones.

⚽ ¿Qué es un pipeline de ML en análisis deportivo?

Es un flujo estructurado que:

Recibe y limpia datos de rendimiento deportivo.
Extrae o transforma variables (features).
Aplica escalamiento o normalización.
Entrena un modelo (regresión, clasificación, clustering...).
Evalúa el desempeño del modelo.
Aplica el modelo a nuevos datos.

🔄 Ejemplo de pipeline con scikit-learn

🎯 Caso práctico:

Predecir la cantidad de goles de un jugador a partir de sus estadísticas (tiros, asistencias, pases, etc.).

✅ 1. Importar librerías

import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LinearRegression from sklearn.pipeline import Pipeline from sklearn.metrics import mean_squared_error, r2_score

✅ 2. Datos de ejemplo

df = pd.DataFrame({ 'tiros_al_arco': [30, 12, 45, 10, 33], 'asistencias': [5, 2, 7, 1, 3], 'pases_completados': [300, 150, 400, 120, 280], 'goles': [12, 3, 15, 2, 10] # variable objetivo })

X = df.drop('goles', axis=1) y = df['goles']

✅ 3. Dividir en entrenamiento y prueba

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

✅ 4. Crear el pipeline

pipeline = Pipeline([ ('scaler', StandardScaler()), # Escalamiento de datos ('regresor', LinearRegression()) # Modelo de regresión ])

✅ 5. Entrenar el modelo

pipeline.fit(X_train, y_train)

✅ 6. Evaluar el modelo

y_pred = pipeline.predict(X_test)

print("RMSE:", mean_squared_error(y_test, y_pred, squared=False)) print("R²:", r2_score(y_test, y_pred))

🚀 ¿Qué más se puede integrar al pipeline?

Selección de variables (SelectKBest, RFE)
Reducción de dimensionalidad (PCA)
Modelos avanzados (Random Forest, XGBoost)
Cross-validation
Exportación automática con joblib

🧠 ¿Por qué usar pipelines?

💡 Reproducibilidad
🔁 Reutilización del flujo
✅ Evitas errores entre etapas
📦 Es fácil de integrar con GridSearchCV y producción

Samit Arias

Estudiante

Gracias Chagpt

Pipeline ML que une predicción y scouting

Fundamentos de Machine Learning y Contexto Deportivo

Supervisado, no supervisado o refuerzo: cuál elegir

Modelos supervisados para predecir partidos

Clustering y PCA sin etiquetas en datos

Configuración de Python y Jupyter para análisis deportivo

Preparación y Exploración de Datos

Limpieza de datos CSV con Pandas

Estadística descriptiva para analizar partidos

MinMaxScaler y StandardScaler en Python

Ingeniería de Características

Feature engineering con pandas para fútbol

Selección de características con SelectKBest y árboles de decisión

Modelado Predictivo Supervisado

División de datos en machine learning con train_test_split

Regresión lineal para predecir goles en Python

Cómo saber si tu modelo de regresión funciona

Análisis de métricas R² en modelos de regresión deportiva

Árbol de decisión vs regresión lineal

Aprendizaje No Supervisado

Clustering de jugadores con K-Means

Interpretación de clusters de K-means para perfiles de jugadores

Visualización de perfiles de jugadores con análisis PCA

Pipeline y Proyecto Final

Pipeline ML que une predicción y scouting

Introducción al Deep Learning

Redes neuronales con PyTorch paso a paso

NLP en nuestro caso de uso

Análisis de sentimientos de fans con NLP

Resumen