Creación de modelos de regresión lineal para predecir goles

Clase 11 de 20 • Curso de Fundamentos de Machine Learning

Resumen

¿Quieres aprender cómo predecir resultados deportivos usando inteligencia artificial? Hoy comenzarás tu primer modelo de regresión lineal aplicado al deporte. Este es uno de los métodos clásicos y eficaces de aprendizaje automático, útil para relacionar variables relevantes con objetivos específicos, como la diferencia de goles en un partido.

¿Cómo preparamos el modelo para predecir goles?

Primero se importan herramientas esenciales como pandas y train_test_split. Con estas herramientas, cargamos y preparamos el conjunto de datos, definiendo claramente nuestra variable objetivo: la diferencia de goles entre equipos locales y visitantes. Adicionalmente, se escogen variables clave para hacer predicciones, como:

Posesión del equipo local.
Cantidad de tiros al arco del equipo local.

Se emplea la práctica recomendada de separar el conjunto de datos en entrenamiento y evaluación (80% y 20% respectivamente) con un random state fijo, garantizando resultados reproducibles.

¿Qué ocurre al entrenar el modelo?

Usando la clase Linear Regression de scikit-learn, el proceso implica:

Instanciar y entrenar el modelo mediante modelo_rl.fit(), optimizando los parámetros para minimizar el error cuadrático medio.
Confirmar visualmente que el proceso de entrenamiento se realizó correctamente.

El intercepto y los coeficientes del modelo indican cómo reaccionan las predicciones ante cambios en las variables tomadas como predictores:

Un incremento de un punto porcentual en posesión ajusta la diferencia de goles en promedio en 0.06.
Un aumento en los tiros al arco afecta levemente negativamente (en promedio -0.05).

Estas métricas permiten explicar claramente al equipo técnico cómo impactan estas variables en el resultado esperado.

¿Cómo visualizar y entender las predicciones realizadas?

En la etapa de predicción, se utiliza el método predict para calcular la diferencia de goles esperada en nuevos datos, combinando estas predicciones con valores reales para comparar resultados fácilmente. Además, mediante gráficas de dispersión claras y visuales creadas con matplotlib y seaborn, se comparan resultados reales frente a los predichos:

Cada punto representa una comparación específica.
La cercanía entre puntos y línea ideal sugiere la calidad del ajuste.

La interactividad también se incorpora mediante controles deslizantes ('sliders'), permitiendo al entrenador explorar diferentes escenarios según posesión y tiros al arco, para evaluar dinámicamente las predicciones del modelo en tiempo real.

¿Probaste ya los ajustes interactivos en el modelo? ¿Cómo crees que puedes usar estos resultados para mejorar estrategias en futuros partidos?

Cesar Vargas Ochoa

student•

El Curso de Fundamentos de Machine Learning lamentablemente no cumple con los estándares esperados para una formación de nivel introductorio. El instructor se limita a leer ejercicios previamente desarrollados, sin explicar el razonamiento, las técnicas ni los pasos metodológicos necesarios para comprender y aplicar los conceptos. Esta forma de enseñanza dificulta la adquisición de conocimientos y no aporta una guía clara para quienes buscan iniciarse en el tema.

Asimismo, en varios momentos se evidencia falta de claridad en la interpretación de los datos, lo cual genera aún más confusión. Resulta poco apropiado que el instructor solicite al estudiante “analizar los datos y dejar sus conclusiones en los comentarios”, delegando en el alumno tareas que deberían formar parte del proceso pedagógico del curso.

Otro aspecto preocupante es que, al revisar los comentarios, se observa que muchos estudiantes con mayor experiencia terminan señalando errores, omisiones o pasos no explicados por el instructor, lo cual evidencia que el contenido depende de correcciones externas para suplir sus falencias. Esta dinámica confirma que el curso no está brindando una base sólida para quienes realmente buscan comprender los fundamentos del Machine Learning.

En conjunto, estas situaciones hacen que el curso no proporcione las herramientas necesarias para una formación seria y estructurada. El resultado es una experiencia decepcionante y muy por debajo de lo que se esperaría de un curso de fundamentos.

Nicolás Melgarejo

student•

Falta un diagrama para entender la lógica del proceso propuesto. Si no, parece una receta de cocina.

También me pregunto, ¿qué se espera de nosotros como estudiantes del curso? que repliquemos el código, que lo leamos, que lo entendamos o que experimentemos con el.

Juan Osorio

teacher•

Nicolás, la verdad me encantaría que experimentaras. El código que preparé es solo una guía, ¡pero estoy emocionado por ver qué puedes crear tú! Estoy seguro de que puedes llevarlo aún más lejos.

Mario Alexander Vargas Celis

student•

Vamos a ver cómo aplicar regresión lineal para predecir goles en fútbol usando Python y scikit-learn. Este modelo es ideal si quieres explorar relaciones como:

📊 ¿Cuántos goles marcará un equipo según sus tiros al arco, posesión, pases, etc.?

⚽ Ejemplo: Regresión Lineal para predecir goles

📁 1. Datos de ejemplo (pandas)

Supongamos que tienes un DataFrame con estas columnas:

import pandas as pd

# Datos ficticios de partidos data = { 'tiros_arco': [5, 3, 8, 6, 7], 'posesion': [60, 45, 70, 55, 65], 'pases': [500, 300, 700, 450, 600], 'goles': [2, 1, 3, 2, 3] }

df = pd.DataFrame(data)

🧪 2. División en entrenamiento y prueba

from sklearn.model_selection import train_test_split

X = df[['tiros_arco', 'posesion', 'pases']] y = df['goles']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

🧠 3. Entrenar el modelo

from sklearn.linear_model import LinearRegression

modelo = LinearRegression() modelo.fit(X_train, y_train)

🔍 4. Hacer predicciones

y_pred = modelo.predict(X_test) print("Predicciones de goles:", y_pred)

📈 5. Evaluar el modelo

from sklearn.metrics import mean_squared_error, r2_score

print("Error cuadrático medio:", mean_squared_error(y_test, y_pred)) print("R² score:", r2_score(y_test, y_pred))

🧮 6. Interpretar los coeficientes

coeficientes = pd.DataFrame({ 'Variable': X.columns, 'Coeficiente': modelo.coef_ }) print(coeficientes)

✅ ¿Qué te permite hacer esto?

Ver qué variables influyen más en los goles.
Usar el modelo para predecir goles futuros de equipos nuevos.
Crear visualizaciones con matplotlib o seaborn.

Javier Emanuel González Andrade

student•

No era necesario graficar para saber si el modelo predecía de manera correcta, viendo el DataFrame generado con Diferencia_Goles_Real VS Diferencia_Goles_Predicha podíamos ver claramente que el modelo ❌ <u>hizo pésimas predicciones.</u> ❌

⚽CebollitasFC: gracias por tanto y perdón por tan poco, estoy seguro de que lo arreglaremos:(

Jhon Freddy Tavera Blandon

student•

Gabriel Obregón

student•

📚 ¿Qué es LinearRegression de scikit‑learn?

LinearRegression implementa la regresión lineal ordinaria (OLS). Es decir, encuentra una línea (o hiperplano) que minimiza la suma de los errores al cuadrado entre las predicciones y los valores reales

🛠 Parámetros principales de inicialización

fit_intercept (por defecto True): incluye o no un término independiente (intercepto).
copy_X (True): copia los datos originales en lugar de modificarlos.
tol (1e-6): tolerancia para convergencia cuando los datos son dispersos (solo en datos “sparse”).
n_jobs (None): permite ejecución en paralelo si hay múltiples salidas o coeficientes positivos.
positive (False): si True, fuerza que los coeficientes sean no negativos

⚙️ Métodos principales

fit(X, y, sample_weight=None): ajusta el modelo a los datos (también acepta pesos por muestra).
predict(X): predice valores de salida para nuevas entradas X.
score(X, y, sample_weight=None): calcula el R² (coeficiente de determinación), que mide qué tan bien se ajustan las predicciones (1 = ajuste perfecto; puede ser negativo)

🧩 Atributos después de entrenar

coef_: vectores de coeficientes (pendientes).
intercept_: término constante.
rank_, singular_: información sobre la matriz de entrada (solo si X es denso).
n_features_in_, feature_names_in_: informan cuántas y qué nombres de características se usaron

💡 ¿Cómo funciona por dentro?

Utiliza descomposición en valores singulares (SVD) o, si se activa positive=True, emplea una solución de mínimos cuadrados no negativos .

La complejidad es aproximadamente O(n_samples × n_features²) para datos densos

🧪 Ejemplo rápido

from sklearn.linear_model import LinearRegression

import numpy as np

# Datos sintéticos

X = np.array([[1,1],[1,2],[2,2],[2,3]])

y = X.dot([1,2]) + 3

# Ajuste del modelo

reg = LinearRegression().fit(X, y)

print(reg.coef_) # → [1. 2.]

print(reg.intercept_) # → 3.0

print(reg.predict([[3,5]])) # → [16.]

print(reg.score(X, y)) # → 1.0 (ajuste perfecto)

⚠️ Cuándo usar otras alternativas

Ridge, Lasso, ElasticNet: añaden regularización para evitar sobreajuste o manejar correlación entre variables.
positive=True en LinearRegression: útil cuando solo queremos coeficientes no negativos

Mauricio García Grajales

student•

el modelo no predice muy bien

Jesus Edward Rocca

student•

📝 Mi resumen de clase ¿qué os parece?

Andres Velasco

student•

Como compruebas los supuestos en la regresion lineal? Linealidad, Homocedasticiad, Colinealidad entre las variables?

Juan Osorio

teacher•

sí, esos 3 se revisan para comprobar que tu regresión lineal se comporta como se debe y que los resultados son interpretables y confiables.

Fernando Lavao Orjuela

student•

Puedo creer que el modelo aun le hace falta preparacion, en cuanto a elegir un par de variables que ayuden a generalizar mas el modelo pero sin aumentar el ruido de el, por el momento analizo un underfit, que significa que el modelo aun no ha aprendido realmente el patron en los datos de entrenamiento y por lo tanto se le dificulta tener una mayor capacidad de generalizacion.

puede ser ajustado analizando el R2 (Coeficiente de determinacion)

Astrid Clarissa Esparza Aponte

student•

Hola! He visto que en algunos casos se utilizan las variables objetivo pasadas como variables indpeendientes para hacer predicciones de las variables objetivo. En este caso se podria realizar? por que? en qué casos si? como? gracias :)

Jonathan Quiros Barquero

student•

Percy Tejada

student•

Usar regresión lineal permite predecir la diferencia de goles en función de variables como posesión y tiros al arco. Al entrenar el modelo con estos datos, se obtienen coeficientes que indican cuánto influye cada variable. Las predicciones se visualizan con gráficos y se pueden explorar distintos escenarios con controles interactivos.

Creación de modelos de regresión lineal para predecir goles

Fundamentos de Machine Learning y Contexto Deportivo

Tipos de modelos de machine learning para análisis deportivo

Modelos supervisados para predecir resultados deportivos

Modelos no supervisados para análisis de rendimiento deportivo

Configuración de Python y Jupyter para análisis deportivo

Preparación y Exploración de Datos

Limpieza y preparación de datos deportivos con Pandas

Análisis estadístico del rendimiento de un equipo de fútbol

Técnicas de escalado de datos con Min Max y Standard Scaler

Ingeniería de Características

Creación de variables predictivas en machine learning

Selección de características con SelectKBest y árboles de decisión

Modelado Predictivo Supervisado

División de datos en machine learning con train_test_split