Creación de variables predictivas en machine learning

Clase 8 de 20 • Curso de Fundamentos de Machine Learning

Contenido del curso

Fundamentos de Machine Learning y Contexto Deportivo

Preparación y Exploración de Datos

Ingeniería de Características

Modelado Predictivo Supervisado

Aprendizaje No Supervisado

Resumen

¿Alguna vez has escuchado sobre la ingeniería de características o feature engineering? Si trabajas con machine learning o quieres optimizar tus predicciones, saber crear nuevas variables es fundamental. Básicamente, la ingeniería de características consiste en transformar datos crudos en información más relevante para los modelos, ayudándolos a descubrir patrones más profundos y efectivos.

¿Qué es exactamente la ingeniería de características?

La ingeniería de características implica generar nuevas variables a partir de las existentes. Al hacerlo, los algoritmos pueden captar mejor lo que sucede realmente con nuestros datos. Por ejemplo, en un análisis futbolístico, en lugar de usar únicamente los goles marcados por separado, podemos crear variables como:

Diferencia de goles: goles locales menos goles visitantes.
Ratio de tiros sobre posesión local: tiros al arco locales sobre posesión local.

Estas nuevas variables aportan mayor contexto y permiten modelos más precisos.

¿Cómo crear nuevas variables claves en nuestro dataset?

En este caso práctico, utilizamos Python y la librería pandas para crear nuevas variables útiles en nuestro proyecto futbolístico.

Diferencia de goles como variable objetivo

Esta variable, calculada de la siguiente forma:

df['diferencia_goles'] = df['goles_local'] - df['goles_visitante']

permite determinar claramente si el equipo ganó, empató o perdió.

Ratio de tiros sobre posesión local

Creamos esta otra nueva característica clave usando esta fórmula:

df['ratio_tiros_posesion_local'] = df['tiros_arco_local'] / df['posesion_local']

Este dato revela cuánto aprovecha realmente el equipo la posesión para generar oportunidades.

¿Por qué estas variables ayudan tanto a mejorar las predicciones?

Los modelos basados en algoritmos no identifican automáticamente relaciones profundas y contextuales. La creación de estas nuevas variables proporciona a nuestros modelos la capacidad de identificar patrones valiosos al entregarles información procesada más significativa. Una sola nueva variable, como la diferencia de goles, puede ofrecer mejoras significativas, superiores incluso a cambiar el algoritmo utilizado.

Visualización y análisis posterior

Más allá de simplemente crear nuevas variables, se necesitan visualizar y analizar para evaluar su eficacia. En el proyecto, realizamos estas dos acciones clave:

Histograma muestra la distribución de la diferencia de goles y nos indica rápidamente cómo tiende a desenvolverse nuestro equipo en los partidos.
Mapa de calor (correlación): calcula y presenta visualmente la correlación entre las variables originales y las nuevas creadas, detectando relaciones lineales útiles.

Por ejemplo, la diferencia de goles mostró una correlación destacada con los goles de local, alcanzando un valor de 0.67, indicando que es una variable sumamente informativa.

Te invito a revisar estos procesos en detalle y compartir en los comentarios tu percepción sobre estas técnicas: ¿cómo crees que podrían impactar directamente en tu proyecto?

Comentarios

Mercedes Jue

student•

Me sucede lo mismo que en clases anteriores, disculpen si soy repetitiva, pero me parece que no está correcto el uso del dataset si es que queremos centrarnos en el equipo Cebollitas. Porque se toman, por ejemplo, los tiros locales y la posesión local de todos los partidos, pero Cebollitas alterna entre local y visitante. No logro comprender si estoy equivocada o cómo debería interpretarlo, gracias

Edgar A. Gonzalez Ambriz

student•

Así es Mercedes, también considero que debían filtrarse los renglones para tomar en cuenta algo como lo que comentas porque al tomar todos los renglones se estarían considerando de hecho partidos donde ni siquiera participa el equipo de "Cebollistas AC" sino juegos entre equipos por ejemplo "Numpy City" vs "Atletico Python". Creo que se le fue ese detalle al profesor

Jorge Guevara

student•

Hola,

Tienes razón. Yo hice esto, aunque me siguen quedando dudas con la nueva caraterística de diferencia de goles.

# Filtrando donde Cebollitas FC haya sido local o visitante
df_partidos = df_partidos[
    (df_partidos["equipo_local"] == "Cebollitas FC") |
    (df_partidos["equipo_visitante"] == "Cebollitas FC")
].copy()

# Nueva característica de diferencia de goles
df_partidos["diferencia_goles"] = df_partidos["goles_local"] - df_partidos["goles_visitante"]

# Ver el resultado
df_partidos[["equipo_local", "goles_local", "equipo_visitante", "goles_visitante", "diferencia_goles"]].head()

Jonathan Mauricio Meza Bastidas

student•

"Una sola nueva variable puede mejorar más el rendimiento del modelo que cambiar de algoritmo completamente"

👍👍👍

Michael Heredia Pérez

student•

Me parece que es de esperarse que al crear nuevas variables, estas estén muy relacionadas con aquellas en las que se basan las nuevas. ¿Esto no es algo como de redundancia en el análisis?

Juan Jose Tovar

student•

Totalmente de acuerdo. La gráfica interesante sería la primera, donde se muestra que no hay diferencia significativa entre jguar de local o jugar de visitante.

Gilbert Morales

student•

Sigo sin entender nada, y estoy seguro que al finalizar el curso seguire sin enteder nada.... Pero es gratis solo hoy asi que me quedan 12 clases!! xd

Jassira Ramos

student•

no eres el unico

John Salcedo

student•

creo que el tema va por el lado de poder analizar todos los equipos, pero si ya quieres hacer uno especifico pues también se puede hacer, pero si es cierto que la explicación es muy general, si fuera especifica para un equipo seria de mayor entendimiento.

Andres Geovanny Angulo Botina

student•

Hi!

Les comparto el historigrama que construí en esta clase, dónde filtré los resultados para el club sobre el cual estamos trabajando o enfocandonos:

adjunto el código:

# graphicate the data to analyze
fig, ax = plt.subplots(1, 2, figsize=(12, 4))

# histogram between goals diff as local
sns.histplot(
    data[data['equipo_local'] == 'Cebollitas FC']['diff_goals'],
    bins=15,
    kde=True,
    ax=ax[0]
)
ax[0].set_title('Diff goals as local')
ax[0].set_xlabel('Diff of goals (local - visitor)')
ax[0].set_ylabel('Frequency')

# histogram between goals diff as visitor
sns.histplot(
    data[data['equipo_visitante'] == 'Cebollitas FC']['diff_goals'],
    bins=15,
    kde=True,
    ax=ax[1]
)
ax[1].set_title('Diff goals as visitor')
ax[1].set_xlabel('Diff of goals (visitor - local)')
ax[1].set_ylabel('Frequency')

plt.show()

Juan Riquelme

student•

Estoy de acuerdo con que deberiamos hacer el analisis para Cebollitas unicamente.

Sin embargo, por lo que entiendo del profesor, es como si cuando hablaramos del "equipo local", hablasemos de cebollitas. Gracias a esto, me hizo un poco mas de sentido por que la variables de diferencia de goles esta de esa forma

Queria compartir tambien algunos ratios que se me ocurrieron y mi análisis dentro de los mismos:

Ratio de Goles vs Tiros Local

Entre mas goles vs menos tiros, significa que somos mas efectivos
Entre mas tiros pero menos goles significa que no estamos tirando bien

cebollitas["ratio_goles_tiros_local"] = cebollitas["goles_local"]/cebollitas["tiros_arco_local"]

Ratio de Goles vs Posesion Local

Nos dice que tan efectiva es la posesion para obetener goles.
Entre mas goles, y menos posesion significa que somos efectivos con la posesion

cebollitas["ratio_goles_posesion_local"] = cebollitas["goles_local"]/cebollitas["posesion_local (%)"]

Wilmer Fernando Sanabria

student•

No tiene ningun sentido, pero si quizas esa sea la forma de entenderlo para encontrarle logica.

Fernando Lavao Orjuela

student•

Creo que es la manera correcta de uno desarrollar un analisis preciso, alcanzando un mayor grado de curiosidad, lo llevara a desarollar mejores Features que modelaran mejor el algoritmo.

Mauricio García Grajales

student•

Y bueno, la respuesta al inconveniente del filtrado para saber los goles de local y visitante que son de cebollitas?

Beicker Andres Yomayusa Diaz

student•

que el pico del histograma se posesión en una diferencia de goles entre local y visitante cercana a cero, da entender que se empata bastante

Mario Alexander Vargas Celis

student•

🧠 ¿Qué es la ingeniería de características?

Es el proceso de:

Crear nuevas variables a partir de datos existentes.
Seleccionar las más relevantes.
Transformar o escalar datos para que los modelos aprendan mejor.
Codificar datos categóricos.

⚽ Ejemplo en datos deportivos

Supón que tienes este conjunto de datos:

JugadorGolesMinutosPases CompletosMessi39070Lewandowski16035

🔧 Podemos crear nuevas características como:

Nueva variableFórmulaSignificadoGoles por minutoGoles / MinutosEficiencia goleadoraPases por minutoPases / MinutosParticipación en juegoParticipación totalGoles + AsistenciasImpacto ofensivoPases acertados (%)Pases / Pases intentados * 100Precisión de pase (si se tiene el dato)Diferencia de rendimientoGoles por minuto - media globalComparación con otros

🧪 Ejemplo en Python

import pandas as pd

# Datos básicos df = pd.DataFrame({ 'Jugador': ['Messi', 'Lewandowski'], 'Goles': [3, 1], 'Minutos': [90, 60], 'Pases': [70, 35] })

# Ingeniería de características df['Goles_por_minuto'] = df['Goles'] / df['Minutos'] df['Pases_por_minuto'] = df['Pases'] / df['Minutos']

print(df)

🧠 Técnicas comunes de ingeniería de características

📌 1. Escalado

Usar MinMaxScaler o StandardScaler para igualar escalas.

📌 2. Codificación de variables categóricas

OneHotEncoder, LabelEncoder para posiciones, equipos, etc.

📌 3. Extracción de tiempo

Separar "fecha del partido" en "día de la semana", "mes", "temporada".

📌 4. Cruces de variables

Multiplicar o dividir variables para encontrar relaciones (por ejemplo: posesión × tiros al arco).

📌 5. Transformaciones estadísticas

Logaritmo, raíz cuadrada, z-score… para normalizar distribuciones.

📈 Beneficios

✅ Mejora el rendimiento del modelo. ✅ Permite modelos más simples con mejores resultados. ✅ Reduce la necesidad de redes neuronales profundas en problemas sencillos. ✅ Mejora la interpretabilidad de los modelos.

Dario Bublitz

student••

💡 Idea 14 ⭐⭐⭐⭐⭐

El verdadero poder del machine learning está en cómo representamos el problema, no solo en el modelo.

Osric Audesirk

student•

"Acompáñame al siguiente partido"

Me estoy cansando de todas las analogías y referencias al fútbol. ¿Tan difícil es decir "la siguiente clase"?

Henry Stivens Adarme Muñoz

student•

Jajaja.

Ricardo Montoya Infante

student•

Estas variables derivadas son importantes en interpretación, sin embargo, son generadoras de multicolinealidad a la hora de construír los modelos

Jose Chong

student•

Es posible que las variables que estamos estudiando en esta clase no sean del todo adecuadas. Por ejemplo: si tenemos más tiros al arco por tener más posesión de local; podría ser mejor estudiando también si se mantiene ese mismo comportamiento estando como visitante.

David Pinchao

student•

En esto dependemos mucho del negocio, ya que podemos dar a los clientes información que no está claramente relacionada. Y como se hace en la clase verificar con analisis o visualización.

Gabriel Obregón

student•

Histograma de la diferencia de goles (local - visitante). Observaciones:

La distribución tiene una forma ligeramente centrada alrededor de 0, lo que sugiere que los partidos están, en promedio, equilibrados.
Hay más frecuencias en valores como 0, 1 y -1, lo que indica una alta proporción de partidos igualados o con diferencia mínima.
Existen algunos partidos con diferencias extremas, tanto a favor como en contra del local.

La fuerte correlación positiva (≈0.67) entre diferencia_goles y goles_local tiene mucho sentido desde el punto de vista lógico y deportivo:

📌 ¿Por qué se da esta correlación?

diferencia_goles = goles_local - goles_visitante
Por definición, si un equipo local anota más goles, la diferencia tiende a ser más positiva.
Así, cuantos más goles mete el local, más grande tiende a ser la diferencia en su favor.

🧠 ¿Por qué no es una correlación perfecta (1.00)?

Porque la diferencia también depende de cuántos goles reciba el local (goles_visitante).
Por ejemplo:
- Un 5–4 y un 5–0 tienen el mismo goles_local, pero diferencias muy distintas (+1 vs +5).
Entonces, aunque goles_local influye fuertemente en diferencia_goles, no es el único factor.

📊 ¿Qué indica este valor de 0.67?

Que más de un 40% de la variabilidad en la diferencia de goles puede explicarse solo por los goles del local (aproximadamente, R2=0.672≈0.45R^2 = 0.67^2 ≈ 0.45).
Es una relación significativa, pero hay margen para que otras variables (como los goles del visitante o el contexto del partido) aporten también.

Mercedes Jue

student•

El concepto de "diferencia de gol" hay que tomarlo con cautela porque no es lo que habitualmente significa en las tablas de clasificación o en el fútbol en general (por equipo, los goles marcados menos los recibidos en un acumulado) Ojo con eso.

Yhon Darlin Velásquez Balcona

student•

Así es, también me percaté de ello....

Jhon Freddy Tavera Blandon

student•

José Eder Guzmán Mendoza

student•

La ingeniería de características (feature engineering) es un proceso clave en machine learning que consiste en transformar datos originales en variables más informativas para mejorar la capacidad predictiva de los modelos. En el análisis deportivo, esto permite pasar de estadísticas aisladas a indicadores más significativos del rendimiento del equipo.

Por ejemplo, en lugar de usar solo goles o tiros por separado, se pueden crear variables como la diferencia de goles (goles a favor menos goles en contra), que resume el resultado del partido, o el ratio de tiros sobre posesión, que mide qué tan eficiente es el equipo al convertir posesión en oportunidades reales. Estas transformaciones aportan contexto y ayudan a los algoritmos a detectar patrones más profundos.

El valor de estas nuevas variables radica en que simplifican relaciones complejas y pueden mejorar más el desempeño del modelo que cambiar de algoritmo. Además, su análisis mediante visualizaciones como histogramas y mapas de calor permite validar su utilidad, por ejemplo, identificando correlaciones relevantes (como la fuerte relación entre goles locales y diferencia de goles).

En síntesis, la ingeniería de características convierte datos en conocimiento accionable, siendo un paso decisivo para construir modelos más precisos y útiles en la toma de decisiones deportivas.

Esteban Bastías B.

student•

Esteban Bastías B.

student•

1. La Anatomía de la Victoria

La matriz de correlación confirma matemáticamente lo que sospechábamos en el histograma anterior, pero con matices interesantes:

Diferencia de Goles vs. Goles Visitante (-0.75): Esta es la correlación más fuerte de la tabla. El signo negativo indica que a medida que aumentan los goles del visitante, la diferencia (Local - Visitante) cae drásticamente. Lo curioso es que esta relación es más fuerte que la de los goles locales (0.67).
- Interpretación: En tu dataset, el rendimiento defensivo contra el visitante parece ser un predictor más determinante del resultado final que el ataque local.
Goles Local vs. Goles Visitante (-0.018): Esta correlación es prácticamente cero.
- Interpretación: Esto es excelente para un modelo predictivo. Significa que los goles de un equipo son independientes de los del otro. Un equipo no suele "anotar más solo porque el otro anota". Esto valida el uso de modelos como la Distribución de Poisson Independiente para modelar cada equipo por separado.

2. El "Problema" del Ratio Tiros/Posesión

Aquí es donde la cosa se pone interesante para un científico de datos. La variable ratio_tiros_posesion_local tiene correlaciones muy bajas con todo:

-0.15 con goles local.
-0.14 con diferencia de goles.

Diagnóstico: Esta variable, tal como está calculada, tiene muy poco poder predictivo. Es casi "ruido" estadístico.

¿Por qué sucede? A veces, tener mucha posesión pero pocos tiros (o viceversa) no correlaciona linealmente con el éxito.
Acción recomendada: En Machine Learning, esto sugiere que necesitas hacer Feature Engineering. Quizás en lugar de un ratio simple, necesites variables de interacción más complejas o considerar la calidad de los tiros (Expected Goals - xG).

3. Consideración de Multicolinealidad

Si planeas usar una Regresión Lineal o Logística, ten cuidado:

Peligro de Multicolinealidad: La diferencia_goles es una variable derivada directamente de goles_local y goles_visitante (X - Y = Z).

Incluir las tres en un modelo causaría multicolinealidad perfecta o casi perfecta, lo que inflaría la varianza de tus coeficientes y haría que el modelo sea inestable. Regla de oro: Si vas a predecir el resultado, usa los goles como variables de entrada o la diferencia como objetivo (target), pero no mezcles variables que se calculan entre sí.

# Filtrando donde Cebollitas FC haya sido local o visitante
df_partidos = df_partidos[
    (df_partidos["equipo_local"] == "Cebollitas FC") |
    (df_partidos["equipo_visitante"] == "Cebollitas FC")
].copy()

# Nueva característica de diferencia de goles
df_partidos["diferencia_goles"] = df_partidos["goles_local"] - df_partidos["goles_visitante"]

# Ver el resultado
df_partidos[["equipo_local", "goles_local", "equipo_visitante", "goles_visitante", "diferencia_goles"]].head()

# graphicate the data to analyze
fig, ax = plt.subplots(1, 2, figsize=(12, 4))

# histogram between goals diff as local
sns.histplot(
    data[data['equipo_local'] == 'Cebollitas FC']['diff_goals'],
    bins=15,
    kde=True,
    ax=ax[0]
)
ax[0].set_title('Diff goals as local')
ax[0].set_xlabel('Diff of goals (local - visitor)')
ax[0].set_ylabel('Frequency')

# histogram between goals diff as visitor
sns.histplot(
    data[data['equipo_visitante'] == 'Cebollitas FC']['diff_goals'],
    bins=15,
    kde=True,
    ax=ax[1]
)
ax[1].set_title('Diff goals as visitor')
ax[1].set_xlabel('Diff of goals (visitor - local)')
ax[1].set_ylabel('Frequency')

plt.show()

Creación de variables predictivas en machine learning

Fundamentos de Machine Learning y Contexto Deportivo

Tipos de modelos de machine learning para análisis deportivo

Modelos supervisados para predecir resultados deportivos

Modelos no supervisados para análisis de rendimiento deportivo

Configuración de Python y Jupyter para análisis deportivo

Preparación y Exploración de Datos

Limpieza y preparación de datos deportivos con Pandas

Análisis estadístico del rendimiento de un equipo de fútbol

Técnicas de escalado de datos con Min Max y Standard Scaler

Ingeniería de Características