Clustering de jugadores con K-Means

Curso de Fundamentos de Machine Learning

Contenido del curso

No sé dónde empezar

Fundamentos de Machine Learning y Contexto Deportivo

Preparación y Exploración de Datos

Ingeniería de Características

Modelado Predictivo Supervisado

Aprendizaje No Supervisado

Clustering de jugadores con K-Means

Resumen

El entrenador llegó con una idea distinta: hasta ahora habíamos usado machine learning para predecir resultados de partidos, pero ¿y si lo usamos para conocer mejor a nuestros jugadores? Con K-Means y aprendizaje no supervisado puedes agrupar jugadores por estilo, descubrir perfiles tácticos y tomar decisiones más inteligentes sin etiquetar los datos manualmente.

Esto te sirve si trabajas con datos deportivos, quieres aplicar clustering en Python o necesitas entender cómo un algoritmo descubre patrones por sí solo.

¿Qué es el aprendizaje no supervisado y por qué cambia las reglas?

Hasta este punto entrenábamos modelos mostrándoles ejemplos correctos: los datos y la respuesta. En el aprendizaje no supervisado el modelo aprende solo, sin saber qué es correcto o incorrecto [0:35].

Esa diferencia es clave. En lugar de pedirle al modelo que prediga, le pides que descubra estructuras ocultas en la información. Y aquí es donde entra K-Means.

¿Qué es el aprendizaje no supervisado? Es una técnica donde el modelo encuentra patrones en datos sin etiquetas previas. Tú no le dices qué buscar; él agrupa la información según similitudes matemáticas.

¿Cómo funciona el algoritmo K-Means paso a paso?

K-Means es uno de los algoritmos de clustering más populares y sigue una lógica sencilla [1:10]:

Eliges cuántos grupos o clusters quieres formar.
El algoritmo asigna cada dato al grupo más cercano según proximidad matemática.
Repite el proceso hasta que las agrupaciones se estabilizan.
Devuelve una etiqueta de grupo para cada jugador.

El resultado es revelador: jugadores que no sabíamos que eran similares aparecen en el mismo grupo, listos para análisis táctico o entrenamiento personalizado.

¿Qué perfiles puedes descubrir en un equipo?

Imagina un grupo con muchos goles, muchos remates y pocas asistencias. Probablemente son tus delanteros estrella. Otro grupo con muchas asistencias y pases completados serán los playmakers o creadores de juego. Un tercer grupo más balanceado puede revelar jugadores versátiles.

Lo valioso es que el modelo encuentra esos perfiles solo, a partir de estadísticas como goles, asistencias, pases completados y tiros a puerta.

¿Cómo aplicar K-Means en Python con Scikit-Learn?

El flujo en el notebook se divide en seis bloques claros [3:30]. Cada uno cumple una función específica dentro del análisis.

¿Cómo cargar y explorar el dataset de jugadores?

En el primer bloque importas pandas y usas read_csv para cargar el archivo con métricas individuales. Con .head inspeccionas las primeras filas y confirmas las columnas disponibles [4:00].

En el segundo bloque haces una exploración visual con Seaborn y Matplotlib. La función Pair Plot genera una matriz de gráficos que muestra correlaciones y distribuciones entre variables. Eso te ayuda a ver patrones antes de aplicar el clustering [4:30].

¿Cómo entrenar el modelo K-Means con tres clusters?

En el bloque tres importas K-Means desde Scikit-Learn y preparas un dataframe con las features relevantes: goles, asistencias, pases completados y tiros a puerta [5:20].

python from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3, random_state=42) df['cluster'] = kmeans.fit_predict(features) df.head()

La función fit_predict hace varias cosas a la vez: inicializa centroides al azar, asigna cada jugador al centroide más cercano, recalcula los centroides y repite hasta convergencia. Al final, te devuelve la etiqueta de grupo para cada fila.

¿Para qué sirve random_state en K-Means? Fija la semilla para que los resultados sean reproducibles. Si usas el mismo valor, obtienes los mismos clusters cada vez que ejecutas el código.

¿Cómo visualizar los clusters con un Scatter Plot?

En el bloque cuatro defines un lienzo grande y usas un Scatter Plot que grafica cada jugador, por ejemplo goles contra asistencias, con un color según su cluster. Los títulos y etiquetas hacen la interpretación más sencilla [6:30].

¿Cómo interpretar los perfiles que arroja el modelo?

En el bloque cinco usas groupby sobre la columna cluster junto con la función mean para calcular las estadísticas promedio de cada grupo [7:10]. Así obtienes el perfil promedio: cuán goleador, asistidor o pasador es cada cluster.

En el ejemplo de la clase, el cluster cero mostró un promedio de 3.6 goles, un valor de asistencias menor que los otros grupos y una cifra alta en tiros a puerta. Ese patrón sugiere que estamos viendo a los delanteros naturales del equipo.

Con esa información puedes personalizar entrenamientos, ajustar tácticas e identificar necesidades de fichajes basándote en datos que antes estaban dispersos.

¿Cómo probar diferentes números de clusters de forma interactiva?

El bloque seis añade dinamismo. Importas widgets para crear un slider que permite cambiar el número de clusters en tiempo real, entre dos y seis grupos [8:20]. Cada vez que mueves el control, el algoritmo repite el proceso completo y un scatter plot muestra cómo cambia la agrupación.

Esto es ideal para encontrar cuántos perfiles realmente útiles existen en tu equipo. A veces tres clusters cuentan una historia clara; otras veces necesitas cinco para distinguir matices tácticos.

Con K-Means no solo agrupas datos, agrupas ideas: delanteros explosivos, mediocampistas creativos, jugadores versátiles. Y eso transforma cómo piensas las alineaciones, los entrenamientos y los fichajes.

¿Qué patrones detectaste tú al ejecutar el Pair Plot en tu notebook? Cuéntame en los comentarios qué clusters encontraste y cuántos grupos terminaron siendo más útiles para tu análisis.

Comentarios29

Percy Tejada

Estudiante

El uso de K-means permite agrupar jugadores según su rendimiento sin necesidad de etiquetas previas. Al aplicar aprendizaje no supervisado con variables como goles, asistencias o pases, se pueden descubrir perfiles estratégicos dentro del equipo. Esta técnica facilita decisiones tácticas, entrenamientos personalizados y análisis más profundo del plantel.

Gabriel Obregón

Estudiante

🔍 ¿Qué es el aprendizaje no supervisado?

Técnica que analiza datos sin etiquetas previas.
Permite descubrir patrones ocultos.
En este caso: agrupa jugadores según sus estadísticas reales.

📊 ¿Qué es K-means?

Algoritmo de agrupamiento automático.
Agrupa jugadores similares según:
- Goles
- Asistencias
- Pases completados
- Tiros al arco

⚙️ ¿Cómo funciona K-means?

Elegir el número de grupos (“clusters”).
Asignar jugadores al centroide más cercano.
Recalcular los centroides.
Repetir hasta estabilizar los grupos.

🎯 Resultado: Jugadores con comportamientos similares quedan en el mismo grupo.

🧩 Ejemplos de perfiles generados:

⚽ Delanteros: muchos goles y tiros.
🎯 Volantes creativos: altos en asistencias y pases.
🛡️ Defensores equilibrados: estadísticas balanceadas.

📌 Sin etiquetas: los datos hablan por sí solos.

🎯 ¿Para qué sirve esta agrupación?

🔧 Personalizar entrenamientos.
📋 Ajustar alineaciones tácticas.
🔍 Identificar necesidades de fichajes.

Jhon Freddy Tavera Blandon

Estudiante

Qué es K-Means Clustering

K-Means es un algoritmo de aprendizaje no supervisado que agrupa datos similares en clusters. No necesita etiquetas, simplemente agrupa según patrones. Tú defines cuántos grupos deseas (k), y el algoritmo organiza los datos.

sns.scatterplot(...): crea un gráfico de dispersión donde cada punto es un jugador.
x='goles', y='asistencias': ubicamos a los jugadores según esos dos ejes.
hue='cluster': colorea los puntos según el cluster al que pertenecen.
palette='Set1': define una paleta de colores amigable.
plt.show(): muestra el gráfico.

Mario Alexander Vargas Celis

Estudiante

El algoritmo K-Means es una técnica de machine learning no supervisado muy útil para agrupar jugadores automáticamente según su rendimiento, estilo o características físicas, sin necesidad de conocer de antemano sus posiciones o roles.

⚽ Ejemplo práctico: Clasificación de jugadores con K-Means

📌 Objetivo:

Agrupar jugadores en clusters similares con base en estadísticas como:

Goles
Asistencias
Pases completados
Recuperaciones
Velocidad, etc.

🧰 Paso a paso con Python:

1. 📥 Cargar datos de ejemplo

import pandas as pd

# Datos ficticios data = { 'nombre': ['Jugador A', 'Jugador B', 'Jugador C', 'Jugador D', 'Jugador E'], 'goles': [10, 2, 5, 0, 7], 'asistencias': [5, 1, 2, 0, 3], 'pases_completos': [300, 100, 200, 150, 250] }

df = pd.DataFrame(data)

2. 🎯 Seleccionar variables y escalar

from sklearn.preprocessing import StandardScaler

X = df[['goles', 'asistencias', 'pases_completos']] scaler = StandardScaler() X_scaled = scaler.fit_transform(X)

3. 🤖 Aplicar K-Means

from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=2, random_state=42) df['cluster'] = kmeans.fit_predict(X_scaled)

4. 📊 Ver los resultados

print(df[['nombre', 'cluster']])

🎨 (Opcional) Visualización con matplotlib

import matplotlib.pyplot as plt

plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=df['cluster'], cmap='viridis') plt.xlabel('Goles (escalado)') plt.ylabel('Asistencias (escalado)') plt.title('Clasificación de jugadores con K-Means') plt.grid(True) plt.show()

🧠 ¿Qué puedes hacer con esto?

Identificar tipos de jugadores (ofensivos, creativos, defensivos, etc.).
Sugerir roles dentro del equipo automáticamente.
Analizar cómo se agrupan tus jugadores vs. los de otros equipos.

🧪 Tip:

Si no sabes cuántos grupos (clusters) elegir, usa el método del codo (elbow method) para determinar el mejor valor de k.

José Joaquín Tripp Gudiño

Estudiante

Además de k-means, hay una serie de más algoritmos no supervisados que ayudarán en esecenarios con outliers, datos categóricos, big data, entre otros. Les comparto en resumen algunos más:

1. K-modes

Diseñado para datos categóricos.
En lugar de usar la media (como K-means) o un punto real (como K-medoids), usa la moda (categoría más frecuente) como centroide.
Distancia: número de atributos distintos entre dos puntos.
📌 Muy usado en encuestas, registros clínicos o datos de mercado con variables no numéricas.

2. K-prototypes

Extensión de K-means + K-modes.
Funciona con datos mixtos (numéricos + categóricos).
Usa media para variables numéricas y moda para categóricas.
📌 Ideal en aplicaciones reales donde casi nunca los datos son 100% numéricos o categóricos.

3. Fuzzy C-means (FCM)

En lugar de asignar cada punto a un clúster de manera rígida, permite pertenencia parcial.
Cada punto tiene un grado de pertenencia (0≤uij≤10 \leq u_{ij} \leq 10≤uij≤1) a cada clúster.
📌 Útil cuando los límites entre clústeres no son claros (ej. diagnóstico médico, segmentación de imágenes).

4. CLARA (Clustering Large Applications)

Variante escalable de K-medoids.
En lugar de calcular todas las distancias (muy costoso), toma muestras y ejecuta K-medoids sobre ellas.
📌 Sirve para datasets grandes.

5. CLARANS (Clustering Large Applications based on Randomized Search)

Otra mejora de K-medoids.
Hace una búsqueda aleatoria de posibles swaps de medoids en lugar de exhaustiva.
📌 Más eficiente en datasets masivos que CLARA.

6. Mini-batch K-means

Variante de K-means diseñada para big data.
Usa pequeños subconjuntos aleatorios (mini-batches) en cada iteración para actualizar los centroides.
📌 Mucho más rápido, aunque con una ligera pérdida de precisión.

Jesús Alberto Romero Hernández

Estudiante

Según lo que entiendo, es necesario realizar escalamiento de variables numéricas antes de entrenar y asignat los clusters con el algoritmo K-means. Tambíen hay que tomar en cuentas que ya en modelos no supervisados no existe la necesidad de realizar división de datos con train_test_split().

Juan Reinoso

Estudiante

•

Como Kmeans es un algoritmo basado en distancia, las variables a utilizar deben previamente ser estandarizadas.

Dario Bublitz

Estudiante

•

💡 Idea 14 ⭐⭐⭐⭐⭐

Dejar que los datos definan los roles cambia la forma de entender a un equipo.

Juan Manuel Hernández Ávila

Estudiante

no dejo presentar el quiz, ya que me manda a la pantalla de inicio. Dejo el dato por si a alguien más de pasa lo mismo

Jassira Ramos

Estudiante

me paso

Edward Martinez

Estudiante

no dejo presentar el quiz de Fundamentos de Machine Learning y Contexto Deportivo dejo el dato

Sergio Sebastian Romero Aguirre

Estudiante

el quiz anterior no funciona. quiero entrar y darlo pero me manda a la pantalla de inicio.

Mauricio García Grajales

Estudiante

visualizando las gráficas encuentro cierta relación entre asistencias, pases completados, precisión en los pasos y goles

Jonathan Quiros Barquero

Estudiante

Medias por clúster (espacio original):

Cluster 2 (n=4) → tiros_al_arco ≈ 43.8 (muy alto) y goles ≈ 4.0 (alto), asistencias ≈ 2.5, pases_completados ≈ 80.9.

Arquetipo: artilleros/definidores puros (mucho volumen de tiro y también convierten).

Cluster 1 (n=8) → pases_completados ≈ 87.4 (el más alto), tiros_al_arco ≈ 3.0 (bajo), goles y asistencias moderados-bajos.

Arquetipo: pasadores/posicionales seguros (cuidan pelota, no finalizan tanto).

Cluster 0 (n=8) → asistencias ≈ 6.62 (el más alto), tiros_al_arco ≈ 12.9 (medio-alto), goles ≈ 1.88, pases_completados ≈ 80.4.

Arquetipo: creadores (generan mucho para otros; asisten más de lo que definen).

Jesús Alberto Romero Hernández

Estudiante

De la Gráfica de PairPlot a simple vista lo que infiero es que existe dos grandes grupos en lo que se refiere a tiros al arco. Uno con con un mínimo de 0 tiros al arco y un máximo de 15 aprox. y el segundo grupo con un mínimo de 35 tiros aprox. y un máximo de 50

Juan Pablo Lopez Mejia

Estudiante

El data set jugadores_cebollitas no esta en los recursos de la clase

Juan Osorio

Profesor

Esta en la repo!

mateo londoño rua

Estudiante

•

Recuerden, antes de usar KMeans, estandaricen o escalen los datos ya que KMeans es sensible a los atipicos, recuerden tambien hacer la prueba del codo para elegir la cantidad de K a utilizar, en el codigo de la clase parece saltarse estos pasos que son decisivos para una buena clusterizacion .

Dario Bublitz

Estudiante

•

💡 Idea 13 (perfil analista)

El clustering no da respuestas finales, abre nuevas preguntas estratégicas

Dario Bublitz

Estudiante

•

💡 Idea 12

Modificar el número de clusters permite explorar distintas lecturas del mismo equi

Dario Bublitz

Estudiante

•

💡 Idea 11

También puede ayudar a detectar necesidades de refuerzos o fichajes.

Dario Bublitz

Estudiante

•

💡 Idea 10

El clustering aporta información valiosa para decisiones tácticas y alineaciones.

Clustering de jugadores con K-Means

Fundamentos de Machine Learning y Contexto Deportivo

Supervisado, no supervisado o refuerzo: cuál elegir

Modelos supervisados para predecir partidos

Clustering y PCA sin etiquetas en datos

Configuración de Python y Jupyter para análisis deportivo

Preparación y Exploración de Datos

Limpieza de datos CSV con Pandas

Estadística descriptiva para analizar partidos

MinMaxScaler y StandardScaler en Python

Ingeniería de Características

Feature engineering con pandas para fútbol

Selección de características con SelectKBest y árboles de decisión

Modelado Predictivo Supervisado

División de datos en machine learning con train_test_split

Regresión lineal para predecir goles en Python

Cómo saber si tu modelo de regresión funciona

Análisis de métricas R² en modelos de regresión deportiva

Árbol de decisión vs regresión lineal

Aprendizaje No Supervisado

Clustering de jugadores con K-Means

Interpretación de clusters de K-means para perfiles de jugadores

Visualización de perfiles de jugadores con análisis PCA

Pipeline y Proyecto Final

Pipeline ML que une predicción y scouting

Introducción al Deep Learning

Redes neuronales con PyTorch paso a paso

NLP en nuestro caso de uso

Análisis de sentimientos de fans con NLP

Resumen