Contenido del curso
Preparación y Exploración de Datos
Ingeniería de Características
Modelado Predictivo Supervisado
Aprendizaje No Supervisado
Pipeline y Proyecto Final
Introducción al Deep Learning
NLP en nuestro caso de uso
Clustering de jugadores con K-Means
Resumen
El entrenador llegó con una idea distinta: hasta ahora habíamos usado machine learning para predecir resultados de partidos, pero ¿y si lo usamos para conocer mejor a nuestros jugadores? Con K-Means y aprendizaje no supervisado puedes agrupar jugadores por estilo, descubrir perfiles tácticos y tomar decisiones más inteligentes sin etiquetar los datos manualmente.
Esto te sirve si trabajas con datos deportivos, quieres aplicar clustering en Python o necesitas entender cómo un algoritmo descubre patrones por sí solo.
¿Qué es el aprendizaje no supervisado y por qué cambia las reglas?
Hasta este punto entrenábamos modelos mostrándoles ejemplos correctos: los datos y la respuesta. En el aprendizaje no supervisado el modelo aprende solo, sin saber qué es correcto o incorrecto [0:35].
Esa diferencia es clave. En lugar de pedirle al modelo que prediga, le pides que descubra estructuras ocultas en la información. Y aquí es donde entra K-Means.
¿Qué es el aprendizaje no supervisado? Es una técnica donde el modelo encuentra patrones en datos sin etiquetas previas. Tú no le dices qué buscar; él agrupa la información según similitudes matemáticas.
¿Cómo funciona el algoritmo K-Means paso a paso?
K-Means es uno de los algoritmos de clustering más populares y sigue una lógica sencilla [1:10]:
- Eliges cuántos grupos o clusters quieres formar.
- El algoritmo asigna cada dato al grupo más cercano según proximidad matemática.
- Repite el proceso hasta que las agrupaciones se estabilizan.
- Devuelve una etiqueta de grupo para cada jugador.
El resultado es revelador: jugadores que no sabíamos que eran similares aparecen en el mismo grupo, listos para análisis táctico o entrenamiento personalizado.
¿Qué perfiles puedes descubrir en un equipo?
Imagina un grupo con muchos goles, muchos remates y pocas asistencias. Probablemente son tus delanteros estrella. Otro grupo con muchas asistencias y pases completados serán los playmakers o creadores de juego. Un tercer grupo más balanceado puede revelar jugadores versátiles.
Lo valioso es que el modelo encuentra esos perfiles solo, a partir de estadísticas como goles, asistencias, pases completados y tiros a puerta.
¿Cómo aplicar K-Means en Python con Scikit-Learn?
El flujo en el notebook se divide en seis bloques claros [3:30]. Cada uno cumple una función específica dentro del análisis.
¿Cómo cargar y explorar el dataset de jugadores?
En el primer bloque importas pandas y usas read_csv para cargar el archivo con métricas individuales. Con .head inspeccionas las primeras filas y confirmas las columnas disponibles [4:00].
En el segundo bloque haces una exploración visual con Seaborn y Matplotlib. La función Pair Plot genera una matriz de gráficos que muestra correlaciones y distribuciones entre variables. Eso te ayuda a ver patrones antes de aplicar el clustering [4:30].
¿Cómo entrenar el modelo K-Means con tres clusters?
En el bloque tres importas K-Means desde Scikit-Learn y preparas un dataframe con las features relevantes: goles, asistencias, pases completados y tiros a puerta [5:20].
python from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3, random_state=42) df['cluster'] = kmeans.fit_predict(features) df.head()
La función fit_predict hace varias cosas a la vez: inicializa centroides al azar, asigna cada jugador al centroide más cercano, recalcula los centroides y repite hasta convergencia. Al final, te devuelve la etiqueta de grupo para cada fila.
¿Para qué sirve random_state en K-Means? Fija la semilla para que los resultados sean reproducibles. Si usas el mismo valor, obtienes los mismos clusters cada vez que ejecutas el código.
¿Cómo visualizar los clusters con un Scatter Plot?
En el bloque cuatro defines un lienzo grande y usas un Scatter Plot que grafica cada jugador, por ejemplo goles contra asistencias, con un color según su cluster. Los títulos y etiquetas hacen la interpretación más sencilla [6:30].
¿Cómo interpretar los perfiles que arroja el modelo?
En el bloque cinco usas groupby sobre la columna cluster junto con la función mean para calcular las estadísticas promedio de cada grupo [7:10]. Así obtienes el perfil promedio: cuán goleador, asistidor o pasador es cada cluster.
En el ejemplo de la clase, el cluster cero mostró un promedio de 3.6 goles, un valor de asistencias menor que los otros grupos y una cifra alta en tiros a puerta. Ese patrón sugiere que estamos viendo a los delanteros naturales del equipo.
Con esa información puedes personalizar entrenamientos, ajustar tácticas e identificar necesidades de fichajes basándote en datos que antes estaban dispersos.
¿Cómo probar diferentes números de clusters de forma interactiva?
El bloque seis añade dinamismo. Importas widgets para crear un slider que permite cambiar el número de clusters en tiempo real, entre dos y seis grupos [8:20]. Cada vez que mueves el control, el algoritmo repite el proceso completo y un scatter plot muestra cómo cambia la agrupación.
Esto es ideal para encontrar cuántos perfiles realmente útiles existen en tu equipo. A veces tres clusters cuentan una historia clara; otras veces necesitas cinco para distinguir matices tácticos.
Con K-Means no solo agrupas datos, agrupas ideas: delanteros explosivos, mediocampistas creativos, jugadores versátiles. Y eso transforma cómo piensas las alineaciones, los entrenamientos y los fichajes.
¿Qué patrones detectaste tú al ejecutar el Pair Plot en tu notebook? Cuéntame en los comentarios qué clusters encontraste y cuántos grupos terminaron siendo más útiles para tu análisis.