Clustering y PCA sin etiquetas en datos

Curso de Fundamentos de Machine Learning

Contenido del curso

No sé dónde empezar

Fundamentos de Machine Learning y Contexto Deportivo

Preparación y Exploración de Datos

Ingeniería de Características

Modelado Predictivo Supervisado

Aprendizaje No Supervisado

Clustering y PCA sin etiquetas en datos

Resumen

Imagina a un centrocampista que toca el balón 140 veces en un partido, pero no marca, no asiste y no gana duelos. ¿Está aportando valor o solo ocupa espacio? Aquí los modelos no supervisados se vuelven tu radar para descubrir patrones cuando nadie te dice qué está bien y qué no, una habilidad clave en machine learning aplicado a datos reales.

Esta lectura es para ti si trabajas con datos sin etiquetas y necesitas entender cómo agrupar, simplificar y visualizar información para tomar mejores decisiones, ya sea en deporte, negocio o cualquier campo donde los números cuenten una historia oculta.

¿Qué son los modelos no supervisados y cuándo usarlos?

Cuando tienes datos de cientos de jugadores pero ninguna etiqueta que diga quién es crack y quién no, necesitas otro enfoque. Los modelos no supervisados encuentran estructura en los datos sin que nadie les diga la respuesta correcta.

¿Qué es un modelo no supervisado? Es un tipo de algoritmo que descubre patrones en datos sin etiquetas. No predice un resultado conocido; agrupa, resume o reorganiza la información para que tú interpretes lo que aparece.

La idea central es simple: en lugar de aprender de ejemplos clasificados, el modelo busca similitudes, densidades o estructuras escondidas. Y eso cambia la forma en que entiendes el juego.

¿Cómo funciona el clustering para agrupar jugadores parecidos?

El clustering es uno de los enfoques más usados cuando quieres encontrar grupos de elementos que se parecen entre sí. En el caso del fútbol, te permite identificar jugadores con estilos similares aunque sus estadísticas no lo griten a primera vista.

¿Qué hace K-means y por qué es tan popular?

K-means divide los datos en K grupos tratando de que cada elemento esté lo más cerca posible del centro de su grupo. Así terminas descubriendo perfiles como carrileros incansables, motores de recuperación o delanteros fantasmas, sin haberlos etiquetado antes.

La lógica es geométrica: el algoritmo calcula centros, asigna cada punto al centro más cercano y repite hasta estabilizarse. Sencillo y potente cuando los grupos tienen formas más o menos redondeadas.

¿Cuándo conviene usar DBSCAN o clustering jerárquico?

K-means no siempre encaja. Cuando el número de grupos no está claro o los datos tienen formas raras, DBSCAN entra en juego encontrando grupos basados en densidad. Es como decir: estos jugadores se comportan parecido porque están muy juntos en el mapa de datos, aunque no formen una figura geométrica clara.

Y si quieres explorar cómo se agrupan jugadas ofensivas sin saber cuáles terminan en gol, el clustering jerárquico arma un árbol llamado dendrograma, uniendo elementos parecidos hasta formar categorías cada vez más amplias.

K-means: ideal cuando sabes cuántos grupos buscas.
DBSCAN: útil con formas irregulares y ruido.
Clustering jerárquico: perfecto para explorar relaciones a distintos niveles.

¿Cómo simplificar datos con muchas variables sin perder lo importante?

Cuando tus datos tienen muchas variables (por ejemplo, 20) y no sabes cómo visualizarlos, la reducción de dimensionalidad es tu aliada. Es una forma elegante de decir: resumamos sin perder lo esencial.

¿Qué es PCA? El análisis de componentes principales crea nuevas variables que capturan la mayor parte de la variación de los datos. Es como mirar el partido desde un dron en vez de una cámara lateral: pierdes detalle, pero ganas panorama.

¿Qué aportan t-SNE y UMAP frente a PCA?

Mientras PCA busca capturar variación de forma lineal, t-SNE y UMAP te permiten visualizar datos complejos en 2D o 3D revelando patrones que a veces ni sabías que existían. Son especialmente útiles cuando quieres ver vecindarios y cercanías locales entre observaciones.

La diferencia práctica está en el objetivo: PCA resume, mientras que t-SNE y UMAP exploran la estructura local. Combinarlas te da una lectura más completa de los datos.

¿Cómo evaluar un modelo cuando no hay etiquetas?

Aquí está el reto: como no hay goles, asistencias ni victorias que validen el resultado, evaluar estos modelos requiere otras métricas. En clustering se usan dos muy comunes:

Inercia: mide qué tan compactos son los grupos.
Coeficiente de silueta: indica qué tan bien separado está cada grupo del resto.

¿Qué significa el coeficiente de silueta? Es un valor que evalúa si un punto está bien ubicado en su grupo comparado con los demás grupos. Mientras más cercano a 1, mejor está separado y agrupado.

No son respuestas definitivas, pero te ayudan a decidir si tiene sentido agrupar así o si los grupos son solo una ilusión óptica. Saber leer estas métricas marca la diferencia entre un análisis útil y uno engañoso.

Cuando no tienes etiquetas, los modelos no supervisados se convierten en tu radar: no te dicen quién ganó, pero te muestran qué patrones existen. Y si sabes leerlos, vas un paso adelante del resto. ¿Qué patrones crees que encontrarías en los datos de tu equipo o tu negocio? Cuéntamelo en los comentarios.

Mario Alexander Vargas Celis

Estudiante

🔷 ¿Qué es un modelo no supervisado?

Es un tipo de algoritmo que aprende de los datos sin conocer las respuestas correctas. Su objetivo es:

Agrupar observaciones similares.
Reducir la complejidad de los datos.
Encontrar patrones o estructuras internas.

⚽ Aplicaciones en análisis futbolístico

AplicaciónTécnica recomendadaAgrupar jugadores por estilo de juegoClustering (K-Means, DBSCAN)Detectar formaciones tácticas automáticamenteClustering o reducción de dimensiónReducir variables redundantes en estadísticasPCA (Análisis de Componentes Principales)Análisis de scouting (segmentar talento)Clustering + análisis de distanciasAnálisis posicional basado en tracking de GPSModelos de densidad, GMM

🔹 1. Clustering (Agrupamiento)

✔ ¿Qué hace?

Agrupa jugadores, partidos o jugadas similares entre sí, sin que tú definas los grupos previamente.

🧠 Algoritmos populares:

K-Means: divide datos en K grupos definidos por distancia.
DBSCAN: detecta grupos de puntos densos sin definir K.
Gaussian Mixture Models (GMM): agrupa por distribuciones probabilísticas.

⚽ Ejemplo en fútbol:

Agrupar jugadores según estas estadísticas:

Pases completados
Intercepciones
Disparos al arco
Minutos jugados

Así puedes descubrir roles reales: creadores, defensores puros, atacantes móviles, etc.

🔹 2. PCA (Análisis de Componentes Principales)

✔ ¿Qué hace?

Reduce dimensiones de un conjunto de datos manteniendo la mayor parte de la variabilidad.

⚽ En fútbol:

Simplificar datos de rendimiento (decenas de métricas por jugador).
Visualizar en 2D o 3D las "similitudes" entre jugadores.
Analizar tendencias generales del equipo.

🔹 3. Modelos de Detección de Anomalías

✔ ¿Qué hace?

Detecta comportamientos fuera de lo común (anomalías).

⚽ En fútbol:

Detectar partidos atípicos (para scouting o apuestas).
Identificar lesiones o rendimientos inusuales.
Señalar jugadas raras en el tracking del balón.

🧠 Algoritmos:

Isolation Forest
One-Class SVM

🧪 Ejemplo: Clustering de jugadores con K-Means en Python

import pandas as pd from sklearn.cluster import KMeans from sklearn.preprocessing import StandardScaler import matplotlib.pyplot as plt

# Datos simulados: estadísticas por jugador data = pd.DataFrame({ 'pases': [55, 70, 65, 20, 30, 25], 'disparos': [2, 1, 3, 5, 4, 6], 'intercepciones': [3, 2, 4, 6, 7, 5] })

# Normalización scaler = StandardScaler() data_scaled = scaler.fit_transform(data)

# Agrupar en 2 clústeres kmeans = KMeans(n_clusters=2, random_state=0) labels = kmeans.fit_predict(data_scaled)

data['rol_estimado'] = labels print(data)

🧠 Conclusión

Técnica¿Para qué sirve?K-Means, DBSCANAgrupar jugadores, jugadas o partidosPCAReducir dimensión y encontrar estructura en los datosAnomaly DetectionDetectar eventos o desempeños fuera de lo común

Gabriel Obregón

Humberto Cruz

Oscar Javier Perez

Herly Olivares

Jhon Maldonado

Yurai Gonzalez

Juan Osorio

Profesor

Pablo Joaquín Cruz

Roberto Fernández Vega

Mercedes Jue

Eraldo Chavez

Diego Alejandro Lesmes

Catalina Cortes

Agustina Mercado

Dario Bublitz

•

Esteban Bastías B.

Osric Audesirk

Luis Daniel Hernandez de la Vega

RICARDO CASTRILLON RAMIREZ

Percy Tejada

Jilber Ronaldy Vicos Pajuelo

Mauricio Hernando Gomez Cortes

José Eder Guzmán Mendoza

Clustering y PCA sin etiquetas en datos

Fundamentos de Machine Learning y Contexto Deportivo

Supervisado, no supervisado o refuerzo: cuál elegir

Modelos supervisados para predecir partidos