Contenido del curso
Preparación y Exploración de Datos
Ingeniería de Características
Modelado Predictivo Supervisado
Aprendizaje No Supervisado
Pipeline y Proyecto Final
Introducción al Deep Learning
NLP en nuestro caso de uso
Clustering y PCA sin etiquetas en datos
Resumen
Imagina a un centrocampista que toca el balón 140 veces en un partido, pero no marca, no asiste y no gana duelos. ¿Está aportando valor o solo ocupa espacio? Aquí los modelos no supervisados se vuelven tu radar para descubrir patrones cuando nadie te dice qué está bien y qué no, una habilidad clave en machine learning aplicado a datos reales.
Esta lectura es para ti si trabajas con datos sin etiquetas y necesitas entender cómo agrupar, simplificar y visualizar información para tomar mejores decisiones, ya sea en deporte, negocio o cualquier campo donde los números cuenten una historia oculta.
¿Qué son los modelos no supervisados y cuándo usarlos?
Cuando tienes datos de cientos de jugadores pero ninguna etiqueta que diga quién es crack y quién no, necesitas otro enfoque. Los modelos no supervisados encuentran estructura en los datos sin que nadie les diga la respuesta correcta.
¿Qué es un modelo no supervisado? Es un tipo de algoritmo que descubre patrones en datos sin etiquetas. No predice un resultado conocido; agrupa, resume o reorganiza la información para que tú interpretes lo que aparece.
La idea central es simple: en lugar de aprender de ejemplos clasificados, el modelo busca similitudes, densidades o estructuras escondidas. Y eso cambia la forma en que entiendes el juego.
¿Cómo funciona el clustering para agrupar jugadores parecidos?
El clustering es uno de los enfoques más usados cuando quieres encontrar grupos de elementos que se parecen entre sí. En el caso del fútbol, te permite identificar jugadores con estilos similares aunque sus estadísticas no lo griten a primera vista.
¿Qué hace K-means y por qué es tan popular?
K-means divide los datos en K grupos tratando de que cada elemento esté lo más cerca posible del centro de su grupo. Así terminas descubriendo perfiles como carrileros incansables, motores de recuperación o delanteros fantasmas, sin haberlos etiquetado antes.
La lógica es geométrica: el algoritmo calcula centros, asigna cada punto al centro más cercano y repite hasta estabilizarse. Sencillo y potente cuando los grupos tienen formas más o menos redondeadas.
¿Cuándo conviene usar DBSCAN o clustering jerárquico?
K-means no siempre encaja. Cuando el número de grupos no está claro o los datos tienen formas raras, DBSCAN entra en juego encontrando grupos basados en densidad. Es como decir: estos jugadores se comportan parecido porque están muy juntos en el mapa de datos, aunque no formen una figura geométrica clara.
Y si quieres explorar cómo se agrupan jugadas ofensivas sin saber cuáles terminan en gol, el clustering jerárquico arma un árbol llamado dendrograma, uniendo elementos parecidos hasta formar categorías cada vez más amplias.
- K-means: ideal cuando sabes cuántos grupos buscas.
- DBSCAN: útil con formas irregulares y ruido.
- Clustering jerárquico: perfecto para explorar relaciones a distintos niveles.
¿Cómo simplificar datos con muchas variables sin perder lo importante?
Cuando tus datos tienen muchas variables (por ejemplo, 20) y no sabes cómo visualizarlos, la reducción de dimensionalidad es tu aliada. Es una forma elegante de decir: resumamos sin perder lo esencial.
¿Qué es PCA? El análisis de componentes principales crea nuevas variables que capturan la mayor parte de la variación de los datos. Es como mirar el partido desde un dron en vez de una cámara lateral: pierdes detalle, pero ganas panorama.
¿Qué aportan t-SNE y UMAP frente a PCA?
Mientras PCA busca capturar variación de forma lineal, t-SNE y UMAP te permiten visualizar datos complejos en 2D o 3D revelando patrones que a veces ni sabías que existían. Son especialmente útiles cuando quieres ver vecindarios y cercanías locales entre observaciones.
La diferencia práctica está en el objetivo: PCA resume, mientras que t-SNE y UMAP exploran la estructura local. Combinarlas te da una lectura más completa de los datos.
¿Cómo evaluar un modelo cuando no hay etiquetas?
Aquí está el reto: como no hay goles, asistencias ni victorias que validen el resultado, evaluar estos modelos requiere otras métricas. En clustering se usan dos muy comunes:
- Inercia: mide qué tan compactos son los grupos.
- Coeficiente de silueta: indica qué tan bien separado está cada grupo del resto.
¿Qué significa el coeficiente de silueta? Es un valor que evalúa si un punto está bien ubicado en su grupo comparado con los demás grupos. Mientras más cercano a 1, mejor está separado y agrupado.
No son respuestas definitivas, pero te ayudan a decidir si tiene sentido agrupar así o si los grupos son solo una ilusión óptica. Saber leer estas métricas marca la diferencia entre un análisis útil y uno engañoso.
Cuando no tienes etiquetas, los modelos no supervisados se convierten en tu radar: no te dicen quién ganó, pero te muestran qué patrones existen. Y si sabes leerlos, vas un paso adelante del resto. ¿Qué patrones crees que encontrarías en los datos de tu equipo o tu negocio? Cuéntamelo en los comentarios.