Detrás de los motores de recomendación, las redes sociales y el reconocimiento de voz existen conceptos sorprendentemente accesibles. Uno de ellos es el agrupamiento jerárquico, un algoritmo que construye grupos de datos partiendo de una idea simple: encontrar los puntos más cercanos y unirlos de forma iterativa hasta revelar la estructura oculta en la información.
¿Cómo funciona el agrupamiento jerárquico?
El algoritmo parte de un supuesto directo: cada dato es, inicialmente, un grupo individual [0:12]. A partir de ahí, calcula las distancias entre todos los puntos, identifica la distancia más pequeña y une esos dos puntos en un nuevo clúster. Este proceso se repite de manera iterativa: en cada paso se evalúan las distancias entre los grupos existentes y se fusionan los más cercanos, hasta que finalmente queda un solo grupo [0:30].
Podría parecer que tener un único grupo al final no aporta valor. Sin embargo, lo realmente útil no es el grupo final, sino el objeto que se produce durante el proceso: el dendrograma.
¿Qué es un dendrograma y por qué es importante?
Un dendrograma es una representación gráfica que muestra las relaciones entre cada individuo y entre cada grupo conforme se van construyendo [0:48]. Funciona como un árbol invertido donde cada rama indica qué elementos se unieron y en qué momento del proceso.
- Permite visualizar relaciones individuales entre datos.
- Muestra cómo los grupos se fusionan paso a paso.
- El output principal del algoritmo es esta gráfica, no el grupo completo [1:15].
Gracias al dendrograma, es posible decidir en qué nivel "cortar" el árbol para obtener el número de grupos que mejor represente los datos.
¿Qué métricas de distancia se pueden utilizar?
Dado que el algoritmo se basa en encontrar distancias entre puntos, elegir la métrica adecuada es fundamental [1:30]. Entre las opciones disponibles están:
- Distancia euclidiana: la línea recta entre dos puntos en el espacio.
- Distancia de Manhattan: suma de las diferencias absolutas en cada dimensión.
- Distancia de Minkowski: una generalización que incluye las dos anteriores.
Cada métrica tiene ventajas y desventajas según la naturaleza de los datos, por lo que la elección impacta directamente en los resultados del agrupamiento.
¿Cuáles son los métodos de enlace entre grupos?
Además de la métrica, es necesario definir cómo se mide la distancia entre grupos ya formados. Existen al menos tres métodos principales [1:50]:
- Single linkage: toma los puntos más cercanos entre dos grupos. Tiende a generar cadenas alargadas de datos.
- Complete linkage: toma los puntos más lejanos entre grupos. Produce clústers más compactos.
- Average linkage: calcula el promedio de todos los puntos de cada grupo y mide la distancia entre esas medias. Ofrece un balance entre los dos métodos anteriores.
La combinación de métrica de distancia y método de enlace define el comportamiento completo del algoritmo, lo que hace posible ajustarlo según el problema que se quiera resolver.
¿Cómo practicar el agrupamiento jerárquico con la técnica de Feynman?
Una forma efectiva de consolidar este conocimiento es aplicar la técnica de Feynman [2:28]. El proceso consiste en tres pasos:
- Comprender el concepto a nivel teórico.
- Generar un programa que implemente el algoritmo desde cero, identificando las dificultades reales.
- Revisar implementaciones profesionales en librerías como Scikit-learn para entender cómo personas con amplia experiencia han resuelto esos mismos problemas [2:40].
Este enfoque permite pasar de la comprensión superficial a un dominio real del algoritmo. Al escribir tu propia función de agrupamiento jerárquico, descubrirás los retos de calcular distancias, gestionar la fusión de grupos y construir el dendrograma de forma eficiente.
Si ya pusiste en práctica tu implementación, comparte tu función y cuéntanos qué método de enlace y qué métrica de distancia elegiste.