No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

¿Qué es hierarchical clustering y cómo funciona?

10/27
Recursos

Aportes 3

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Método Ward

  • Se utiliza en agrupamiento jerárquico de tipo Aglomerativo.
  • Por tanto, es un criterio para indicar como se deben aglomerar los clusters.
  • Su criterio fundamental es el de mínima varianza, es decir, su objetivo es que tras agrupar y conseguir nuevos clusters, La varianza dentro de cada cluster se la mínima posible. La función a minimizar es entonces, la suma de las varianzas de cada cluster.
  • Según lo anterior, en cada iteración, el algoritmo clusteriza de manera que se genere el menor aumento de varianza a la varianza total.
    Fuente: Statitstics.com
El clustering jerárquico es un método de aprendizaje automático no supervisado que se utiliza para agrupar datos en función de su similitud. El algoritmo funciona creando una jerarquía de grupos, comenzando con cada punto de datos como su propio grupo y luego combinando los grupos más similares hasta que solo queda un grupo. Hay dos tipos principales de clustering jerárquico: * **Aglomerativo:** Este enfoque comienza con cada punto de datos como su propio grupo y luego combina los grupos más similares hasta que solo queda un grupo. El algoritmo puede usar una variedad de medidas de similitud para determinar qué grupos combinar. * **Divisivo:** Este enfoque comienza con todos los datos en un solo grupo y luego divide el grupo en dos grupos más pequeños, repitiendo el proceso hasta que cada punto de datos esté en su propio grupo. El algoritmo puede usar una variedad de medidas de distancia para determinar cómo dividir los grupos. El clustering jerárquico se puede utilizar para una variedad de tareas, incluidas: * **Segmentación de clientes:** Se puede utilizar para dividir a los clientes en grupos basados en sus características y comportamiento. * **Clasificación de imágenes:** Se puede utilizar para clasificar imágenes en grupos basados en su contenido. * **Análisis de redes sociales:** Se puede utilizar para identificar grupos de personas que interactúan entre sí. **Cómo funciona el clustering jerárquico** El clustering jerárquico funciona creando una jerarquía de grupos, comenzando con cada punto de datos como su propio grupo. Luego, el algoritmo combina los grupos más similares hasta que solo queda un grupo. Hay dos pasos principales involucrados en el clustering jerárquico: 1. **Mide la similitud entre los grupos:** El algoritmo debe medir la similitud entre los grupos para determinar cuáles combinar. Hay una variedad de medidas de similitud que se pueden utilizar, como la distancia euclidiana, la distancia manhattan y la distancia coseno. 2. **Combina los grupos más similares:** El algoritmo combina los grupos más similares, basándose en la medida de similitud que se utiliza. El algoritmo continúa combinando los grupos más similares hasta que solo queda un grupo. **Ventajas y desventajas del clustering jerárquico** El clustering jerárquico tiene una serie de ventajas y desventajas. **Ventajas:** * Es un método flexible que se puede utilizar para una variedad de tareas. * Es relativamente fácil de implementar. * Puede proporcionar una representación visual de los grupos de datos. **Desventajas:** * Puede ser difícil determinar el número óptimo de grupos. * Puede ser sensible a la elección de la medida de similitud. **¿Cómo elegir el número óptimo de grupos?** Una de las principales desventajas del clustering jerárquico es que puede ser difícil determinar el número óptimo de grupos. Hay una serie de métodos que se pueden utilizar para abordar este problema, como: * **Criterio de codo:** Este método identifica el punto en el que la curva de la distancia intracluster deja de disminuir rápidamente. * **Criterio de silueta:** Este método mide la similitud de cada punto de datos con sus vecinos del mismo grupo y con sus vecinos de otros grupos. * **Criterio de información:** Este método mide la cantidad de información que se puede obtener sobre la pertenencia a un grupo a partir de las características de los datos. **Conclusión** El clustering jerárquico es un método poderoso que se puede utilizar para agrupar datos en función de su similitud. Es un método flexible que se puede utilizar para una variedad de tareas, pero es importante tener en cuenta sus limitaciones, como la dificultad de determinar el número óptimo de grupos. <https://bard.google.com/>

Pasos Básicos del Hierarchical Clustering:
Calcular las Distancias:

Comienza calculando la matriz de distancias entre todos los pares de puntos en tus datos. Puedes usar diversas métricas de distancia, como la euclidiana, la manhattan o la correlación, según la naturaleza de tus datos.
Asignar cada Punto a un Clúster Inicial:

Inicialmente, cada punto se asigna a su propio clúster.
**Encontrar los Clústeres más Cercanos:
**
Encuentra los dos clústeres más cercanos según la matriz de distancias. La elección de la medida de distancia y del método de enlace (cómo se mide la distancia entre clústeres) puede variar y afectar los resultados.
Fusionar los Clústeres:

Fusiona los dos clústeres más cercanos en uno nuevo. Ahora, en lugar de dos puntos individuales, tienes un clúster que representa a ambos.
Actualizar la Matriz de Distancias:

Recalcula la matriz de distancias para reflejar la fusión de clústeres. Puedes utilizar diferentes métodos, como el enlace simple, el enlace completo o el enlace promedio, para determinar cómo se calcula la distancia entre clústeres.
Repetir:

Repite los pasos 3-5 hasta que todos los puntos estén en un solo clúster o hasta que se cumpla algún criterio de parada, como un número específico de clústeres deseados.