No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Convierte tus certificados en títulos universitarios en USA

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

19 Días
7 Hrs
11 Min
55 Seg

¿Qué es hierarchical clustering y cómo funciona?

10/27
Recursos

Aportes 5

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Método Ward

  • Se utiliza en agrupamiento jerárquico de tipo Aglomerativo.
  • Por tanto, es un criterio para indicar como se deben aglomerar los clusters.
  • Su criterio fundamental es el de mínima varianza, es decir, su objetivo es que tras agrupar y conseguir nuevos clusters, La varianza dentro de cada cluster se la mínima posible. La función a minimizar es entonces, la suma de las varianzas de cada cluster.
  • Según lo anterior, en cada iteración, el algoritmo clusteriza de manera que se genere el menor aumento de varianza a la varianza total.
    Fuente: Statitstics.com

Pasos Básicos del Hierarchical Clustering:
Calcular las Distancias:

Comienza calculando la matriz de distancias entre todos los pares de puntos en tus datos. Puedes usar diversas métricas de distancia, como la euclidiana, la manhattan o la correlación, según la naturaleza de tus datos.
Asignar cada Punto a un Clúster Inicial:

Inicialmente, cada punto se asigna a su propio clúster.
**Encontrar los Clústeres más Cercanos:
**
Encuentra los dos clústeres más cercanos según la matriz de distancias. La elección de la medida de distancia y del método de enlace (cómo se mide la distancia entre clústeres) puede variar y afectar los resultados.
Fusionar los Clústeres:

Fusiona los dos clústeres más cercanos en uno nuevo. Ahora, en lugar de dos puntos individuales, tienes un clúster que representa a ambos.
Actualizar la Matriz de Distancias:

Recalcula la matriz de distancias para reflejar la fusión de clústeres. Puedes utilizar diferentes métodos, como el enlace simple, el enlace completo o el enlace promedio, para determinar cómo se calcula la distancia entre clústeres.
Repetir:

Repite los pasos 3-5 hasta que todos los puntos estén en un solo clúster o hasta que se cumpla algún criterio de parada, como un número específico de clústeres deseados.

El clustering jerárquico es un método de aprendizaje automático no supervisado que se utiliza para agrupar datos en función de su similitud. El algoritmo funciona creando una jerarquía de grupos, comenzando con cada punto de datos como su propio grupo y luego combinando los grupos más similares hasta que solo queda un grupo. Hay dos tipos principales de clustering jerárquico: * **Aglomerativo:** Este enfoque comienza con cada punto de datos como su propio grupo y luego combina los grupos más similares hasta que solo queda un grupo. El algoritmo puede usar una variedad de medidas de similitud para determinar qué grupos combinar. * **Divisivo:** Este enfoque comienza con todos los datos en un solo grupo y luego divide el grupo en dos grupos más pequeños, repitiendo el proceso hasta que cada punto de datos esté en su propio grupo. El algoritmo puede usar una variedad de medidas de distancia para determinar cómo dividir los grupos. El clustering jerárquico se puede utilizar para una variedad de tareas, incluidas: * **Segmentación de clientes:** Se puede utilizar para dividir a los clientes en grupos basados en sus características y comportamiento. * **Clasificación de imágenes:** Se puede utilizar para clasificar imágenes en grupos basados en su contenido. * **Análisis de redes sociales:** Se puede utilizar para identificar grupos de personas que interactúan entre sí. **Cómo funciona el clustering jerárquico** El clustering jerárquico funciona creando una jerarquía de grupos, comenzando con cada punto de datos como su propio grupo. Luego, el algoritmo combina los grupos más similares hasta que solo queda un grupo. Hay dos pasos principales involucrados en el clustering jerárquico: 1. **Mide la similitud entre los grupos:** El algoritmo debe medir la similitud entre los grupos para determinar cuáles combinar. Hay una variedad de medidas de similitud que se pueden utilizar, como la distancia euclidiana, la distancia manhattan y la distancia coseno. 2. **Combina los grupos más similares:** El algoritmo combina los grupos más similares, basándose en la medida de similitud que se utiliza. El algoritmo continúa combinando los grupos más similares hasta que solo queda un grupo. **Ventajas y desventajas del clustering jerárquico** El clustering jerárquico tiene una serie de ventajas y desventajas. **Ventajas:** * Es un método flexible que se puede utilizar para una variedad de tareas. * Es relativamente fácil de implementar. * Puede proporcionar una representación visual de los grupos de datos. **Desventajas:** * Puede ser difícil determinar el número óptimo de grupos. * Puede ser sensible a la elección de la medida de similitud. **¿Cómo elegir el número óptimo de grupos?** Una de las principales desventajas del clustering jerárquico es que puede ser difícil determinar el número óptimo de grupos. Hay una serie de métodos que se pueden utilizar para abordar este problema, como: * **Criterio de codo:** Este método identifica el punto en el que la curva de la distancia intracluster deja de disminuir rápidamente. * **Criterio de silueta:** Este método mide la similitud de cada punto de datos con sus vecinos del mismo grupo y con sus vecinos de otros grupos. * **Criterio de información:** Este método mide la cantidad de información que se puede obtener sobre la pertenencia a un grupo a partir de las características de los datos. **Conclusión** El clustering jerárquico es un método poderoso que se puede utilizar para agrupar datos en función de su similitud. Es un método flexible que se puede utilizar para una variedad de tareas, pero es importante tener en cuenta sus limitaciones, como la dificultad de determinar el número óptimo de grupos. <https://bard.google.com/>
WARD: Explicado por Chat GPT: Tienes razón. Primero se calcula la SSE de cada cluster individualmente antes de calcular el incremento al fusionarlos. Aquí está el paso a paso corregido: 1\. \*\*Concepto Principal:\*\* \- Ward linkage busca minimizar la suma de las varianzas dentro de cada cluster. Se enfoca en reducir el aumento de la suma de los errores cuadráticos (SSE) al fusionar clusters. 2\. \*\*Paso a Paso:\*\* 1\. \*\*Inicialización:\*\* \- Comienza con cada punto de datos como su propio cluster. 2\. \*\*Cálculo de la Suma de Cuadrados (SSE) Individual:\*\* \- Para cada cluster, calcula la SSE sumando las diferencias cuadradas entre cada punto del cluster y la media del cluster. 3\. \*\*Cálculo del Incremento en la SSE:\*\* \- Para cada par de clusters, calcula el aumento en la SSE que resultaría de fusionarlos. 4\. \*\*Fusión de Clusters:\*\* \- Fusiona los dos clusters cuya combinación produce el menor incremento en la SSE. \- Este paso asegura que la fusión resulta en el menor aumento posible en la varianza dentro de los clusters. 5\. \*\*Repetición:\*\* \- Repite los pasos 2 a 4 hasta que todos los puntos estén en un solo cluster o se alcance el número deseado de clusters. 3\. \*\*Ejemplo Simplificado:\*\* \- Imagina tres puntos de datos: A, B, y C. \- Calcula la SSE para cada cluster individual (A, B, y C). \- Luego, calcula la SSE para cada posible par de clusters (A y B, A y C, B y C) y el incremento en SSE al fusionarlos. \- Supongamos que la fusión de A y B tiene el menor aumento en SSE. \- Fusiona A y B en un solo cluster. \- Luego, calcula la SSE para los clusters restantes (AB y C) y fusiona el par que minimiza el incremento en SSE. \- Continúa el proceso hasta que todos los puntos estén en un solo cluster. Este método asegura que en cada paso, los clusters fusionados resulten en la menor pérdida posible de homogeneidad, manteniendo los clusters lo más compactos y homogéneos posible.
Chat GPT: Por supuesto, aquí tienes las definiciones precisas y cortas: 1\. \*\*Simple Linkage (Enlace Simple):\*\* Método de agrupamiento jerárquico que define la distancia entre dos clusters como la distancia mínima entre cualquier par de puntos, uno de cada cluster. 2\. \*\*Complete Linkage (Enlace Completo):\*\* Método de agrupamiento jerárquico que define la distancia entre dos clusters como la distancia máxima entre cualquier par de puntos, uno de cada cluster. 3\. \*\*Average Linkage (Enlace Promedio):\*\* Método de agrupamiento jerárquico que define la distancia entre dos clusters como el promedio de las distancias entre todos los pares de puntos, uno de cada cluster.