Juan José Mamani Tarqui
<u>Índice de Silueta (Silhouette Score)</u>
El Índice de Silueta es una métrica usada para evaluar la calidad de un agrupamiento (clustering) obtenido por algoritmos específicos. Sirve para medir qué tan bien agrupados están los datos en un conjunto de clusters.
Funcionamiento:
El índice se calcula para cada punto de datos y luego se promedia para obtener un valor final para todo el clustering. Para un punto de datos específico:
- a(i): Distancia promedio del punto a todos los demás puntos en su propio cluster (cohesión).
- b(i): Distancia promedio del punto a los puntos del cluster más cercano distinto al suyo (separación).
El Índice de Silueta para ese punto, s(i), se define como:
s(i) = (b(i) - a(i)) / max(a(i), b(i))
Interpretación:
- -1 <= s(i) <= 1: El valor va de -1 a 1.
- s(i) cercano a 1: Indica que el punto está bien asignado a su cluster (cohesión alta) y lejos de los clusters vecinos (separación alta). Es un caso deseable.
- s(i) cercano a 0: Indica que el punto está cerca de la frontera entre clusters, lo que sugiere una separación baja.
- s(i) cercano a -1: Indica que el punto está más cerca de los puntos de otro cluster que del suyo propio, lo que sugiere una mala asignación.
- Clusters con tamaño 1: El índice es 0 para clusters con un solo punto.
Limitaciones:
- Funciona mejor para clusters con formas convexas.
- Puede verse afectado por la métrica de distancia utilizada.
Uso:
El Índice de Silueta se utiliza para comparar diferentes clusterings obtenidos con el mismo algoritmo y diferentes números de clusters. Un valor promedio más alto del índice indica un mejor clustering.
