No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

No se trata de lo que quieres comprar, sino de quién quieres ser. Invierte en tu educación con el precio especial

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

12 Días
14 Hrs
52 Min
0 Seg

¿Cómo evaluar modelos de clustering?

4/27
Recursos

Aportes 8

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

En resumen, el mejor modelo es el que tiene el promedio de coeficiente de silueta mas cercano a 1.

Una observación definición de “b” es la media de las distancias del punto a los puntos del clúster “mas” cercano al cual no pertenece. EL ejemplo gráfico tiene problemas al comparar el clúster con dos clústeres siendo que debería ser solo con el más cercano

## ***<u>Índice de Silueta (Silhouette Score)</u>*** El Índice de Silueta es una métrica usada para evaluar la calidad de un agrupamiento (clustering) obtenido por algoritmos específicos. Sirve para medir qué tan bien agrupados están los datos en un conjunto de clusters. **Funcionamiento:** El índice se calcula para cada punto de datos y luego se promedia para obtener un valor final para todo el clustering. Para un punto de datos específico: * **a(i):** Distancia promedio del punto a todos los demás puntos en su propio cluster (cohesión). * **b(i):** Distancia promedio del punto a los puntos del cluster más cercano **distinto** al suyo (separación). El Índice de Silueta para ese punto, **s(i)**, se define como: s(i) = (b(i) - a(i)) / max(a(i), b(i)) **Interpretación:** * **-1 <= s(i) <= 1:** El valor va de -1 a 1. * **s(i) cercano a 1:** Indica que el punto está bien asignado a su cluster (cohesión alta) y lejos de los clusters vecinos (separación alta). Es un caso deseable. * **s(i) cercano a 0:** Indica que el punto está cerca de la frontera entre clusters, lo que sugiere una separación baja. * **s(i) cercano a -1:** Indica que el punto está más cerca de los puntos de otro cluster que del suyo propio, lo que sugiere una mala asignación. * **Clusters con tamaño 1:** El índice es 0 para clusters con un solo punto. **Limitaciones:** * Funciona mejor para clusters con formas convexas. * Puede verse afectado por la métrica de distancia utilizada. **Uso:** El Índice de Silueta se utiliza para comparar diferentes clusterings obtenidos con el mismo algoritmo y diferentes números de clusters. Un valor promedio más alto del índice indica un mejor clustering.

Me quedo claro, el concepto pero el ejemplo me pareció un poco confuso…

Excelente clase 🥇💚

Bueno entonces el índice de silueta toma valores entre -1 y 1: * Un valor cercano a 1 indica que las instancias están bien asignadas al cluster adecuado. * Un valor cercano a -1 sugiere que las instancias están mal agrupadas!!
Inicialmente era 22, pero luego se le olvidó y dijo que era 12.
La linea punteada roja que es entonces? el promedio de puntos para todos los clusters o para un cluster? porque naturalmente en una gráfica deberían indicarnos si dicha linea hace referencia a un elemento específico.