
Jhony Urbano Diaz Quispe
PreguntaComo elijo el valor de “K”

JESUS ALBERTO CARREÑO MARTINEZ
La suma de las distancias para tres centroides
Fuente https://www.jacobsoft.com.mx/es_mx/k-means-clustering-con-python/

JESUS ALBERTO CARREÑO MARTINEZ
La suma de las distancias para dos centroides

JESUS ALBERTO CARREÑO MARTINEZ
La suma de las distancias para un centroide

JESUS ALBERTO CARREÑO MARTINEZ
Para determinar el número óptimo de clusters que se pueden tener en una muestra de datos, existen varios métodos prácticos tanto formales como gráficos que se pueden utilizar, pero una de las técnicas más comunes y robustas, es el método del codo.
El método del codo se basa en la suma de los cuadrados de las distancias de cada elemento de datos con su centroide correspondiente y se denota de la siguiente manera:
Donde WCSS es la suma de los cuadrados de las distancias y se refiere a Within-Cluster-Sum-of-Squares, Yi es el centroide del elemento o dato Xi y n el total de datos en la muestra.
El proceso se lleva a cabo iniciando con un solo cluster para todos los elementos de la muestra y se obtiene la suma de todas las distancia de cada elemento con el centroide, posteriormente se crean dos centroides y se suman los elementos más cercanos a cada uno de los centroides para sumar las distancias de cada elemento con su centroide correspondiente. El proceso se repite para 3, 4, 5 … n centroides. Cuando el número de centroides es igual a la cantidad de datos de la muestra (n), las distancias son cero, dado que cada elemento es un centroide.

Talib Gibran Amador Valencia
Hola El valor óptimo de K se debe elegir con base en el "ruido" que este genere en el modelo, normalmente se una el método de el arco para determinar el número adecuado, ese número adecuado normalmente es aquel valor que minimiza el error, aquí te dejo una imagen que es bastante sencilla de entender
Saludos y mucho éxito, espero te haya podido ayudar