Jhony Urbano Diaz Quispe
studentPreguntaComo elijo el valor de “K”
Talib Gibran Amador Valencia
studentHola El valor óptimo de K se debe elegir con base en el "ruido" que este genere en el modelo, normalmente se una el método de el arco para determinar el número adecuado, ese número adecuado normalmente es aquel valor que minimiza el error, aquí te dejo una imagen que es bastante sencilla de entender
!Método del arco para la selección de K
Saludos y mucho éxito, espero te haya podido ayudar
JESUS ALBERTO CARREÑO MARTINEZ
studentPara determinar el número óptimo de clusters que se pueden tener en una muestra de datos, existen varios métodos prácticos tanto formales como gráficos que se pueden utilizar, pero una de las técnicas más comunes y robustas, es el método del codo.
El método del codo se basa en la suma de los cuadrados de las distancias de cada elemento de datos con su centroide correspondiente y se denota de la siguiente manera:
Donde WCSS es la suma de los cuadrados de las distancias y se refiere a Within-Cluster-Sum-of-Squares, Yi es el centroide del elemento o dato Xi y n el total de datos en la muestra.
El proceso se lleva a cabo iniciando con un solo cluster para todos los elementos de la muestra y se obtiene la suma de todas las distancia de cada elemento con el centroide, posteriormente se crean dos centroides y se suman los elementos más cercanos a cada uno de los centroides para sumar las distancias de cada elemento con su centroide correspondiente. El proceso se repite para 3, 4, 5 … n centroides. Cuando el número de centroides es igual a la cantidad de datos de la muestra (n), las distancias son cero, dado que cada elemento es un centroide.
JESUS ALBERTO CARREÑO MARTINEZ
studentLa suma de las distancias para un centroide
![]()
JESUS ALBERTO CARREÑO MARTINEZ
studentLa suma de las distancias para dos centroides
![]()
JESUS ALBERTO CARREÑO MARTINEZ
studentLa suma de las distancias para tres centroides
![]()
Fuente https://www.jacobsoft.com.mx/es_mx/k-means-clustering-con-python/
