
Lida Bocanegra
PreguntaNo me quedó claro, ¿bajo qué condiciones se ubica el primer centroide o solo se escoge un punto cualquiera en los datos?

Said Jacobo
Hola! Entiendo que el primer centroide de todos se ubica aleatoriamente en la nube de puntos, luego en cada iteracion se va acomodando hasta quedar en el centro de cada grupo... Una desventaja de kmeans es que vos tenes que saber previamente cuantos grupos tiene un conjunto de datos, porque el algoritmo encontrara la cantidad de grupos que le indiques en el parámetro K, aunque no sea la cantidad de grupos real (puede tener mas o menos grupos). Por ejemplo, vos podes indicar: K = 3, pero el conjunto de datos tiene 6 grupos realmente, Kmeans encontrara solo 3, probablemente con un error bastante alto... En base a esto ultimo engancharía la explicación que Rodrigo escribió mas abajo (muy buena por cierto)

Rodrigo Urquizo Yepez
Es algo que no explico el profe, lo que pasa es que primero comienzas con una cantidad n de centroides y evaluas el performance con la distancia euclidiana de cada punto del cluster hacia su centroide, luego obtienes el promedio de todas las distancias de cada cluster y finalmente sumas todos los promedios para obtener el error total del modelo. Luego sigues iterando cambiando la cantidad n de clusters hasta que el error total sea el minimo y hayas agrupado todos tus datos de la mejor forma.