Cómo funciona el algoritmo K-means

Resumen

El algoritmo K-means es una técnica de clusterización que se basa en un aprendizaje no supervisado para agrupar elementos con atributos similares.

El algoritmo sigue los siguientes pasos hasta converger:

Selecciona el número de clusters.
Calcula la distancia entre todos los puntos al centro del cluster.
Asocia cada punto al cluster más cercano.
Recalcula de nuevo el centro de los cluster a partir de los puntos que lo componen.

En R solamente corremos la función Kmeans() y le pasamos los parámetros necesarios:

La función de Kmeans() nos va a regresar:

Los clusters asociados a cada columna de datos.
Un vector de cómo ha clasificado a cada dato del dataframe.
La suma de la distancia de los elementos al centro del cluster, esto sirve para medir el error.
Los componentes disponibles.
El coste de error total.

Elegir el número óptimo de clusters para nuestro dataframe no es sencillo, pero utilizando el método elbow podemos elegirlo de manera adecuada.

Este método lo que hace es:

Ejecutamos el K-mean para distintos clusters, por ejemplo del 1 al 10.
Calculamos la distancia de error que hay a los centros de los clusters.
Graficamos la distancia de error con el número de clusters.
El punto donde cambie la tendencia va a parecerse a un codo (elbow), ese número de clusters es el adecuado para nuestro dataframe.