Cómo funciona el algoritmo K-means
Clase 23 de 34 • Curso Profesional de Ciencia de Datos 2019
Resumen
El algoritmo K-means es una técnica de clusterización que se basa en un aprendizaje no supervisado para agrupar elementos con atributos similares.
El algoritmo sigue los siguientes pasos hasta converger:
- Selecciona el número de clusters.
- Calcula la distancia entre todos los puntos al centro del cluster.
- Asocia cada punto al cluster más cercano.
- Recalcula de nuevo el centro de los cluster a partir de los puntos que lo componen.
En R solamente corremos la función Kmeans()
y le pasamos los parámetros necesarios:
- Dataframe que va a utilizar.
- Número de clusters.
- El número de inicios aleatorios.
- El máximo de iteraciones.
La función de Kmeans()
nos va a regresar:
- Los clusters asociados a cada columna de datos.
- Un vector de cómo ha clasificado a cada dato del dataframe.
- La suma de la distancia de los elementos al centro del cluster, esto sirve para medir el error.
- Los componentes disponibles.
- El coste de error total.
Método elbow
Elegir el número óptimo de clusters para nuestro dataframe no es sencillo, pero utilizando el método elbow podemos elegirlo de manera adecuada.
Este método lo que hace es:
- Ejecutamos el K-mean para distintos clusters, por ejemplo del 1 al 10.
- Calculamos la distancia de error que hay a los centros de los clusters.
- Graficamos la distancia de error con el número de clusters.
- El punto donde cambie la tendencia va a parecerse a un codo (elbow), ese número de clusters es el adecuado para nuestro dataframe.