Algoritmo K-means: Clustering Geométrico Sin Matemáticas

Clase 26 de 28 • Curso de Introducción al Álgebra Lineal: Vectores

Resumen

¿Qué es el algoritmo de K-means y cómo se utiliza en clustering?

El algoritmo de K-means es una herramienta poderosa para la agrupación de datos que se utiliza ampliamente en el análisis de datos y la minería de datos. Este método permite dividir un conjunto de datos en 'k' grupos (o clústeres) donde cada dato pertenece al clúster con el centroide más cercano. Este enfoque resulta ser sencillo y al mismo tiempo efectivo para identificar patrones y estructuras ocultas en grandes conjuntos de datos.

¿Cómo funciona el algoritmo de K-means?

El funcionamiento del algoritmo de K-means es intuitivo y se resume en los siguientes pasos:

Inicialización: Se elige un número 'k' de clústeres y se seleccionan 'k' vectores iniciales de manera aleatoria como centroides representativos.
Asignación: Para cada punto de datos, se le asigna al clúster cuyo centroide está más cerca.
Actualización: Se recalculan los centroides de cada clúster tomando la media de todos los puntos asignados a cada uno.
Iteración: Se repiten los pasos de asignación y actualización hasta que los centroides ya no cambien significativamente, indicándose que se ha alcanzado la convergencia.

¿Cómo se visualiza el proceso de K-means?

La comprensión del algoritmo de K-means se refuerza mediante la visualización geométrica en lugar del enfoque algebraico. A continuación, te ofrezco una explicación simplificada basada en una visualización:

Paso inicial: Imagina que tienes una nube de puntos de diferentes colores, y al principio, los centroides de los clústeres son simplemente 'adivinanzas', es decir, posiciones seleccionadas al azar dentro de ese espacio. La asignación de colores a los puntos ocurre en función de su proximidad al centroide más cercano.
Reasignación y actualización: Una vez que los puntos se han asignado a los clústeres, los centroides se recalculan como el promedio de los puntos dentro de cada clúster. Este nuevo cálculo proporciona un mejor posicionamiento del centroide. Por ejemplo, un punto verde puede moverse significativamente mientras que el azul apenas cambia su posición.
Convergencia: A medida que el proceso de agrupamiento avanza, se puede observar que los centroides se estabilizan en sus posiciones óptimas, resultando en clústeres bien definidos. El objetivo final es lograr que los puntos dentro de cada clúster estén tan cerca como sea posible del centroide de ese clúster.

¿Por qué es conveniente el uso de K-means?

El algoritmo de K-means es ampliamente usado debido a sus varias ventajas y aplicaciones, que incluyen:

Facilidad y rapidez: Es fácil de implementar y generalmente converge rápidamente.
Flexibilidad: Funciona bien en grandes conjuntos de datos y es adaptable a diferentes tipos de datos y estructuras.
Impacto en recomendaciones: Es la base de tecnologías actuales en sistemas de recomendación que necesitan identificar patrones y preferencias en grandes volúmenes de datos.

¿Cuál es el límite de K-means?

Aunque K-means es ampliamente valorado, no es un método exento de limitaciones:

Convergencia subóptima: Puede no alcanzar la solución óptima absoluta y podría requerir múltiples ejecuciones para encontrar un posicionamiento más adecuado de los centroides.
Sensibilidad a la elección inicial: La elección inicial de los centroides puede afectar significativamente el resultado final.
Requisito de 'k' fijo: Se necesita especificar de antemano el número de clústeres, lo que puede ser un desafío si no se conoce la estructura de los datos.

El algoritmo de K-means es solo uno de los métodos de agrupación, y existen otros como los polígonos de Voronoi, relacionados con la geometría computacional. Estos pueden proporcionar enfoques alternativos para problemas de agrupación, pero comparten desafíos similares en la detección de centroides.

No dudes en familiarizarte más con estos conceptos, ya que te abren la puerta para una carrera exitosa en el análisis de datos. ¡Continúa aprendiendo y explorando estas fascinantes herramientas!

Roberto Jassiel Montes Gutierrez

student•

El diagrama de voronoi es una representación grafica de subdivisiones de áreas en el plano euclidiano cada área representa un punto en particular. A estas áreas se les llaman región de voronoi y hay varios tipos de algoritmos para construir diagramas de voronoi. Tienen aplicaciones a en áreas como computación grafica, meteorologia, geofísica y epidemiologia.

![](

Comparado al algoritmo k-means que hemos visto también es un algoritmo de agrupamiento solo que en cada grupo se forman polígonos, en la fuente de abajo viene un ejemplo intuitivo de como diferentes restaurantes de una ciudad forman estos polígonos con los clientes lógicamente mas cercanos.

Fuente: https://es.wikipedia.org/wiki/Pol%C3%ADgonos_de_Thiessen

JAVIER SANTIAGO SALGADO

student•

Gracias por tu informacion!!!

Jorge Andres Alvarez Ore

student•

Justamente en meteorología/climatología se usa para "encerrar" el área de influencia de una estación climática. Se extiende los datos de la estación a toda su área de voronoi.

JAVIER SANTIAGO SALGADO

student•

Alguna biblio para profundizar en geometría computacional, me quedo gustando el concepto ;)

M. de Berg, M. van Kreveld, M. Overmars, O. Schwarzkopf: Computational Geometry, Algorithms and Applications (Third Edition). Springer, 2008.

J. O'Rourke: Computational Geometry in C (Second Edition). Cambridge Univ. Press, 1998 (Applets Java).

Andrés David Lizarazo Becerra

student•

Este tema es bastante interesante! dejo un video para los que quieren profundizar: K-means

Camilo Velasquez

student•

Súper interesante. Quiero ver cómo podemos aplicar ahora los vectores en este campo! Acá hay un link para que podamos profundizar un poco más en el algoritmo https://www.unioviedo.es/compnum/laboratorios_py/kmeans/kmeans.html

Anthony Jean Paul Blaz Lazo

student•

Un articulo sobre el diagrama de Voronoi que puede interesarles https://www.abc.es/ciencia/abci-diagrama-voronoi-forma-matematica-dividir-mundo-201704241101_noticia.html?ref=https:%2F%2Fduckduckgo.com%2F

Jhon Freddy Tavera Blandon

student•

El polígono de Voronoi

También conocido como polígono de Thiessen o polígono de Dirichlet, es una subdivisión del plano en regiones que asigna cada punto del plano a la región de influencia más cercana. Estas regiones están determinadas por un conjunto de puntos de origen llamados generadores.

En un polígono de Voronoi, cada punto dentro de una región está más cerca de su generador correspondiente que de cualquier otro generador. Las fronteras entre las regiones son líneas que equidistan entre los puntos generadores más cercanos, creando una partición del plano en celdas poligonales.

Hermes A. J. Cabrera F.

student•

Hola a todos por acá, Buscando información sobre el polígono o ++ diagrama de Voronoi++, se observa que se aplica prácticamente de la misma forma que el visto acá. Les dejo el nombre del PDF donde se explica muy bien, desde la definición y propiedades geométricas, pasando por las aplicaciones y luego información del 1er algoritmo y 2do algoritmo (Fortune): José Luis Bravo trinidad, de la universidad unex Saludos. Nn estos también información https://acolita.com/que-es-un-diagrama-de-voronoi/ https://cedrus-unam.blogspot.com/2019/09/poligonos-de-voronoi.html

Angel Rosendo Mendoza Rodríguez

student•

Mi duda es que estos algoritmos aplican independientemente de la dimensión de los vectores verdad?, es decir como en R2 podemos visualizar se intuye facilmente el onjetivo del algoritmo, sin embargo en dimensiones mayores debemos confiar que elmismo pricnipio aplica

Osvaldo Olguín

student•

¿Por qué se dice que la convergencia es infinita? Me imagino que en algún punto los centroides dejan de moverse, cuando ya no cambie la distribución entre los clúster. Es decir, si ya no cambia la distribución de los puntos, el centroide no se debería mover más. ¿Estoy equivocado?

Hugo Montoya Diaz

student•

Rafael Arteaga

student•

El diagrama de Voronoi de un conjunto de puntos en el plano es la división de dicho plano en regiones, de tal forma, que a cada punto le asigna una región del plano formada por los puntos que son más cercanos a él que a ninguno de los otros objetos. Dicho de otra manera, lo que hace dicho diagrama es dividir el plano en tantas regiones como puntos u tengamos de tal forma que a cada punto le asignemos la región formada por todo lo que está más cerca de él que de ningún otro.