Aprendizaje No Supervisado: Clustering con K-means

Clase 10 de 16Curso de Introducción a Machine Learning

Resumen

¿Qué es K-means en el aprendizaje no supervisado?

El aprendizaje no supervisado es una fascinante rama de la inteligencia artificial enfocada en encontrar estructuras ocultas en los datos sin la necesidad de etiquetarlos previamente. Un ejemplo destacado dentro de este enfoque es el algoritmo K-means, utilizado con frecuencia en tareas de agrupamiento. ¿Por qué? Está diseñado para identificar y asignar puntos de datos a grupos o "clusters", permitiendo una análisis de patrones de manera efectiva.

¿Cómo funciona K-means?

El corazón del K-means yace en el concepto de "centroide", que actúa como líder o representante de un cluster particular. Estos centroides pueden colocarse inicialmente al azar en el espacio de datos, pero el proceso luego se encarga de ajustarlos para representar mejor a los datos.

Los pasos generales del algoritmo son:

  1. Inicialización aleatoria: Se eligen posiciones al azar para los centroides.
  2. Asignación de pertenencia: Cada punto de datos se asocia al centroide más cercano, formando así un cluster.
  3. Actualización de centroides: Los centroides se reubican calculando la media de los puntos dentro de cada cluster.
  4. Repetición de los pasos: Se repiten los pasos 2 y 3 hasta que los centroides estabilicen su posición o las asignaciones de clusters no cambien más.

¿Cuáles son los parámetros clave en K-means?

El parámetro más crítico en K-means es el valor "K", que representa el número de clusters deseados. Al variar "K", se pueden obtener agrupamientos con diferentes formas y estructuras, lo que hace fundamental elegir un valor adecuado.

Ejemplo práctico y visualización

Imaginemos ejecutar K-means con diferentes valores de "K" para un mismo conjunto de datos. Al aumentar "K" desde 2 hasta 4, se observa cómo las agrupaciones cambian tanto en forma como en número de puntos por cada cluster. Para refinar este proceso, se utilizan métricas de rendimiento que ayudan a determinar si el número de "K" es ideal para un modelo específico.

¿Cuál es la función de coste en K-means?

El objetivo principal de K-means es optimizar la posición de los centroides de manera que los puntos de datos estén lo más cerca posible a su centroides asignado. En otras palabras, minimiza la suma de las distancias al cuadrado desde cada punto hasta su centroide correspondiente.

Este proceso garantiza que los grupos de datos resultantes sean lo más compactos y diferenciados posibles.

¿Cómo se actualizan los centroides?

Regla de actualización: Los centroides se recalculan basándose en las medias de los puntos del cluster. Este nuevo cálculo redefine la posición de los centroides para reflejar mejor su cluster. El ciclo de recalculación continúa hasta que:

  • La posición de los centroides cambia de manera insignificante,
  • O no hay cambios en las asignaciones de los puntos a los clusters.

¿Cómo determinar el valor adecuado de "K"?

Seleccionar el "K" correcto puede ser desafiante pero crucial para un modelo exitoso. Algunas técnicas comunes incluyen:

  • Inercia: Evalúa cuán agrupados están los puntos a su centroide; se busca que este valor sea lo más bajo posible.
  • Puntuación de silueta: Mide la separación entre clusters; un valor cercano a uno indica una buena separación.
  • Elbow plot (gráfico de codo): Traza la inercia en función de "K". La curva resultante ayudará a identificar el "K" óptimo, donde añadir más clusters no mejora significativamente la agrupación.

Exploración mediante el conjunto de datos Iris

Una manera práctica y entretenida de asimilar estos conceptos es probando K-means con el conjunto de datos Iris, famoso en el mundo del machine learning. Contar con diferentes características de las flores permite no solo agruparlas efectivamente, sino experimentar con distintas configuraciones del algoritmo.

Los datos de Iris se utilizan para predecir la categorización basada en características como el ancho y largo de los sépalos y pétalos.


Estas características convierten a K-means en una herramienta poderosa para estructurar y entender datos sin etiquetar. Su aplicación en diversas áreas del análisis de datos lo hace esencial para los científicos de datos y analistas. Si te animas, te invito a experimentar con tus propios conjuntos de datos y explorar el mundo visual y dinámico de K-means.