<u>DBSCAN</u> (Density-Based Spatial Clustering of Applications with Noise) es un algoritmo de clustering que agrupa puntos de datos basándose en su densidad en el espacio. A diferencia de algoritmos como K-Means, DBSCAN no requiere que especifiques el número de clústeres de antemano y puede identificar clústeres de forma arbitraria.
El funcionamiento básico de DBSCAN se basa en dos conceptos fundamentales: densidad y conectividad.
- Densidad:
- Cada punto en el conjunto de datos se clasifica como un punto central, un punto de borde o un punto de ruido según la densidad de los puntos en su vecindario.
- Un punto se considera un punto central si tiene al menos un número mínimo de puntos (MinPts) dentro de su vecindario especificado por un radio epsilon (ε).
- Conectividad:
- Dos puntos son considerados conectados si hay una serie de puntos directos o "en cadena" que pueden ser alcanzados desde uno al otro, cada uno siendo un punto central.
En base a estos conceptos, DBSCAN clasifica los puntos en clústeres de la siguiente manera:
- Un punto central con sus vecinos forma un clúster.
- Un punto de borde está en el mismo clúster que su punto central asociado.
- Los puntos de ruido no están asignados a ningún clúster.
El algoritmo procede explorando los datos, clasificando puntos como centrales, de borde o de ruido. Los puntos de borde son parte del clúster de su punto central asociado y los puntos centrales están conectados formando clústeres. Este enfoque permite que los clústeres tengan formas arbitrarias y se adapten a diferentes densidades en el espacio.
DBSCAN es útil para identificar clústeres de forma irregular y es robusto frente a ruido y valores atípicos. Sin embargo, la elección de los parámetros como MinPts y ε puede afectar significativamente los resultados del algoritmo.