¿Qué es DBSCAN y cómo funciona?

Clase 14 de 27 • Curso de Clustering con Python y scikit-learn

Contenido del curso

Fundamentos de clustering

K-means

Hierarchical clustering

DBSCAN

Proyecto: resolviendo un problema con clustering

Conclusiones

Tomar examen

Mario Alexander Vargas Celis

student•

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) es un algoritmo de clustering basado en densidad. A diferencia de K-means o el clustering jerárquico, no necesitas especificar el número de clústeres de antemano, y es muy eficaz para encontrar clústeres de forma arbitraria y detectar ruido (outliers).

🔧 ¿Cómo funciona DBSCAN?

Se basa en dos parámetros principales:

ε (epsilon): el radio para considerar vecinos cercanos.
minPts: el número mínimo de puntos para formar un clúster denso.

🧱 Clasificación de puntos

DBSCAN clasifica los puntos en tres tipos:

Punto núcleo: tiene al menos minPts vecinos dentro de un radio ε.
Punto frontera: está dentro del radio ε de un punto núcleo, pero no tiene suficientes vecinos para ser núcleo.
Ruido (outlier): no es núcleo ni frontera.

🔄 Algoritmo paso a paso:

Elige un punto no visitado.
Si tiene suficientes vecinos dentro de ε, crea un nuevo clúster.
Expande el clúster agregando todos los puntos densamente conectados.
Si no tiene suficientes vecinos, márcalo como ruido.
Repite hasta visitar todos los puntos.

🟢 Ventajas de DBSCAN

No necesita saber el número de clústeres.
Puede detectar formas complejas y outliers.
Robusto al ruido.

🔴 Desventajas

Difícil de elegir los parámetros óptimos ε y minPts.
No funciona bien si los clústeres tienen densidades muy diferentes.
Menos eficiente en conjuntos de datos muy grandes o de alta dimensión.

📌 Ejemplo visual

Supón un conjunto de datos con dos clústeres curvados y algo de ruido. K-means probablemente divida mal los clústeres porque supone formas circulares. DBSCAN, en cambio, los detecta correctamente y marca el ruido.

¿Qué es DBSCAN y cómo funciona?

Fundamentos de clustering

¿Qué es el clustering en machine learning?

Tu primer clustering con scikit-learn

¿Cuándo usar clustering?

¿Cómo evaluar modelos de clustering?

K-means

¿Qué es el algoritmo de K-means y cómo funciona?

¿Cuándo usar K-means?

Implementando K-means

Encontrando K

Evaluando resultados de K-means

Hierarchical clustering

¿Qué es hierarchical clustering y cómo funciona?

¿Cuándo usar hierarchical clustering?

Implementando hierarchical clustering

Evaluando resultados de hierarchical clustering

DBSCAN