Evaluando resultados de DBSCAN

Clase 18 de 27 • Curso de Clustering con Python y scikit-learn

Contenido del curso

Fundamentos de clustering

K-means

Hierarchical clustering

DBSCAN

Proyecto: resolviendo un problema con clustering

Conclusiones

Tomar examen

Comentarios

johan Stever Rodriguez Molina

student•

Creo que todo bien, sin embargo en el problema de los datos hechos con make_moons, refleja algo que faltó mencionar y es que ciertas combinaciones de (eps,min_samples) hacen que se rompa todo el DBSCAN. Voy a a hacer un tutorial adicional para trabajar en estos temas, por si a alguien le puede aportar

Julián Cárdenas

student•

Epa, sería perfecto!!

Sebastian Marat Urdanegui Bisalaya

student•

El número de clusters es 5 (incluyendo el ruido) y el silhouette score es 0.7859. 📊

Nunca pares de aprender💚

Juan José Mamani Tarqui

student•

Tu tampoco, ggg :)

FELIX DAVID CORDOVA GARCIA

student•

¿Porqué se eligió un eps=0.3 cuando en el heatmap se veía claramente para un min_samples=0.3 el mejor eps era de 0.74999? Yo lo hice con un eps de 0.749 y se obtuvieron mejores resultados en la gráfica final

Alarcon7a

student•

al no varias tanto en ese punto, decidi hacerlo, pero genial que con el valor exacto tuvieras mejores resultados, entendiste la tecnica del heatamp!!!

Fernando Jesús Núñez Valdez

student•

Este Dataset se crea con un random state de 42 y esta muy bien separado y limpio, por eso el score tan alto.

from sklearn.metrics import silhouette_samples, silhouette_score
import matplotlib.cm as cm


# Create a subplot with 1 row and 2 columns
fig, (ax1, ax2) = plt.subplots(1, 2)
fig.set_size_inches(18, 7)

# The 1st subplot is the silhouette plot
# The silhouette coefficient can range from -1, 1 but in this example all
# lie within [-0.1, 1]
ax1.set_xlim([-0.1, 1])

# Initialize the clusterer with n_clusters value and a random generator
# seed of 10 for reproducibility.
clusterer = DBSCAN(eps=0.8, min_samples=4)
cluster_labels = clusterer.fit_predict(X)
n_clusters = len(np.unique(cluster_labels))

# The (n_clusters+1)*10 is for inserting blank space between silhouette
# plots of individual clusters, to demarcate them clearly.
ax1.set_ylim([0, len(X) + (n_clusters + 1) * 10])



# The silhouette_score gives the average value for all the samples.
# This gives a perspective into the density and separation of the formed
# clusters
silhouette_avg = silhouette_score(X, cluster_labels)
print(
 "For n_clusters =",
    n_clusters,
    "The average silhouette_score is :",
    silhouette_avg,
    )

 # Compute the silhouette scores for each sample
sample_silhouette_values = silhouette_samples(X, cluster_labels)

y_lower = 10
for i in range(n_clusters):
        # Aggregate the silhouette scores for samples belonging to
        # cluster i, and sort them
    ith_cluster_silhouette_values = sample_silhouette_values[cluster_labels == i]

    ith_cluster_silhouette_values.sort()

    size_cluster_i = ith_cluster_silhouette_values.shape[0]
    y_upper = y_lower + size_cluster_i

    color = cm.nipy_spectral(float(i) / n_clusters)
    ax1.fill_betweenx(
        np.arange(y_lower, y_upper),
        0,
        ith_cluster_silhouette_values,
        facecolor=color,
        edgecolor=color,
        alpha=0.7,
        )
    # Label the silhouette plots with their cluster numbers at the middle
    ax1.text(-0.05, y_lower + 0.5 * size_cluster_i, str(i))

    # Compute the new y_lower for next plot
    y_lower = y_upper + 10  # 10 for the 0 samples

ax1.set_title("The silhouette plot for the various clusters.")
ax1.set_xlabel("The silhouette coefficient values")
ax1.set_ylabel("Cluster label")

# The vertical line for average silhouette score of all the values
ax1.axvline(x=silhouette_avg, color="red", linestyle="--")
ax1.set_yticks([])  # Clear the yaxis labels / ticks
ax1.set_xticks([-0.1, 0, 0.2, 0.4, 0.6, 0.8, 1])

# 2nd Plot showing the actual clusters formed
colors = cm.nipy_spectral(cluster_labels.astype(float) / n_clusters)
ax2.scatter(
    X[:, 0], X[:, 1], marker=".", s=30, lw=0, alpha=0.7, c=colors, edgecolor="k"
)
    


plt.show()

Miguel Riaño

student•

Buenos días, mi representacion es un poco diferente debido a los datos de make_blobs

Norberto Valverde

student•

En mi caso, de acuerdo al headmap el mejor valor para EPS es 0.64. Con este valor obtengo el siguiente grafico para los valores de silhouette_samples

Erick Jacob Lugo Batalla

student•

En la búsqueda de mejores parámetros, me parece que estos dan mejores resultados:

dbscan_cluster = DBSCAN(eps=0.81, min_samples=4)
y_predict = dbscan_cluster.fit_predict(X)
df_blobs['cluster'] = y_predict

fig = plt.figure(figsize=(8,8))
palette = sns.color_palette("tab10", n_colors=5)
sns.scatterplot(data=df_blobs, x='x1', y='x2',hue='cluster', palette=palette)
plt.plot()
plt.show()

Juan Acevedo

student•

Mario Alexander Vargas Celis

student•

Mario Alexander Vargas Celis

student•

Para evaluar los resultados de DBSCAN, puedes utilizar diversas métricas y visualizaciones. Aquí te explico los enfoques más comunes:

✅ 1. Visualización de los clústeres

La forma más directa de evaluar DBSCAN es visualizar los clústeres:

import matplotlib.pyplot as plt

plt.scatter(X[:, 0], X[:, 1], c=y_dbscan, cmap='plasma') plt.title("Resultados de DBSCAN") plt.xlabel("Componente 1") plt.ylabel("Componente 2") plt.grid(True) plt.show()

Los ruidos serán etiquetados como -1.
Colores diferentes representan diferentes clústeres.

✅ 2. Silhouette Score

Evalúa qué tan bien está cada punto dentro de su clúster:

from sklearn.metrics import silhouette_score

labels = y_dbscan n_clusters = len(set(labels)) - (1 if -1 in labels else 0)

if n_clusters > 1: score = silhouette_score(X, labels) print(f"Silhouette Score: {score:.3f}") else: print("No se pueden calcular métricas: hay menos de 2 clústeres.")

🎯 Interpretación: Cuanto más cercano a 1, mejor. Valores < 0 indican mala asignación.

✅ 3. Número de clústeres y ruido

Puedes revisar cuántos clústeres encontró DBSCAN y cuántos puntos consideró como ruido:

import numpy as np

n_clusters = len(set(labels)) - (1 if -1 in labels else 0) n_noise = list(labels).count(-1)

print(f"Número de clústeres encontrados: {n_clusters}") print(f"Número de puntos de ruido: {n_noise}")

✅ 4. Confusión con etiquetas reales (si existen)

Si tienes etiquetas verdaderas (y_true), puedes usar métricas como Adjusted Rand Index (ARI) o Homogeneity Score:

from sklearn.metrics import adjusted_rand_score, homogeneity_score

print("ARI:", adjusted_rand_score(y_true, y_dbscan)) print("Homogeneidad:", homogeneity_score(y_true, y_dbscan))

✅ 5. Silhouette Visualizer (opcional)

Si tienes instalado yellowbrick, puedes usar un gráfico de silueta:

from yellowbrick.cluster import SilhouetteVisualizer from sklearn.cluster import DBSCAN

visualizer = SilhouetteVisualizer(DBSCAN(eps=0.3, min_samples=5)) visualizer.fit(X) visualizer.show()

Asegúrate de que haya más de un clúster para que esto funcione.

Luis Ortiz

student•

¿Por que epsilon es 0.5?

Abinadi Contreras

student•

Al dia de hoy hay una manera mas sencilla de conseguir esa silueta para este modelo?

Jorber Andrés Pardo Franco

student•

Porque no se tomó 0.62? No te dría sentido haber echo el proceso anterior si se va tomar el de defecto.

Luis Irigoyen

student•

eps=0.6, min_samples=8

Así me quedó a mí :)

Julián Cárdenas

student•

Yo obtuve el siguiente resultado:

José Pablo Cabrera Romo

student•

Mi grafica de silueta con 5 Clusters y un silhouette score de 0.8.

NICOLAS ZAPATA RAMIREZ

student•

Mi aporte:

Rafael Rivera

student•

Genial este curso, aclara muchísimas dudas

David Cardenas

student•

Alfonso Andres Zapata Guzman

student•

Quedo un error en el codigo, que no nos permite visualizar la silhouette de los outliers y es el siguiente:

ith_cluster_silhouette_values = sample_silhouette_values[cluster_labels == i]

Recordemos que nuestro cluster_labels tiene como parametros:

[-1  0  1  2]

# verificamos con:
print(np.unique(cluster_labels))

Siendo -1 el de los outliers, pero al hacer:

n_clusters = len(np.unique(cluster_labels))

# esto nos genera como salida de n_clusters=4 ya que hay cuatro valores en la lista y eso genera len()

# pero al hacer 

for i in range(n_clusters)

nos genera un rango con 4 valores= [0,1,2,3]

# y esos son los valores pasados, el 3 generando nada.

verifique con:

 print(np.unique(cluster_labels))

Y solucione con:

ith_cluster_silhouette_values = sample_silhouette_values[cluster_labels == i - 1]

Alfonso Andres Zapata Guzman

student•

Aclaracion:

cluster_labels posee desde -1,0,1,2,... hasta la cantidad de cluster de su ejercicio o caso particular, mi caso fue [-1, 0, 1, 2] que es el expresado.

from sklearn.metrics import silhouette_samples, silhouette_score
import matplotlib.cm as cm


# Create a subplot with 1 row and 2 columns
fig, (ax1, ax2) = plt.subplots(1, 2)
fig.set_size_inches(18, 7)

# The 1st subplot is the silhouette plot
# The silhouette coefficient can range from -1, 1 but in this example all
# lie within [-0.1, 1]
ax1.set_xlim([-0.1, 1])

# Initialize the clusterer with n_clusters value and a random generator
# seed of 10 for reproducibility.
clusterer = DBSCAN(eps=0.8, min_samples=4)
cluster_labels = clusterer.fit_predict(X)
n_clusters = len(np.unique(cluster_labels))

# The (n_clusters+1)*10 is for inserting blank space between silhouette
# plots of individual clusters, to demarcate them clearly.
ax1.set_ylim([0, len(X) + (n_clusters + 1) * 10])



# The silhouette_score gives the average value for all the samples.
# This gives a perspective into the density and separation of the formed
# clusters
silhouette_avg = silhouette_score(X, cluster_labels)
print(
 "For n_clusters =",
    n_clusters,
    "The average silhouette_score is :",
    silhouette_avg,
    )

 # Compute the silhouette scores for each sample
sample_silhouette_values = silhouette_samples(X, cluster_labels)

y_lower = 10
for i in range(n_clusters):
        # Aggregate the silhouette scores for samples belonging to
        # cluster i, and sort them
    ith_cluster_silhouette_values = sample_silhouette_values[cluster_labels == i]

    ith_cluster_silhouette_values.sort()

    size_cluster_i = ith_cluster_silhouette_values.shape[0]
    y_upper = y_lower + size_cluster_i

    color = cm.nipy_spectral(float(i) / n_clusters)
    ax1.fill_betweenx(
        np.arange(y_lower, y_upper),
        0,
        ith_cluster_silhouette_values,
        facecolor=color,
        edgecolor=color,
        alpha=0.7,
        )
    # Label the silhouette plots with their cluster numbers at the middle
    ax1.text(-0.05, y_lower + 0.5 * size_cluster_i, str(i))

    # Compute the new y_lower for next plot
    y_lower = y_upper + 10  # 10 for the 0 samples

ax1.set_title("The silhouette plot for the various clusters.")
ax1.set_xlabel("The silhouette coefficient values")
ax1.set_ylabel("Cluster label")

# The vertical line for average silhouette score of all the values
ax1.axvline(x=silhouette_avg, color="red", linestyle="--")
ax1.set_yticks([])  # Clear the yaxis labels / ticks
ax1.set_xticks([-0.1, 0, 0.2, 0.4, 0.6, 0.8, 1])

# 2nd Plot showing the actual clusters formed
colors = cm.nipy_spectral(cluster_labels.astype(float) / n_clusters)
ax2.scatter(
    X[:, 0], X[:, 1], marker=".", s=30, lw=0, alpha=0.7, c=colors, edgecolor="k"
)
    


plt.show()

n_clusters = len(np.unique(cluster_labels))

# esto nos genera como salida de n_clusters=4 ya que hay cuatro valores en la lista y eso genera len()

# pero al hacer 

for i in range(n_clusters)

nos genera un rango con 4 valores= [0,1,2,3]

# y esos son los valores pasados, el 3 generando nada.

Evaluando resultados de DBSCAN

Fundamentos de clustering

¿Qué es el clustering en machine learning?

Tu primer clustering con scikit-learn

¿Cuándo usar clustering?

¿Cómo evaluar modelos de clustering?

K-means

¿Qué es el algoritmo de K-means y cómo funciona?

¿Cuándo usar K-means?

Implementando K-means

Encontrando K

Evaluando resultados de K-means

Hierarchical clustering

¿Qué es hierarchical clustering y cómo funciona?

¿Cuándo usar hierarchical clustering?

Implementando hierarchical clustering

Evaluando resultados de hierarchical clustering

DBSCAN

¿Qué es DBSCAN y cómo funciona?

¿Cuándo usar DBSCAN?

Implementando DBSCAN

Encontrar híper-parámetros