No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

¿Cuándo usar hierarchical clustering?

11/27
Recursos

Aportes 2

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Ventajas

  • No necesitas conocer K
  • Simple
  • Resultado interpretable
  • Única ejecución
  • Ayuda visual con dendograma

Desventajas

  • Mal performance en datasets largos
  • Sin objetivo matemático
  • Los outliers le afectan
  • Mayor necesidad de cómputo

¿Cuándo usarlo?

  • Comprender resultados visualmente
  • Dataset es pequeño
  • Desconozco el número de clusters
  • Resultado rápido

Os dejo este algoritmo que no requiere indicarle el # de clusters.
El algoritmo MeanShift es un algoritmo de aprendizaje automático no supervisado. Como algoritmo de agrupamiento, su objetivo principal es encontrar grupos o clusters en un conjunto de datos sin requerir etiquetas de categoría previamente definidas. El algoritmo MeanShift busca automáticamente las regiones de alta densidad de puntos en el espacio de características y agrupa los puntos cercanos en clusters.
Código:

import pandas as pd

from sklearn.cluster import MeanShift

if name == “main”:

dataset = pd.read_csv("./data/iris.csv")
print(dataset.head(5))


X = dataset.drop(['Id', 'Species'], axis=1)
Y = dataset

#implementacion_meanshift
meanshift = MeanShift().fit(X)
print(max(meanshift.labels_))
print("="*64)
print(meanshift.cluster_centers_)

#Asignamos a cada registro el grupo al que pertenece
dataset['meanshift'] = meanshift.labels_
dataset.to_csv('iris1.csv',index=False)
print("="*64)
print(dataset.head())