No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Resolviendo con hierarchical clustering

22/27
Recursos

Aportes 6

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Hay varias razones potenciales por las cuales el puntaje de silueta puede ser peor cuando se usa PCA en su conjunto de datos en comparación con solo usar datos escalados. Algunas de las posibles razones son:

La estructura de los datos puede no ser adecuada para PCA y puede no estar capturando efectivamente los patrones subyacentes en el conjunto de datos.

PCA es una técnica de reducción de dimensionalidad lineal, por lo que puede no ser capaz de capturar relaciones no lineales entre las variables presentes en los datos.

Es posible que no tenga suficientes muestras de datos para que PCA funcione bien.

Es posible que el número de componentes principales que se han retenido sea demasiado alto y causando overfitting, lo que podría resultar en un puntaje de silueta más bajo.

Por último, es posible que los datos tengan una distribución no normal y PCA asume una distribución normal. En este caso, el uso de técnicas no paramétricas como MDS o t-SNE pueden ser más adecuadas.

Es importante tener en cuenta que el puntaje de silueta es una medida relativa de cómo similar es un objeto a su propio cluster en comparación con otros clusters, por lo que es importante tener en cuenta que un puntaje de silueta alto no implica que el agrupamiento sea bueno, sino que el agrupamiento no es malo. Siempre es bueno comprobar los resultados con otras métricas de validación de agrupamiento para obtener una mejor comprensión del desempeño del algoritmo de agrupamiento.

En general los resultados hasta aquí, con los datos disponibles hacen dudar de dos cosas.

  1. La poca “separabilidad” que pueden tener los datos , al menos con las features actuales. Podriamos pensar en hacer un poco más de data engineering y crear nuevos features.
  2. Las assumptions de los modelos hasta ahora aplicados no tienen mucho sentido para el caso de uso(esfericidad clusers, no captacion de outliers,…etc)
    Nota: El caso de uso hace pensar que muy probablemente tenga más sentido el asumir que hay paises “atípicos” respecto a sus variables.

Sobre el PCA, solo recordar que al reducir estamos perdiendo información(Inertia) asi sea mínima: con una diferencia tan insignificante podría deberse a eso

Desde el 2024 en adelante, aparece un error por que `AgglomerativeClustering` de `sklearn` ya no acepta el argumento `affinity`. En versiones más recientes de `sklearn`, `affinity` ha sido reemplazado por `metric`
Hola chicos, yo usé un componente más que el profe tal que capturaba el 93% de la varianza. Y usando Esta clusterizacion, con n\_clustering=4 obtuve un silouette score de 0.326

Creo que se dio un peor resultado con pca ya que al escalar los datos los estamos juntando. Esto resulta en que el algoritmo agrupe mucho mas datos que sin ser escalados estarian separados.
Me gustaria saber cuales son su hipotesis?

Curiosos los resultados y los comentarios en está clase…