No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Resolviendo con hierarchical clustering

22/27
Recursos

Aportes 3

Preguntas 0

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Hay varias razones potenciales por las cuales el puntaje de silueta puede ser peor cuando se usa PCA en su conjunto de datos en comparaci贸n con solo usar datos escalados. Algunas de las posibles razones son:

La estructura de los datos puede no ser adecuada para PCA y puede no estar capturando efectivamente los patrones subyacentes en el conjunto de datos.

PCA es una t茅cnica de reducci贸n de dimensionalidad lineal, por lo que puede no ser capaz de capturar relaciones no lineales entre las variables presentes en los datos.

Es posible que no tenga suficientes muestras de datos para que PCA funcione bien.

Es posible que el n煤mero de componentes principales que se han retenido sea demasiado alto y causando overfitting, lo que podr铆a resultar en un puntaje de silueta m谩s bajo.

Por 煤ltimo, es posible que los datos tengan una distribuci贸n no normal y PCA asume una distribuci贸n normal. En este caso, el uso de t茅cnicas no param茅tricas como MDS o t-SNE pueden ser m谩s adecuadas.

Es importante tener en cuenta que el puntaje de silueta es una medida relativa de c贸mo similar es un objeto a su propio cluster en comparaci贸n con otros clusters, por lo que es importante tener en cuenta que un puntaje de silueta alto no implica que el agrupamiento sea bueno, sino que el agrupamiento no es malo. Siempre es bueno comprobar los resultados con otras m茅tricas de validaci贸n de agrupamiento para obtener una mejor comprensi贸n del desempe帽o del algoritmo de agrupamiento.

En general los resultados hasta aqu铆, con los datos disponibles hacen dudar de dos cosas.

  1. La poca 鈥渟eparabilidad鈥 que pueden tener los datos , al menos con las features actuales. Podriamos pensar en hacer un poco m谩s de data engineering y crear nuevos features.
  2. Las assumptions de los modelos hasta ahora aplicados no tienen mucho sentido para el caso de uso(esfericidad clusers, no captacion de outliers,鈥tc)
    Nota: El caso de uso hace pensar que muy probablemente tenga m谩s sentido el asumir que hay paises 鈥渁t铆picos鈥 respecto a sus variables.

Sobre el PCA, solo recordar que al reducir estamos perdiendo informaci贸n(Inertia) asi sea m铆nima: con una diferencia tan insignificante podr铆a deberse a eso

Creo que se dio un peor resultado con pca ya que al escalar los datos los estamos juntando. Esto resulta en que el algoritmo agrupe mucho mas datos que sin ser escalados estarian separados.
Me gustaria saber cuales son su hipotesis?