Otras t茅cnicas de agrupamiento

20/24

Lectura

驴Qu茅 son las t茅cnicas de agrupamiento?


El agrupamiento es una t茅cnica de Machine Learning que consiste, en pocas palabras, en dividir cierta poblaci贸n en grupos con la consecuencia de que los datos en un grupo sean m谩s similares entre ellos que comparado con los otros grupos.

Imagina que eres el due帽o de una startup que hace e-commerce y quieres tener estrategias de venta para tus clientes. Es casi imposible dise帽ar una estrategia por cada individuo, pero se puede utilizar el agrupamiento para dividir a los clientes en grupos que tengan similitudes relevantes y as铆 reducir el problema a unas cuantas estrategias.

Tipos de agrupamiento

Existen dos tipos de agrupamiento:

  • Agrupamiento estricto (hard clustering): cada dato pertenece a un grupo u otro, no hay puntos medios.
  • Agrupamiento laxo (soft clustering): en lugar de asignar un dato a un grupo, se asignan probabilidades a cada dato de pertenecer o no a un grupo.

    Un punto muy importante que debes considerar cuando ejecutas t茅cnicas de agrupamiento es que debes definir muy claro a qu茅 te refieres cuando hablas de similitud entre puntos, porque esto puede ayudarte a definir el algoritmo correcto para tus necesidades particulares.

Modelos para determinar similitudes

A grandes rasgos, existen cuatro aproximaciones para definir similitud:

  • Modelos conectivos: asumen que los puntos m谩s similares son los que se encuentran m谩s cercanos en el espacio de b煤squeda. Recuerda que este espacio puede ser altamente dimensional cuando tus feature vectors definen muchas caracter铆sticas a analizar. Una desventaja de este tipo de modelos es que no escalan para conjuntos de datos grandes, aunque es posible utilizar una muestra y aplicar t茅cnicas de estad铆stica inferencial para obtener resultados.
  • Modelos de centroide: definen similitud en t茅rminos de cercan铆a con el centroide del grupo. Los datos se agrupan al determinar cu谩l es el centroide m谩s cercano.
  • Modelos de distribuci贸n: trata de asignar probabilidades a cada dato para determinar si pertenecen a una distribuci贸n espec铆fica o no (por
    ejemplo, normal, binomial, Poisson, etc.).
  • Modelos de densidad: analizan la densidad de los datos en diferentes regiones y dividen el conjunto en grupos, luego asignan los puntos de acuerdo a las 谩reas de densidad en las que se haya dividido el dataset.

    Acu茅rdate de no casarte con un modelo espec铆fico. Muchas de las mejores Ingenieras de Machine Learning y Cient铆ficas de Datos utilizan varios modelos con el mismo conjunto de datos para analizar el rendimiento de los diversos algoritmos que tienen a su disposici贸n. As铆 que experimenta y siempre compara tus resultados antes de tomar una decisi贸n.

Aportes 20

Preguntas 0

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Reg铆strate o inicia sesi贸n para participar.

Selecciona el mejor modelo:
(O varios y luego compara)

Tomado de: https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

Este art铆culo compara los 4 algoritmos de clustering que se mencionaron teniendo en cuenta los mismos data sets
.
https://medium.com/datos-y-ciencia/aprendizaje-no-supervisado-en-machine-learning-agrupaci贸n-bb8f25813edc#:~:text=Para ello%2C los algoritmos de,con los de cl煤steres diferentes.&text=Modelo de Agrupamiento Gaussiano
.

Aqu铆 tambien se muestra el resultado aplicando varios algoritmos de clustering para ver cual presenta un resultado m谩s coherente dependiendo de la naturaleza del data set de 2 dimensiones.
.

https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html?highlight=clustering distribution
.

Encontr茅 este art铆culo muy interesante, puede interesar a mucho:
https://www.juanbarrios.com/inteligencia-artificial-y-machine-learning-para-todos/

T茅cnicas de agrupamiento
El agrupamiento consiste en en dividir la poblaci贸n en grupos dentro de los cuales los datos son m谩s similares entre ellos que dentro de los otros grupos.

Tipos de Agrupamiento

  • Agrupamiento Estricto (Hard Clustering). Cada dato pertenece s贸lo a un grupo, no hay puntos medios.
  • Agrupamiento Laxo (Soft Clustering). Se asigna a cada dato una probabilidad de pertenencia a un grupo.

Modelos m谩s usados:

  • Modelos conectivos: Asumen que los puntos m谩s similares son los que se encuentran m谩s cercanos. Este modelo es muy poco escalable para grupos grandes pero se puede analizar la data aplicando estad铆stica inferencial.
    -Modelos de centroide: Se definen en t茅rminos de cercan铆a con el centroide del grupo. Los datos se agrupan al determinar el centroide m谩s cercano.
  • Modelos de Distribuci贸n: Asignamos probabilidades a cada dato y determinamos su pertenencia a una distribuci贸n espec铆fica (normal, binomial, de Poisson, etc)
  • Modelos de Densidad: Analizan la densidad de los datos y generan los grupos en los lugares de mayor densidad. Luego asigna los puntos a cada grupo

Un programa que les recomiendo para realizar las comparaciones de los diversos algoritmos es Weka, tiene diversos par谩metros a configurar que les puede ayudar a ajustar a sus necesidades.

Recuerda:
No utilices solo un modelo. Puedes usar varios para obtener mejores resultados.

Compara tus tus resultados antes de tomar una decisi贸n, sabio consejo

Que es una etiqueta?

no entendi el modelo de densidad :鈥(

驴cual seria un ejemplo de modelo de densidad y de distribuci贸n? No comprendo bien esos conceptos

Me ha surgido curiosidad sobre la complejidad de los algoritmos de clasificaci贸n, investigando un poco big O de k-means varia dependiendo de la opini贸n y entre mas complejos los algoritmos creer铆a que mas se abre el debate. Gracias pro el articulo

Gracias por profundizar en el tema, buen art铆culo.

Muy buen art铆culo!

creo q lo voy a poner en favs jajajaja

Quisiera aterrizar un poco mejor las ideas. En el caso de ecommerce, 驴qu茅 se representa en el plano cartesiano?, precio vs unidades vendidas?, o cuales serian las dos dimensiones a graficar.

Gran art铆culo, gracias

excelente gracias por la informacion

Muy buen art铆culo

Gran art铆culo!

Excelente lectura