Otras técnicas de agrupamiento

20/24

Lectura

¿Qué son las técnicas de agrupamiento?


El agrupamiento es una técnica de Machine Learning que consiste, en pocas palabras, en dividir cierta población en grupos con la consecuencia de que los datos en un grupo sean más similares entre ellos que comparado con los otros grupos.

Imagina que eres el dueño de una startup que hace e-commerce y quieres tener estrategias de venta para tus clientes. Es casi imposible diseñar una estrategia por cada individuo, pero se puede utilizar el agrupamiento para dividir a los clientes en grupos que tengan similitudes relevantes y así reducir el problema a unas cuantas estrategias.

Tipos de agrupamiento

Existen dos tipos de agrupamiento:

  • Agrupamiento estricto (hard clustering): cada dato pertenece a un grupo u otro, no hay puntos medios.
  • Agrupamiento laxo (soft clustering): en lugar de asignar un dato a un grupo, se asignan probabilidades a cada dato de pertenecer o no a un grupo.

    Un punto muy importante que debes considerar cuando ejecutas técnicas de agrupamiento es que debes definir muy claro a qué te refieres cuando hablas de similitud entre puntos, porque esto puede ayudarte a definir el algoritmo correcto para tus necesidades particulares.

Modelos para determinar similitudes

A grandes rasgos, existen cuatro aproximaciones para definir similitud:

  • Modelos conectivos: asumen que los puntos más similares son los que se encuentran más cercanos en el espacio de búsqueda. Recuerda que este espacio puede ser altamente dimensional cuando tus feature vectors definen muchas características a analizar. Una desventaja de este tipo de modelos es que no escalan para conjuntos de datos grandes, aunque es posible utilizar una muestra y aplicar técnicas de estadística inferencial para obtener resultados.
  • Modelos de centroide: definen similitud en términos de cercanía con el centroide del grupo. Los datos se agrupan al determinar cuál es el centroide más cercano.
  • Modelos de distribución: trata de asignar probabilidades a cada dato para determinar si pertenecen a una distribución específica o no (por
    ejemplo, normal, binomial, Poisson, etc.).
  • Modelos de densidad: analizan la densidad de los datos en diferentes regiones y dividen el conjunto en grupos, luego asignan los puntos de acuerdo a las áreas de densidad en las que se haya dividido el dataset.

    Acuérdate de no casarte con un modelo específico. Muchas de las mejores Ingenieras de Machine Learning y Científicas de Datos utilizan varios modelos con el mismo conjunto de datos para analizar el rendimiento de los diversos algoritmos que tienen a su disposición. Así que experimenta y siempre compara tus resultados antes de tomar una decisión.

Aportes 20

Preguntas 0

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

Selecciona el mejor modelo:
(O varios y luego compara)

Tomado de: https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

Este artículo compara los 4 algoritmos de clustering que se mencionaron teniendo en cuenta los mismos data sets
.
https://medium.com/datos-y-ciencia/aprendizaje-no-supervisado-en-machine-learning-agrupación-bb8f25813edc#:~:text=Para ello%2C los algoritmos de,con los de clústeres diferentes.&text=Modelo de Agrupamiento Gaussiano
.

Aquí tambien se muestra el resultado aplicando varios algoritmos de clustering para ver cual presenta un resultado más coherente dependiendo de la naturaleza del data set de 2 dimensiones.
.

https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html?highlight=clustering distribution
.

Encontré este artículo muy interesante, puede interesar a mucho:
https://www.juanbarrios.com/inteligencia-artificial-y-machine-learning-para-todos/

Técnicas de agrupamiento
El agrupamiento consiste en en dividir la población en grupos dentro de los cuales los datos son más similares entre ellos que dentro de los otros grupos.

Tipos de Agrupamiento

  • Agrupamiento Estricto (Hard Clustering). Cada dato pertenece sólo a un grupo, no hay puntos medios.
  • Agrupamiento Laxo (Soft Clustering). Se asigna a cada dato una probabilidad de pertenencia a un grupo.

Modelos más usados:

  • Modelos conectivos: Asumen que los puntos más similares son los que se encuentran más cercanos. Este modelo es muy poco escalable para grupos grandes pero se puede analizar la data aplicando estadística inferencial.
    -Modelos de centroide: Se definen en términos de cercanía con el centroide del grupo. Los datos se agrupan al determinar el centroide más cercano.
  • Modelos de Distribución: Asignamos probabilidades a cada dato y determinamos su pertenencia a una distribución específica (normal, binomial, de Poisson, etc)
  • Modelos de Densidad: Analizan la densidad de los datos y generan los grupos en los lugares de mayor densidad. Luego asigna los puntos a cada grupo

Un programa que les recomiendo para realizar las comparaciones de los diversos algoritmos es Weka, tiene diversos parámetros a configurar que les puede ayudar a ajustar a sus necesidades.

Recuerda:
No utilices solo un modelo. Puedes usar varios para obtener mejores resultados.

Compara tus tus resultados antes de tomar una decisión, sabio consejo

Que es una etiqueta?

no entendi el modelo de densidad :’(

¿cual seria un ejemplo de modelo de densidad y de distribución? No comprendo bien esos conceptos

Me ha surgido curiosidad sobre la complejidad de los algoritmos de clasificación, investigando un poco big O de k-means varia dependiendo de la opinión y entre mas complejos los algoritmos creería que mas se abre el debate. Gracias pro el articulo

Gracias por profundizar en el tema, buen artículo.

Muy buen artículo!

creo q lo voy a poner en favs jajajaja

Quisiera aterrizar un poco mejor las ideas. En el caso de ecommerce, ¿qué se representa en el plano cartesiano?, precio vs unidades vendidas?, o cuales serian las dos dimensiones a graficar.

Gran artículo, gracias

excelente gracias por la informacion

Muy buen artículo

Gran artículo!

Excelente lectura