Agrupamiento de Datos con Algoritmo Mean Shift

Clase 27 de 37 • Curso Profesional de Machine Learning con scikit-learn

Contenido del curso

Aprender los conceptos clave

1
Curso Completo de Machine Learning con Scikit-learn para Principiantes
07:31 min
2
Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo
04:18 min
3
Problemas de Clasificación, Regresión y Clustering con Scikit-learn
06:13 min
4
Fundamentos Matemáticos para Machine Learning Avanzado
04:52 min

Iniciar un proyecto con sklearn

Optimización de features

Regresiones robustas

Métodos de ensamble aplicados a clasificación

Clustering

Optimización paramétrica

Salida a producción

Tomar examen

Resumen

¿Cómo utilizar MeanShift para agrupar datos de forma eficiente?

Los algoritmos de clustering son una herramienta poderosa en el análisis de datos, permitiendo agrupar elementos con características similares sin requerir una clasificación previa. Uno de los métodos populares para este tipo de problemas es MeanShift, especialmente útil cuando la cantidad de clústeres no es previamente conocida.

¿Cómo se lleva a cabo la importación y preparación de los datos?

Para comenzar con el uso de MeanShift, la importación y la preparación del conjunto de datos es crucial:

Importar librerías necesarias: Se requiere de las librerías pandas para manejar los datos y sklearn.cluster para el algoritmo MeanShift.
```
import pandas as pd
from sklearn.cluster import MeanShift
```
Carga del conjunto de datos: Utiliza pandas para leer datos desde un archivo CSV.
```
data = pd.read_csv('caramelos.csv')
```
Preparación de los datos: Es importante eliminar las columnas categóricas que no pueden ser utilizadas por algoritmos de clustering. Aquí se elimina la columna competitorname.
```
data.drop('competitorname', axis=1, inplace=True)
```

¿Cómo configurar y ejecutar el algoritmo MeanShift?

La configuración del algoritmo MeanShift es sencilla debido a que, en muchos casos, no es necesario especificar detalles técnicos complejos como el ancho de banda:

Configurar el modelo: Se crea una instancia de MeanShift sin parámetros específicos para permitir al algoritmo determinar automáticamente el mejor ancho de banda.
```
model = MeanShift()
```
Entrenar el modelo: Se ajusta el modelo a los datos preparados.
```
model.fit(data)
```
Evaluación inicial de etiquetas: Se imprimen las etiquetas asignadas para entender cómo se han agrupado los datos.
```
labels = model.labels_
print(labels)
```

¿Cómo identificar y analizar los resultados del clustering?

Ahora que el algoritmo ha ejecutado el agrupamiento, es vital evaluar los resultados para integrarlos en futuras aplicaciones o análisis:

Identificación del número de clústeres: Usando la función max() de Python, puede determinarse el número total de clústeres.
```
num_clusters = labels.max() + 1
print(f"Number of clusters: {num_clusters}")
```
Centroide de cada clúster: Los centros de los clústeres proporcionan una idea de la distribución de entradas. Estos datos suelen tener las mismas dimensiones que los datos originales.
```
centers = model.cluster_centers_
print(centers)
```
Integración de resultados en el dataset: Agregar las etiquetas de clústeres al dataset para facilitar su análisis posterior.
```
data['cluster'] = labels
```

¿Qué considerar al comparar MeanShift con otros algoritmos?

Cuando se utilizan múltiples algoritmos de clustering, es normal que los resultados varíen. Aquí algunos aspectos a tener en cuenta:

Diferencias en resultados: Los algoritmos como K-means y MeanShift pueden arrojar diferentes agrupaciones debido a sus enfoques y cálculos matemáticos subyacentes.
Consideraciones computacionales: Uno de los algoritmos puede ser más eficiente en términos de tiempo y recursos que otro.
Relevancia práctica: La utilidad real y la interpretación de los resultados en un contexto empresarial o científico determinarán cuál es el algoritmo más adecuado.

Finalmente, en algunos casos se puede implementar un método semi-automático que combine los mejores aspectos de diferentes enfoques para una mejor toma de decisiones. ¡Atrévete a experimentar con MeanShift y descubre sus aplicaciones prácticas en tus proyectos de análisis de datos!

Comentarios

Daniel Correa

student•

Quiero agregar una manera de ver graficamente estos algoritmos de clustering Adjunto el codigo, explico Utilize PCA para tener mi dataset en 2 dimensiones para que me sea facil graficarlo, y con meanshift.cluster_centers_ me devuelven las coordenadas de un centroide, al final bota el grafico de los puntos y como se dividen NOTA: como baje mi dataset a 2 dimensiones supongo que perdi mucha informacion, por eso esto es mas algo ludico para entender mejor lo que hacemos

pca = PCA(n_components=2)
pca.fit(X)
pca_data = pca.transform(X)
    
meanshift = MeanShift().fit(pca_data)
plt.scatter(pca_data[:, 0], pca_data[:, 1], c=meanshift.predict(pca_data))
plt.scatter(meanshift.cluster_centers_[:, 0], meanshift.cluster_centers_[:, 1], c='black', s=200)
plt.show()

Alfonso Andres Zapata Guzman

student•

Modificacion.

    fig = px.scatter(
        x=pca_data[:, 0],
        y=pca_data[:, 1],
        color=meanshift.predict(pca_data))
    # Aqui anexamos a la misma figura cada trazo

    fig.add_trace(go.Scatter(
        x=meanshift.cluster_centers_[:, 0],
        y=meanshift.cluster_centers_[:, 1],
        mode='markers', marker=dict(size=20,
        color= 'white'), name='Centroides'
    ))

    fig.update_layout(title=f'Visualizacion de centroides sobre PCA de 2 componentes', coloraxis_showscale=False)
    fig.show()

Juan R. Vergara M.

student•

Gran aporte 🗒️

Thomas Gonzalez Rodrigues

student•

como funciona mean-shift

Piensa que cada punto tiene un peso y todo el espacio se curva con ese peso, por lo que lugares con muchos puntos tienen se hunden mas haciendo un hueco, después lanzas un monton de bolitas en lugares aleatorios y en donde se acumulen ahi estarán los clusters.

gift que ilustra el proceso

para entender mas a fondo este video te explica como las bolitas funcionana y este articulo te explica el metodo de clustering

Julián Cárdenas

student•

Excelente!!

John Piza

student•

Si es una cantidad "moderada" de datos para implementar MeanShift, se refiere a que tamaño de la fuente? numero de Filas por número de Columnas, cantidad de registros, tamaño del archivo en Kb, Mb, Gb?

Otra pregunta es, si la restricción para usar es únicamente al tamaño de la fuente de datos ,o deben considerarse más elementos para usarlos?

Miguel Angel Velazquez Romero

student•

Código:

import pandas as pd 

from sklearn.cluster import MeanShift 

if __name__ == "__main__":

   # Cargamos el dataset 
    dataset = pd.read_csv('./data/candy.csv') 
    #print(dataset.head(5))  

    # Vamos a eliminar la columna
    X = dataset.drop('competitorname', axis=1)

    meanshift = MeanShift().fit(X)
    # Aquí el algoritmo nos devolvio 3 clusters, porque le pareció que esa era la cantidad 
    # correcta teniendo en cuenta como se distrubuye la densidad de nuestros datos 
    print(max(meanshift.labels_))
    print("="*64)
    # Imprimamos la ubicación de los centros que puso sobre nuestros datos. Hay que recordar que estos algoritmos 
    # crean un centro y a partir de ahí se ajuztan a todos los datos que lo rodean  
    print(meanshift.cluster_centers_)
    
    # Los arreglos lo integramos a nuestros datasets 
    dataset['meanshift'] = meanshift.labels_  
    print("="*64)
    print(dataset)  
``

Daniel Reyes Barrera

student•

Si ambos modelos tienen K-3 clusters. Entonces podemos comparar sus predicciones

(df['KMeans'] == df['MeanShift']).sum() / df.shape[0]

#output = 0.5058823529411764

Y vemos que solo coinciden con el 50% de los datos

George Wang Lee Zevallos Durand

student•

Recuerda que no hay predicciones porque, al ser un algoritmo de aprendizaje no supervisado, no hay un target.

Jhon Freddy Tavera Blandon

student•

El algoritmo Mean-Shift es un algoritmo de agrupamiento que busca automáticamente el número de clústeres en un conjunto de datos y asigna los puntos de datos a los clústeres en función de la densidad de puntos. El algoritmo funciona moviendo de manera iterativa los centroides de los clústeres hacia las regiones de mayor densidad de puntos hasta que converja a los máximos locales.

Said Jacobo

student•

Hola! En este tipo de casos de aprendizaje no supervisado donde no conocemos la cantidad de grupos que podríamos armar, ¿como podríamos ser capaces de "medir" de alguna manera que algoritmo es mejor, o calcular algún tipo de "error"? ¿Dependerá pura y exclusivamente del problema especifico que estemos tratando, o existe algún tipo de métrica para tener una idea de que tan optimo es cada algoritmo?

Miguel Rodríguez

student•

Hay un método llamado "codo" o elbow, con el que puedes definir el número de clusters optimo para tus modelos.

Alexander Carpio Mamani

student•

en scikit learn, https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation, explican sobre algunas metricas o evaluacion del desempeño de nuestro modelo.

Ricardo Gomez

student•

La clase se centró en la implementación del algoritmo Mean-Shift para clustering con scikit-learn. Se explicó cómo cargar datos, eliminar columnas no entrenables, y configurar el ancho de banda. Mean-Shift identifica automáticamente el número de clusters en los datos, lo que se demostró imprimiendo las etiquetas generadas y los centros de cada cluster. También se discutió cómo validar los resultados y compararlos con otros algoritmos. La importancia de la densidad en la distribución de los datos fue clave para entender su funcionamiento.

Juan Manuel Arango Cuadros

student•

Hola a todos, me ayudarían mucho si me resolvieran esta duda que surgió de esta clase. Al usar Mean-Shift o K-Means puedo tener variables dummy y continuas?. En la clase al parecer la tenemos pero vi un articulo que decía que no se podía. Gracias

Nicolas Cordoba

student•

Otra forma de identificar cuantos clusters creó MeanShift es usando el constructor set()

print(set(meanshift.labels_))

Richard Eduardo Sailema Medina

student•

Para ver las etiquetas: Se tiene que importar la librería de numpy.

np.unique(meanshift.labels_)

[0 1 2]

Gustavo Restrepo

student•

En el modelo Meanshift qué significa ese banswith?

Santiago García Rincón

student•

En el algoritmo de Mean Shift, el parámetro "bandwidth" (ancho de banda en español) controla la distancia máxima permitida entre los puntos en el espacio de características. Define la ventana de búsqueda utilizada para calcular los centroides de los grupos.

El ancho de banda determina la sensibilidad del algoritmo para encontrar los grupos y afecta el tamaño y la forma de los grupos resultantes. Un ancho de banda más grande permitirá que los grupos se extiendan más, lo que puede resultar en grupos más grandes y menos definidos. Por otro lado, un ancho de banda más pequeño hará que los grupos sean más compactos y definidos.

Seleccionar un ancho de banda adecuado es importante para obtener resultados óptimos en el algoritmo de Mean Shift. Si el ancho de banda es demasiado grande, puede haber una fusión excesiva de los grupos, perdiendo detalles y generando conglomerados más grandes. Si el ancho de banda es demasiado pequeño, los grupos pueden ser demasiado fragmentados y algunos puntos pueden quedar sin agrupar.

La elección del valor de ancho de banda depende del conjunto de datos y debe ser ajustada cuidadosamente. No hay un valor óptimo universal, por lo que a menudo se realizan pruebas y se comparan los resultados utilizando diferentes valores de ancho de banda para encontrar el mejor ajuste para un problema específico.

Antonio Demarco Bonino

student•

Me hice un scatterplot para poder ver la relación entre el precio y las preferencias de público. Dejo el código para que puedan jugar con él:

import pandas as pd
from sklearn.cluster import MeanShift
import matplotlib.pyplot as plt
import seaborn as sns

if __name__ == "__main__":
    data = pd.read_csv('./data/candy.csv')
    
    X = data.drop(['competitorname'], axis=1)
    meanshift = MeanShift().fit(X)
    data['group'] = meanshift.predict(X)
    
    plt.figure(figsize=(10,6))
    scatter = sns.scatterplot(x=data['pricepercent'], y=data['winpercent'], hue=data['group'], palette="Set1", s=100)
    plt.title('Relationship between price percentage, public preference, and MeanShift groups')
    plt.xlabel('Price Percentage')
    plt.ylabel('Public Preference Percentage')
    plt.legend(title='Groups (MeanShift)', bbox_to_anchor=(1.05, 1), loc='upper left')
    plt.tight_layout()
    plt.show()

Juan José Mamani Tarqui

student•

Daniel Moreno

student•

Mean Shift es un algoritmo de agrupamiento que no requiere la especificación previa del número de clústeres y puede encontrar automáticamente los centroides de los clústeres en función de la densidad de los datos. Aquí tienes una explicación más detallada:

Funcionamiento:
- Mean Shift es un algoritmo de agrupamiento basado en la densidad que busca los modos locales de densidad de los datos.
- Comienza seleccionando aleatoriamente puntos de datos como centroides iniciales (semillas).
- Luego, para cada punto de semilla, calcula el centro de masa ponderado de los puntos de datos vecinos dentro de un radio especificado (bandwidth) alrededor del punto de semilla.
- Desplaza el centro de masa al nuevo punto calculado y repite el proceso hasta que converja a un punto donde ya no hay cambios significativos.
- Los puntos de datos que convergen a los mismos centroides se asignan al mismo clúster.
Parámetro Bandwidth:
- El parámetro de ancho de banda (bandwidth) determina la influencia de los puntos de datos vecinos en el cálculo del centro de masa.
- Un ancho de banda más pequeño significa que se considerarán menos puntos de datos en el cálculo del centro de masa, lo que puede conducir a clústeres más pequeños y detallados.
- Por el contrario, un ancho de banda más grande agrupará más puntos de datos y puede producir clústeres más grandes y difusos.
Ventajas:
- No requiere la especificación previa del número de clústeres, lo que lo hace adecuado para conjuntos de datos donde el número de clústeres no es conocido de antemano.
- Puede manejar clústeres de cualquier forma y tamaño y es resistente a la inicialización aleatoria, lo que lo hace más robusto que K-Means en algunos casos.
Desventajas:
- Puede ser computacionalmente costoso en conjuntos de datos grandes, ya que calcula la densidad para todos los puntos de datos en cada iteración.
- Sensible al parámetro de ancho de banda, y la selección incorrecta del mismo puede conducir a resultados subóptimos.

En resumen, Mean Shift es una técnica de agrupamiento versátil que puede encontrar automáticamente clústeres de cualquier forma y tamaño en función de la densidad de los datos. Es útil cuando no se conoce el número de clústeres de antemano y se desea una mayor flexibilidad en la forma y el tamaño de los clústeres identificados. Sin embargo, puede ser más lento en conjuntos de datos grandes y sensibles a la selección del parámetro de ancho de banda.

Camilo Vergara

student•

Aquí les dejo un artículo en caso de que quieran profundizar un poco más en el algoritmo

Hugo Montoya Diaz

student•

Gerardo Mayel Fernández Alamilla

student•

Agregué el resultado de los grupos creados en una nueva columna en el data frame original:

    meanshift_group_vector = meanshift.labels_

    dataset['meanshift_groups'] = meanshift_group_vector

Agrupamiento de Datos con Algoritmo Mean Shift

Aprender los conceptos clave

Curso Completo de Machine Learning con Scikit-learn para Principiantes

Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo

Problemas de Clasificación, Regresión y Clustering con Scikit-learn

Fundamentos Matemáticos para Machine Learning Avanzado

Iniciar un proyecto con sklearn

Configuración Profesional de Entorno de Trabajo para Python

Instalación y configuración de librerías para Python

Análisis de Datos para el Bienestar y la Felicidad Humana

Optimización de features

Selección de Variables en Modelos de Aprendizaje Automático

Reducción de Dimensionalidad con Análisis de Componentes Principales

Reducción de Dimensionalidad y Regresión Logística con Python

Clasificación de Enfermedad Cardiaca con PCA y Regresión Logística

Funciones Kernel en la Clasificación de Datos Complejos

Regularización en Modelos de Machine Learning

Implementación de Regularización en Modelos de Regresión Lineal

Análisis de Resultados en Modelos de Regresión Ridge y Lasso

Regularización ElasticNet con Scikit-learn: Conceptos y Aplicación

Regresiones robustas

Identificación de Valores Atípicos en Datos para Modelos Predictivos

Técnicas de Regresión Robusta: RANSAC y Huber en Scikit-Learn

Regresión Lineal y Soporte Vectorial: Manejo de Datos Atípicos

Automatización de Modelos de Predicción en Python

Métodos de ensamble aplicados a clasificación

Métodos de Ensamble: Bagging y Boosting en Machine Learning

Implementación de Bagging Classifier con SAIC en Análisis Cardiaco

Métodos de Ensamble para Mejorar Clasificación en Machine Learning

Implementación de Gradient Boosting para Clasificación de Datos

Clustering

Agrupamiento de Datos en Aprendizaje No Supervisado

Agrupamiento de Caramelos con K-Means y Pandas