Programación del Algoritmo K-means en Python

Clase 28 de 29 • Curso de Introducción al Álgebra Lineal: Vectores

Resumen

¿Cómo se implementa el algoritmo K-means en Python?

Si te interesa el clustering en la ciencia de datos, entender e implementar el algoritmo K-means es vital. Esta técnica no supervisada de machine learning ayuda a agrupar nuestros datos en base a características compartidas. A continuación, verás cómo implementar K-means en Python gracias a un ejemplo práctico, paso a paso.

¿Cómo se asignan los puntos a los clústeres?

El primer paso en K-means es la asignación de cada punto de datos al clúster más cercano:

def group_assignment(data, centroids):
    assignments = []
    for point in data:
        distances = [np.linalg.norm(point - centroid) for centroid in centroids]
        assignments.append(np.argmin(distances))
    return assignments

Entrada: Lista de puntos de datos y centroides iniciales.
Salida: Cada punto del dataset es asignado al clúster correspondiente.

¿Cómo se actualizan los centroides?

Luego, se ajustan los centroides según el promedio de los puntos asignados a cada clúster:

def update_centroids(data, assignments, num_centroids):
    new_centroids = []
    for i in range(num_centroids):
        assigned_points = [data[j] for j in range(len(data)) if assignments[j] == i]
        new_centroids.append(np.mean(assigned_points, axis=0))
    return new_centroids

Entrada: Datos originales, clusterización actual y número de centroides.
Proceso: Calcula el promedio de puntos asignados a cada clúster para encontrar nuevos centroides.

¿Cómo se mide el desempeño del clúster?

La función objetivo del algoritmo mide cuán bien ajustados están los clústeres:

def clustering_objective(data, assignments, centroids):
    total_distance = 0
    for i, point in enumerate(data):
        centroid_index = assignments[i]
        total_distance += np.linalg.norm(point - centroids[centroid_index])**2
    return total_distance

Aquí se suman las distancias entre cada punto y su centroide asignado, permitiendo evaluar la calidad de la clusterización.

¿Cómo se ejecuta el algoritmo completo?

El ciclo de ejecución del algoritmo hasta la convergencia involucra la reasignación de puntos y la actualización de centroides:

def kmeans(data, num_centroids, tol=1e-6, max_iterations=300):
    centroids = data[np.random.choice(len(data), num_centroids, replace=False)]
    for i in range(max_iterations):
        assignments = group_assignment(data, centroids)
        new_centroids = update_centroids(data, assignments, num_centroids)
        if np.all(np.abs(new_centroids - centroids) < tol):
            break
        centroids = new_centroids
    return centroids, assignments

Iteraciones: Se controla por un límite de iteraciones o una tolerancia mínima de movimiento de los centroides.
Objetivo: Converger a un estado estable donde los centroides ya no se mueven significativamente.

Estos pasos junto a la capacidad de analizar la evolución del objetivo de clusterización te ayudarán a mejorar tu modelo.

¿Cuál es el reto del usuario?

El desafío final es aplicar estos conocimientos para identificar y clusterizar un conjunto complejo de datos. Utiliza el dataset MINST de números escritos a mano para organizar sus vectores. Si ejecutas correctamente el algoritmo, tus centroides coincidirán con los números del 0 al 9.

Te alentamos a que pruebes este reto, el cual consolidará tu comprensión del algoritmo K-means y mejorará tus habilidades en machine learning. ¡Esperamos tus resultados!

César Isaac González Naranjo

student•

No creo poder hacer este código yo solo en este momento :( Alguien más ?

Alejandro Sebastian Delgado Farias

student•

Rubén Cuello

student•

no te preocupes que el profe tampoco :smi

Jerry Aldair Portal Rivera

student•

Esta es la forma en la que use el array A[1] para poder diferenciar los grupos que se forman:

# Guardo en las listas G_1, G_2 y G_3 la posicion en la que estan los valores 1,2 o 3 de mi array A[1]
G_1 = []
G_2 = []
G_3 = []
for i in range(len(A[1])):
    if A[1][i] == 1:
        G_1.append(i)
    elif A[1][i] == 2:
        G_2.append(i)
    elif A[1][i] == 3:
        G_3.append(i)
        
# Separar los datos para poder graficarlos
X_1 = [X[:,0][G_1[i]] for i in range(len(G_1))]
Y_1 = [X[:,1][G_1[i]] for i in range(len(G_1))]

X_2 = [X[:,0][G_2[i]] for i in range(len(G_2))]
Y_2 = [X[:,1][G_2[i]] for i in range(len(G_2))]

X_3 = [X[:,0][G_3[i]] for i in range(len(G_3))]
Y_3 = [X[:,1][G_3[i]] for i in range(len(G_3))]

Para graficarlo:

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=100)

ax.scatter( X_1, Y_1, color='red', label='Grupo 1')
ax.scatter( X_2, Y_2, color='blue', label='Grupo 2')
ax.scatter( X_3, Y_3, color='black', label='Grupo 3')
ax.set_xlim(-1.5,2.5)
ax.set_ylim(-2,2)
plt.legend()
plt.show()

![](

Robin Angel Romero

student•

en la parte donde separas los datos:

X_1 = [X[:,0][G_1[i]] for i in range(len(G_1))]
Y_1 = [X[:,1][G_1[i]] for i in range(len(G_1))]

que significa cuando escribes X[:,0] y X[:,1]?

Jerry Aldair Portal Rivera

student•

X[:,0] seria la posicion en el eje "x" y X[:,1] la posicion en el eje "y" de los datos en general(sin distinguir cuales pertenecen a que grupo).

Ya que en G_1, G_2, G_3 guarda las posiciones en donde estan los datos con valor 1, 2 o 3.

Al usar:

X_1 = [X[:,0][G_1[i]] for i in range(len(G_1))]

separo los valores de mi eje x (X[:,0]) contal la posicion que tengo guardada en G_1 para poder separarlos en cada uno de los grupos(en este caso para el grupo 1).

Roberto Jassiel Montes Gutierrez

student•

import pandas as pd
import matplotlib.pyplot as plt

clusters = list(zip(X,A[1]))

df = pd.DataFrame(clusters,columns=["Vectores","k"])
k = df.groupby("k")
k1 = k.get_group(1).iloc[:,0]
k2 = k.get_group(2).iloc[:,0]
k3 = k.get_group(3).iloc[:,0]

grupo1 = np.array([k1]).astype(float).reshape(101,2)
grupo2 = np.array([k2]).astype(float).reshape(99,2)
grupo3 = np.array([k3]).astype(float).reshape(100,2)

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.scatter( grupo1[:,0],grupo1[:,1], color='red',label='Grupo1')
ax.scatter( grupo2[:,0],grupo2[:,1], color="green", label = 'Grupo2')
ax.scatter( grupo3[:,0],grupo3[:,1], color="black", label = ' Grupo3')
ax.set_xlim(-1.5,2.5)
ax.set_ylim(-2,2)
plt.legend()
plt.show()

A mi al correr de nuevo el algoritmo me dio esta distribucion de puntos:

![](

Ulises Rayon

teacher•

Lo que pasa es que los puntos son generados de manera aleatoria entonces no necesariamente vamos a tener los mismos puntos pero sí están distribuidos al rededor de los mismos puntos. El generador de los datos es:

X = np.concatenate([[0.3*np.random.randn(2) for i in range(100)],\
                    [[1,1] + 0.3*np.random.randn(2) for i in range(100)], \
                    [[1,-1]+ 0.3* np.random.randn(2) for i in range(100)]])```

Y en partes [[0.3*np.random.randn(2) for i in range(100)] genera 100 puntos distribuidos al redor del cero y dentro 0.3*np.random.randn(2) genera dos puntos aleatorios entre -1 y 1 y escalados por 0.3. Opera de misma forma [[1,1] + 0.3*np.random.randn(2) for i in range(100)] genera 100 puntos pero ahora al rededor del (1,1), fíjate que [1,1] + 0.3*np.random.randn(2) es una suma de vectores y como 0.3*np.random.randn(2) a lo más es 0.3 entonces lo más lejos que puede estar uno de esos vectores es +/-1.3 en cualquiera de los ejes.

Espero te sirva :)

Bernardo Tamayo

student•

Me gusta como usas pandas para la data final, solo me causa duda que cuando haces el reshape de los grupos, encuentro que pusiste las dimensiones exactas.

Mauro Cortes

student•

Hola, no entendí muy bien que se debe hacer para clisterizar los números del 1 al 9, si alguien lo entendió me puede ayudar?... porfavor ;(

Christian Molina Vázquez

student•

Aqui la solución para el dataset fetch_openml Me base en el código del google colab, solo le cambie me pequeñas cosas.

Me tardó bastante en procesar, y pense que no me cargaría, asi que lo deje un largo tiempo, despues de 30 iteracioes este es mi resultado.

from sklearn.datasets import fetch_openml
import random

X, y = fetch_openml('mnist_784', version=1, return_X_y=True)
import itertools
a = list(itertools.product(range(3),range(3)))
X_array = np.array(X)
X_array.shape
A = Kmeans_alg(X_array,random.choices(X_array,k=9))
fig, ax = plt.subplots(3,3,figsize=(7,7),dpi=120)
for i,j in zip(a,A[0]):
        ax[i[0]][i[1]].imshow(j.reshape(28,28))
plt.show()

Christian Molina Vázquez

student•

Para gráficar los grupos, les recomiendo usar pandas y la librería seaborns.

import pandas as pd 
import seaborn as sns

gruping = A[1].reshape(-1,1)
arr = np.concatenate((X, gruping),axis=1)

df = pd.DataFrame(arr,columns=['x', 'y', 'group'])

fig,ax= plt.subplots(1,1,figsize=(7,7),dpi=300)
sns.scatterplot(x='x',y='y',hue='group',data=df, palette='deep')
for i in A[0]:
    ax.scatter(i[0],i[1],c='black',linewidths=3)
plt.show()

Heynar Soto Holguin

student•

no se soy soy el único, pero hasta la fecha de hoy ya no funciona el código me dice que means_alg no es definida

Fernando Camacho

student•

La verdad no se si dejarlo como aporte o como pregunta porque no se el fetch_openml me regreso un DataFrame en lugar de un arreglo de Numpy, además yo pensaba que así como trabajaba con Numpy lo podía hacer con Pandas pero no me dejo. Tuve que revisar el tipo de dato que me regresaba para darme cuenta de eso, para poder cambiar de Pandas a Numpy lo que hice fue:

X = np.array(X)

La verdad es algo simple pero me tarde bastante para darme cuenta jajajaja. Aun así pude obtener los resultados aunque tardo más de 7 minutos en obtener los centroides.

En el caso de los colores fue sencillo porque lo primero que hice fue hacer un arreglo booleano para cada grupo de la siguiente manera:

red = A[1]==1
blue = A[1]==2
green = A[1]==3

Después utilizando esos arreglos hice tres arreglos diferentes para definir cada cluster de la siguiente manera:

X_red=Y[red]
X_blue=Y[blue]
X_green=Y[green]

Y finalmente realicé la gráfica. Dejo mi archivo que realicé en Deepnote para el proyecto final. Me encantaría recibir sus sugerencias.

Sebastian Calderón Araque

student•

Gracias por el aporte. Duré un buen rato en lo mismo.

Mateo Echavarria

student•

Mi codigo de grafica:

Creo una lista con la cantidad de grupos
Pregunto cual esta en cada lista y la agrego a un sub-indice de gropus

groups = [ [] for i in range(len(A[0]))]
for i in range(len(groups)):
  for j in range(len(A[1])):
    if A[1][j] == i+1:
      groups[i].append(j)

Creo 2 listas grandes, allx y ally que van a contener a todos los X y Y de cada sub-lista

allx = []
for j in range(len(groups)):
  val = [X[:,0][groups[j][i]] for i in range(len(groups[j]))]
  allx.append(val)

ally = [ ]
for j in range(len(groups)):
  val = [X[:,1][groups[j][i]] for i in range(len(groups[j]))]
  ally.append(val)

Grafico, iterando igualmente con len(groups)

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=100)
for i in range(len(groups)):
    ax.scatter(allx[i], ally[i])
plt.show()

Todo esta mas claro en mi notebook ♥

Roger Christian Cansaya Olazabal

student•

Bueno el ultimo reto demora en procesar sera motivo para investigar la librería fetchopenml

import numpy as np 
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml
import itertools
import random

def group_assignment(data, centroids):
    grouping_vec_c = np.zeros((len(data)))
    for i in range(len(data)): # recorrido de toda la data
        dist = np.zeros(len(centroids))
        for j in range(len(centroids)): # recorrido de centroides en este caso son 3 para obtener la distancia con cada centroide
            dist[j] = np.linalg.norm(data[i] - centroids[j]) # vector dist contiene las distancias de cada vector de data con cada centroide.
        min_dist = min(dist)        # min_dist contiene la distancia minima del versos data - centroides
        for j in range(len(centroids)): # con este for encontramos el indice de la distancia minima ubicada en ese vector con el dato actual
            if min_dist == dist[j]:
                grouping_vec_c[i] = j + 1 # al vector grouping_vec_c que esta vinculado al vector data  se le asigna un grupo segun cercania a los centriodes 1, 2, y 3
    return grouping_vec_c


def update_centroid(data, grouping, centroids):
    new_centroids = []
    for i in range(len(centroids)): # bucle para recorrer los centroides
        cent = np.zeros(len(data[0])) # porque nbo hacer un np.zeros(1)
        count = 0
        for j in range(len(data)): # bucle para para recorrer la daa
            if grouping[j] == i + 1:    # compara si el vector de grupos grouping_vec_c asociado a lo vector data comparado con su grupo.
                cent = cent + data[j]
                count += 1
        group_average =  cent/count # vector promedio de cada grupo asociado a cada centroide
        new_centroids.append(group_average) # nuevo vector de centroides es el promedio de cada grupo de centroides
    return new_centroids

def clustering_objetive(data, grouping, centroids):
    J_obj = 0
    for i in range (len(data)):     # recorre data
        for j in range(len(centroids)): # recorre centroides
            if grouping[i] == j + 1:    # compara cada grupo de data asignado al vector grouping_vec_c
                J_obj += np.linalg.norm(data[i] - centroids[j])**2 # obtiene la suma de las distancias entre el vetor centroide y su grupo de datos asignados
    J_obj = J_obj/len(data) #promedio de la suma de distancias vinculadas a a todos los centroides
    return J_obj    # promedio de distancias


def Kmeans_alg(data, centroids):
    iteration = 0
    J_obj_vector = []
    Stop = False
    while Stop == False:
        grouping = group_assignment(data, centroids) # ingresamos data y centroides para obtener el vector grouping vinculando el vector data a cada grupo
        new_centroids = update_centroid(data, grouping, centroids) # Ingresamos datam grouping y centroids para obtener el nuevo vector de centroides
        J_obj = clustering_objetive(data, grouping, new_centroids)  # Ingresamos data, grouping y new_centroids para obtener el promedio de distancias dato de grupo vs centroide de grupo
        J_obj_vector.append(J_obj) # Vector J_Obj almacena el promedio de distancias por grupo-centroide
        iteration +=1
        if np.linalg.norm(np.array(new_centroids) - np.array(centroids)) < 1e-6: #compara la distancia entre centroides viejos vs los nuevos centroides para ver si se mueven poco
            Stop = True
        else:
            centroids = new_centroids   
    return new_centroids, grouping, J_obj_vector, iteration

if __name__ == '__main__':

    fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
    X = np.concatenate([[0.3*np.random.randn(2) for i in range(100)],\
                        [[1,1] + 0.3*np.random.randn(2) for i in range(100)], \
                        [[1,-1]+ 0.3* np.random.randn(2) for i in range(100)]])
    ax.scatter( X[:,0],X[:,1])
    ax.set_xlim(-1.5,2.5)
    ax.set_ylim(-2,2)
    #plt.show()

    A = Kmeans_alg(X, X[:3])
    fig, ax = plt.subplots(1, 1, figsize=(7,7),dpi=120)
    plt.plot(list(range(A[-1])), A[2])
    #plt.show()

    grouping = A[1]
    
    v_grupo1 = []
    v_grupo2 = []
    v_grupo3 = []

    fig, ax = plt.subplots(1, 1, figsize=(7,7), dpi=100)
    for i, d_val in enumerate(X):
        if grouping[i] == 1:
            v_grupo1.append(d_val)
        elif grouping[i] == 2:
            v_grupo2.append(d_val)
        elif grouping[i] == 3:
            v_grupo3.append(d_val)

    x1, y1 = zip(*v_grupo1)
    x2, y2 = zip(*v_grupo2)
    x3, y3 = zip(*v_grupo3)
    
    ax.scatter(x1, y1, color='red', label='Grupo 1')     
    ax.scatter(x2, y2, color='blue', label='Grupo 2') 
    ax.scatter(x3, y3, color='green', label='Grupo 3')  

    ax.set_xlim(-1.5,2.5)
    ax.set_ylim(-2,2)
    plt.legend()
    plt.show()

    # B, y = fetch_openml('mnist_784', version=1, return_X_y=True)
    
    # A = Kmeans_alg(B, random.choices(B,k=9))
    # a = list(itertools.product(list(range(3)),list(range(3))))
    # fig, ax = plt.subplots(3,3,figsize=(7,7),dpi=120)
    # for i,j in zip(a,A[0]):
    #         ax[i[0]][i[1]].imshow(j.reshape(28,28))

    # plt.show()

Raúl Andrés Olivares Pasten

student•

Creamos una lista de colores

ListColor = []
for i in range(len(A[1])):
  if A[1][i]==1.0:
    ListColor.append('red')
  if A[1][i]==2.0:
    ListColor.append('green')
  if A[1][i]==3.0:
    ListColor.append('blue')

Y luego lo agregamos cuando imprimamos los elementos

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.scatter( X[:,0],X[:,1],color=ListColor)
ax.set_xlim(-1.5,2.5)
ax.set_ylim(-2,2)
plt.show()

Eduardo Reyes

student•

Me costó mucho separar por colores porque cuando quería visualizar la data de grouping me encontré esto:

print(A["grouping"])
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3.
 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3.
 3. 3. 3. 3. 3. 3. 1. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3.
 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3.
 3. 3. 3. 3. 3. 3. 3. 3. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.
 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.
 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.
 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.
 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.]

Cómo están siendo guardados los datos en esto?, y cómo se supone que puedo acceder a ellos de manera natural?

Osvaldo Olguín

student•

Al intentar ver las dimensiones de los vectores del dataset importado con len(X[0]), me arroja el error KeyError: 0. Al parecer la data importada es un dataframe de pandas. A alguien más le pasó?

Osvaldo Olguín

student•

¿Por qué al calcular las distancias de los data points al centroide de su clúster se eleva la norma al cuadrado? De clases anteriores tenemos esto

Juan Felipe Moreno

student•

Eso se debe al teorema de Pitágoras.

Oscar Francisco Trujillo Puentes

student•

Hola!

Les comparto el código usado para colocar los grupos al array X generado.


X2 = np.insert(X, X.shape[1],A[1], axis=1)

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.margins(0.05)
for i in range(1,4):
    X3 = X2[X2[:,2] == i]
    ax.plot(X3[:,0],X3[:,1], marker='.', linestyle='', ms=12, label=i)
ax.legend()
plt.show()
ax.set_xlim(-1.5,2.5)
ax.set_ylim(-2,2)
plt.show()
```y su resultado:

![](https://static.platzi.com/media/user_upload/Sin%20t%C3%ADtulo-33d44064-1bc0-4b9c-8a2e-81135d159c7b.jpg)

Jhon Freddy Tavera Blandon

student•

import numpy as np
import matplotlib.pyplot as plt

def Kmeans_alg(data, centroids):
    iteration = 0
    J_obj_vector = []
    Stop = False
    while Stop == False:
        grouping = group_assignment(data, centroids)
        new_centroids = update_centroid(data, grouping, centroids)
        J_obj = clustering_objective(data, grouping, new_centroids)
        J_obj_vector.append(J_obj)
        iteration += 1
        if np.linalg.norm(np.array(new_centroids) - np.array(centroids)) < 1e-6:
            Stop = True
        else:
            centroids = new_centroids
    return new_centroids, grouping, J_obj_vector, iteration

def group_assignment(data, centroids):
    # Implementación de asignación de grupos
    pass

def update_centroid(data, grouping, centroids):
    # Implementación de actualización de centroides
    pass

def clustering_objective(data, grouping, centroids):
    J_obj = 0
    for i in range(len(data)):
        for j in range(len(centroids)):
            if grouping[i] == (j+1):
                J_obj += np.linalg.norm(data[i] - centroids[j])**2
    J_obj = J_obj/len(data)
    return J_obj

# Generar datos de muestra
X = np.concatenate([[0.3*np.random.randn(2) for i in range(100)],\
                    [[1,1] + 0.3*np.random.randn(2) for i in range(100)], \
                    [[1,-1]+ 0.3* np.random.randn(2) for i in range(100)]])

# Llamar a la función Kmeans_alg
centroids, _, _, _ = Kmeans_alg(X, X[:3])

# Graficar los puntos y los centroides
plt.scatter(X[:, 0], X[:, 1], label='Puntos')
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='X', label='Centroides')
plt.legend()
plt.xlabel('Eje X')
plt.ylabel('Eje Y')
plt.title('Clustering con K-means')
plt.show()

print("Centroides:")
print(centroids)

Erik Ucenik

student•

Antes de ver, les comparto una implementación que hice en el curso de pensamiento probabilístico:

Gabriel Gallardo

student•

Hola, en la versión actual de pandas existe un problema con el método reshape, por lo que debemos utilizar el método .values.reshape para poder ingresar los valores a nuestro algoritmo. También hay que utilizar la búsqueda por índice con .iloc

A continuación los cambios para poder utilizar los algoritmos

import random
X_reshape = [ X.iloc[i].values.reshape(28,28) for i in range(len(X))]
C = kmeans(X_reshape,random.choices(X_reshape,k=10))

Luego los resultados fueron

Tomas Dale

student•

https://circuitdigest.com/microcontroller-projects/raspberry-pi-based-emotion-recognition-using-opencv-tensorflow-and-keras

El reconocimiento de imagenes lo uso con la raspberry Pi, muy facil de implementar el projecto, con tensorflow y keras

Sebastian Calderón Araque

student•

RETO 1

G1 = np.array([X[i] for i in range(len(X)) if A[1][i] == 1])
G2 = np.array([X[i] for i in range(len(X)) if A[1][i] == 2])
G3 = np.array([X[i] for i in range(len(X)) if A[1][i] == 3])

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.scatter( G1[:,0], G1[:,1], color="red", label='Grupo 1')
ax.scatter( G2[:,0], G2[:,1], color="blue", label='Grupo 2')
ax.scatter( G3[:,0], G3[:,1], color="green", label='Grupo 3')
ax.set_xlim(-1.5,2.5)
ax.set_ylim(-2,2)
plt.legend()
plt.show()

RETO 2

Este reto fue muy interesante. Lo primero es que fue necesario hacer esto X=np.array(X) para que el código funcionara con el dataset de los números, ya que X era de tipo dataframe en lugar de un arreglo de numpy. La clusterización se realiza en 10 grupos (lo 10 digitos).

from sklearn.datasets import fetch_openml
import matplotlib.pyplot as plt
import numpy as np
import random
import itertools

X, y = fetch_openml('mnist_784', version=1, return_X_y=True)
X=np.array(X)
A = Kmeans_alg(X,random.choices(X,k=10))
a = list(itertools.product(list(range(3)),list(range(4))))

fig, ax = plt.subplots(3,4,figsize=(7,7),dpi=120)
for i,j in zip(a,A[0]):
        ax[i[0]][i[1]].imshow(j.reshape(28,28))
plt.show()

obteniendo lo siguiente:

esto que vemos es el grupo de vectores representativos, por eso es que se ven algo difusos, ya que fue la mejor adaptación que el algoritmo encontró. Tambien podemos notar que la clusterización no es lo suficientemente buena para este caso, ya que repite números como el 1, además de que le cuesta diferenciar el número 4 y 5. Y bueno, el 7 ni aparece por ahí XD.

Hice otro código para ver si estimaba correctamente los números. Le pedi que me mostrara los primeros números que reconociera como un tres

a partir de esto estimo una eficiencia de aproximadamente 60% para detectar el número tres .

Con el número seis le fue mucho mejor. El código que usé es el siguiente:

G1 = np.array([X[i] for i in range(len(X)) if A[1][i] == 3])
b = list(itertools.product(list(range(4)),list(range(4))))

fig, ax = plt.subplots(4,4,figsize=(7,7),dpi=120)
for i,j in zip(b,G1):
        ax[i[0]][i[1]].imshow(j.reshape(28,28))
plt.show()

OJO! el vector A[1] (el cual me indica a qué cluster se asignó cada vector) no necesariamente coincide con el número que se busca hallar (parece obvio pero yo tambien tuve la duda).

# Guardo en las listas G_1, G_2 y G_3 la posicion en la que estan los valores 1,2 o 3 de mi array A[1]
G_1 = []
G_2 = []
G_3 = []
for i in range(len(A[1])):
    if A[1][i] == 1:
        G_1.append(i)
    elif A[1][i] == 2:
        G_2.append(i)
    elif A[1][i] == 3:
        G_3.append(i)
        
# Separar los datos para poder graficarlos
X_1 = [X[:,0][G_1[i]] for i in range(len(G_1))]
Y_1 = [X[:,1][G_1[i]] for i in range(len(G_1))]

X_2 = [X[:,0][G_2[i]] for i in range(len(G_2))]
Y_2 = [X[:,1][G_2[i]] for i in range(len(G_2))]

X_3 = [X[:,0][G_3[i]] for i in range(len(G_3))]
Y_3 = [X[:,1][G_3[i]] for i in range(len(G_3))]

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=100)

ax.scatter( X_1, Y_1, color='red', label='Grupo 1')
ax.scatter( X_2, Y_2, color='blue', label='Grupo 2')
ax.scatter( X_3, Y_3, color='black', label='Grupo 3')
ax.set_xlim(-1.5,2.5)
ax.set_ylim(-2,2)
plt.legend()
plt.show()

import pandas as pd
import matplotlib.pyplot as plt

clusters = list(zip(X,A[1]))

df = pd.DataFrame(clusters,columns=["Vectores","k"])
k = df.groupby("k")
k1 = k.get_group(1).iloc[:,0]
k2 = k.get_group(2).iloc[:,0]
k3 = k.get_group(3).iloc[:,0]

grupo1 = np.array([k1]).astype(float).reshape(101,2)
grupo2 = np.array([k2]).astype(float).reshape(99,2)
grupo3 = np.array([k3]).astype(float).reshape(100,2)

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.scatter( grupo1[:,0],grupo1[:,1], color='red',label='Grupo1')
ax.scatter( grupo2[:,0],grupo2[:,1], color="green", label = 'Grupo2')
ax.scatter( grupo3[:,0],grupo3[:,1], color="black", label = ' Grupo3')
ax.set_xlim(-1.5,2.5)
ax.set_ylim(-2,2)
plt.legend()
plt.show()

X = np.concatenate([[0.3*np.random.randn(2) for i in range(100)],\
                    [[1,1] + 0.3*np.random.randn(2) for i in range(100)], \
                    [[1,-1]+ 0.3* np.random.randn(2) for i in range(100)]])```

from sklearn.datasets import fetch_openml
import random

X, y = fetch_openml('mnist_784', version=1, return_X_y=True)
import itertools
a = list(itertools.product(range(3),range(3)))
X_array = np.array(X)
X_array.shape
A = Kmeans_alg(X_array,random.choices(X_array,k=9))
fig, ax = plt.subplots(3,3,figsize=(7,7),dpi=120)
for i,j in zip(a,A[0]):
        ax[i[0]][i[1]].imshow(j.reshape(28,28))
plt.show()

import pandas as pd 
import seaborn as sns

gruping = A[1].reshape(-1,1)
arr = np.concatenate((X, gruping),axis=1)

df = pd.DataFrame(arr,columns=['x', 'y', 'group'])

fig,ax= plt.subplots(1,1,figsize=(7,7),dpi=300)
sns.scatterplot(x='x',y='y',hue='group',data=df, palette='deep')
for i in A[0]:
    ax.scatter(i[0],i[1],c='black',linewidths=3)
plt.show()

allx = []
for j in range(len(groups)):
  val = [X[:,0][groups[j][i]] for i in range(len(groups[j]))]
  allx.append(val)

ally = [ ]
for j in range(len(groups)):
  val = [X[:,1][groups[j][i]] for i in range(len(groups[j]))]
  ally.append(val)

import numpy as np 
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml
import itertools
import random

def group_assignment(data, centroids):
    grouping_vec_c = np.zeros((len(data)))
    for i in range(len(data)): # recorrido de toda la data
        dist = np.zeros(len(centroids))
        for j in range(len(centroids)): # recorrido de centroides en este caso son 3 para obtener la distancia con cada centroide
            dist[j] = np.linalg.norm(data[i] - centroids[j]) # vector dist contiene las distancias de cada vector de data con cada centroide.
        min_dist = min(dist)        # min_dist contiene la distancia minima del versos data - centroides
        for j in range(len(centroids)): # con este for encontramos el indice de la distancia minima ubicada en ese vector con el dato actual
            if min_dist == dist[j]:
                grouping_vec_c[i] = j + 1 # al vector grouping_vec_c que esta vinculado al vector data  se le asigna un grupo segun cercania a los centriodes 1, 2, y 3
    return grouping_vec_c


def update_centroid(data, grouping, centroids):
    new_centroids = []
    for i in range(len(centroids)): # bucle para recorrer los centroides
        cent = np.zeros(len(data[0])) # porque nbo hacer un np.zeros(1)
        count = 0
        for j in range(len(data)): # bucle para para recorrer la daa
            if grouping[j] == i + 1:    # compara si el vector de grupos grouping_vec_c asociado a lo vector data comparado con su grupo.
                cent = cent + data[j]
                count += 1
        group_average =  cent/count # vector promedio de cada grupo asociado a cada centroide
        new_centroids.append(group_average) # nuevo vector de centroides es el promedio de cada grupo de centroides
    return new_centroids

def clustering_objetive(data, grouping, centroids):
    J_obj = 0
    for i in range (len(data)):     # recorre data
        for j in range(len(centroids)): # recorre centroides
            if grouping[i] == j + 1:    # compara cada grupo de data asignado al vector grouping_vec_c
                J_obj += np.linalg.norm(data[i] - centroids[j])**2 # obtiene la suma de las distancias entre el vetor centroide y su grupo de datos asignados
    J_obj = J_obj/len(data) #promedio de la suma de distancias vinculadas a a todos los centroides
    return J_obj    # promedio de distancias


def Kmeans_alg(data, centroids):
    iteration = 0
    J_obj_vector = []
    Stop = False
    while Stop == False:
        grouping = group_assignment(data, centroids) # ingresamos data y centroides para obtener el vector grouping vinculando el vector data a cada grupo
        new_centroids = update_centroid(data, grouping, centroids) # Ingresamos datam grouping y centroids para obtener el nuevo vector de centroides
        J_obj = clustering_objetive(data, grouping, new_centroids)  # Ingresamos data, grouping y new_centroids para obtener el promedio de distancias dato de grupo vs centroide de grupo
        J_obj_vector.append(J_obj) # Vector J_Obj almacena el promedio de distancias por grupo-centroide
        iteration +=1
        if np.linalg.norm(np.array(new_centroids) - np.array(centroids)) < 1e-6: #compara la distancia entre centroides viejos vs los nuevos centroides para ver si se mueven poco
            Stop = True
        else:
            centroids = new_centroids   
    return new_centroids, grouping, J_obj_vector, iteration

if __name__ == '__main__':

    fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
    X = np.concatenate([[0.3*np.random.randn(2) for i in range(100)],\
                        [[1,1] + 0.3*np.random.randn(2) for i in range(100)], \
                        [[1,-1]+ 0.3* np.random.randn(2) for i in range(100)]])
    ax.scatter( X[:,0],X[:,1])
    ax.set_xlim(-1.5,2.5)
    ax.set_ylim(-2,2)
    #plt.show()

    A = Kmeans_alg(X, X[:3])
    fig, ax = plt.subplots(1, 1, figsize=(7,7),dpi=120)
    plt.plot(list(range(A[-1])), A[2])
    #plt.show()

    grouping = A[1]
    
    v_grupo1 = []
    v_grupo2 = []
    v_grupo3 = []

    fig, ax = plt.subplots(1, 1, figsize=(7,7), dpi=100)
    for i, d_val in enumerate(X):
        if grouping[i] == 1:
            v_grupo1.append(d_val)
        elif grouping[i] == 2:
            v_grupo2.append(d_val)
        elif grouping[i] == 3:
            v_grupo3.append(d_val)

    x1, y1 = zip(*v_grupo1)
    x2, y2 = zip(*v_grupo2)
    x3, y3 = zip(*v_grupo3)
    
    ax.scatter(x1, y1, color='red', label='Grupo 1')     
    ax.scatter(x2, y2, color='blue', label='Grupo 2') 
    ax.scatter(x3, y3, color='green', label='Grupo 3')  

    ax.set_xlim(-1.5,2.5)
    ax.set_ylim(-2,2)
    plt.legend()
    plt.show()

    # B, y = fetch_openml('mnist_784', version=1, return_X_y=True)
    
    # A = Kmeans_alg(B, random.choices(B,k=9))
    # a = list(itertools.product(list(range(3)),list(range(3))))
    # fig, ax = plt.subplots(3,3,figsize=(7,7),dpi=120)
    # for i,j in zip(a,A[0]):
    #         ax[i[0]][i[1]].imshow(j.reshape(28,28))

    # plt.show()

print(A["grouping"])
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
1. 1. 1. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3.
3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3.
3. 3. 3. 3. 3. 1. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3.
3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3.
3. 3. 3. 3. 3. 3. 3. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.
2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.
2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.
2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.
2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.]

X2 = np.insert(X, X.shape[1],A[1], axis=1)

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.margins(0.05)
for i in range(1,4):
    X3 = X2[X2[:,2] == i]
    ax.plot(X3[:,0],X3[:,1], marker='.', linestyle='', ms=12, label=i)
ax.legend()
plt.show()
ax.set_xlim(-1.5,2.5)
ax.set_ylim(-2,2)
plt.show()
```y su resultado:

![](https://static.platzi.com/media/user_upload/Sin%20t%C3%ADtulo-33d44064-1bc0-4b9c-8a2e-81135d159c7b.jpg)

import numpy as np
import matplotlib.pyplot as plt

def Kmeans_alg(data, centroids):
    iteration = 0
    J_obj_vector = []
    Stop = False
    while Stop == False:
        grouping = group_assignment(data, centroids)
        new_centroids = update_centroid(data, grouping, centroids)
        J_obj = clustering_objective(data, grouping, new_centroids)
        J_obj_vector.append(J_obj)
        iteration += 1
        if np.linalg.norm(np.array(new_centroids) - np.array(centroids)) < 1e-6:
            Stop = True
        else:
            centroids = new_centroids
    return new_centroids, grouping, J_obj_vector, iteration

def group_assignment(data, centroids):
    # Implementación de asignación de grupos
    pass

def update_centroid(data, grouping, centroids):
    # Implementación de actualización de centroides
    pass

def clustering_objective(data, grouping, centroids):
    J_obj = 0
    for i in range(len(data)):
        for j in range(len(centroids)):
            if grouping[i] == (j+1):
                J_obj += np.linalg.norm(data[i] - centroids[j])**2
    J_obj = J_obj/len(data)
    return J_obj

# Generar datos de muestra
X = np.concatenate([[0.3*np.random.randn(2) for i in range(100)],\
                    [[1,1] + 0.3*np.random.randn(2) for i in range(100)], \
                    [[1,-1]+ 0.3* np.random.randn(2) for i in range(100)]])

# Llamar a la función Kmeans_alg
centroids, _, _, _ = Kmeans_alg(X, X[:3])

# Graficar los puntos y los centroides
plt.scatter(X[:, 0], X[:, 1], label='Puntos')
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='X', label='Centroides')
plt.legend()
plt.xlabel('Eje X')
plt.ylabel('Eje Y')
plt.title('Clustering con K-means')
plt.show()

print("Centroides:")
print(centroids)

G1 = np.array([X[i] for i in range(len(X)) if A[1][i] == 1])
G2 = np.array([X[i] for i in range(len(X)) if A[1][i] == 2])
G3 = np.array([X[i] for i in range(len(X)) if A[1][i] == 3])

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.scatter( G1[:,0], G1[:,1], color="red", label='Grupo 1')
ax.scatter( G2[:,0], G2[:,1], color="blue", label='Grupo 2')
ax.scatter( G3[:,0], G3[:,1], color="green", label='Grupo 3')
ax.set_xlim(-1.5,2.5)
ax.set_ylim(-2,2)
plt.legend()
plt.show()

from sklearn.datasets import fetch_openml
import matplotlib.pyplot as plt
import numpy as np
import random
import itertools

X, y = fetch_openml('mnist_784', version=1, return_X_y=True)
X=np.array(X)
A = Kmeans_alg(X,random.choices(X,k=10))
a = list(itertools.product(list(range(3)),list(range(4))))

fig, ax = plt.subplots(3,4,figsize=(7,7),dpi=120)
for i,j in zip(a,A[0]):
        ax[i[0]][i[1]].imshow(j.reshape(28,28))
plt.show()

G1 = np.array([X[i] for i in range(len(X)) if A[1][i] == 3])
b = list(itertools.product(list(range(4)),list(range(4))))

fig, ax = plt.subplots(4,4,figsize=(7,7),dpi=120)
for i,j in zip(b,G1):
        ax[i[0]][i[1]].imshow(j.reshape(28,28))
plt.show()

Programación del Algoritmo K-means en Python

Introducción al curso

Este curso tiene una versión actualizada

Vectores en Álgebra Lineal: Definición y Operaciones Básicas

Vectores

Vectores y Escalares: Conceptos y Operaciones Básicas

Convenciones y Notación en Vectores y Escalares

Modelo RGB y su implementación en Python

Adición de Vectores: Conceptos y Propiedades Básicas

Suma de Vectores en Python con NumPy

Producto Escalar-Vectores: Conceptos y Propiedades Básicas

Operaciones con Escalares y Vectores en Python usando NumPy

Producto Interno de Vectores: Definición y Propiedades

Producto Interno de Vectores en Python con NumPy

Análisis de Sentimientos de Tweets con Vectores de Palabras

Funciones lineales

Funciones Lineales: Transformación de Vectores en Escalares

Funciones Lineales y Propiedades de Superposición

Teoremas y Corolarios en Funciones Lineales

Funciones Afines: Propiedades y Ejercicios Prácticos

Aproximaciones de Taylor: Modelos Lineales de Funciones No Lineales

Aproximaciones de Taylor y análisis de error en Python

Regresión Lineal con Datos Geográficos y Socioeconómicos

Norma y distancia

Propiedades y Cálculo de la Norma de Vectores

Cálculo de Distancias entre Vectores usando Normas Euclidianas y LP

Optimización de Visitas para Arrendar Departamentos

Cálculo de Desviación Estándar en Series de Tiempo con NumPy

Modelo de Riesgo Retorno en Inversiones de Acciones

Cálculo de Ángulos y Correlación entre Vectores

Clustering

Clustering con K-Means: Teoría y Aplicación Práctica

Algoritmo K-means: Clustering Geométrico Sin Matemáticas

Programación del Algoritmo K-means en Python

Cierre

Programación de Clústers y Análisis de Sentimientos