Contenido del curso

Introducción al curso

Vectores

Funciones lineales

Norma y distancia

Clustering

Cierre

29
Programación de Clústers y Análisis de Sentimientos
02:21 min

Tomar examen

Programación del Algoritmo K-means en Python

Resumen

Pasar de la intuición geométrica a la implementación real de un algoritmo es donde ocurre el verdadero aprendizaje. Aquí se recorre paso a paso cómo funciona el algoritmo K-means programado en Python, desde las funciones fundamentales hasta un reto con datos reales de setecientas ochenta y cuatro dimensiones.

¿Cómo se asignan los puntos a cada clúster en K-means?

El primer paso del algoritmo se encapsula en la función group assignment [0:36]. Esta función recibe dos entradas: la data completa (todos los vectores) y los centroides, que son los vectores representativos de cada grupo.

El proceso interno funciona así:

Se recorre cada punto de la data uno por uno.
Para cada punto, se calcula la distancia a todos los centroides.
Se almacenan esas distancias en un vector del tamaño de la cantidad de centroides.
Se toma la distancia mínima y se asigna ese punto al centroide más cercano.

En esencia, la función le pregunta a cada vector: «¿De cuál centroide estás más cerca?» y lo etiqueta con ese grupo [1:22]. Es una comparación exhaustiva, punto por punto, contra todos los centroides disponibles.

¿Cómo se actualizan los centroides después de la asignación?

El segundo paso fundamental es la actualización de centroides [2:16]. Una vez que todos los puntos ya tienen una etiqueta de clúster, se calcula un nuevo vector representativo para cada grupo.

La función consume tres cosas: los datos, los centroides anteriores y el grouping (la salida del paso anterior). El procedimiento es directo:

Se recorre cada clúster.
Se identifican todos los vectores que pertenecen a ese clúster.
Se suman las entradas correspondientes de cada vector y se cuentan cuántos elementos hay con la variable count [3:48].
Se promedian las entradas para obtener el nuevo centroide.

Un detalle importante: no se calcula el promedio del vector completo de una sola vez, sino que se promedian coeficiente por coeficiente [4:32]. Todos los primeros coeficientes del grupo se promedian, todos los segundos se promedian, y así sucesivamente. Esto garantiza que el nuevo centroide sea verdaderamente el punto medio del grupo.

¿Qué mide el clustering objective?

La función clustering objective (representada como J) evalúa qué tan bien están agrupados los datos [5:12]. Calcula las normas de las distancias entre cada punto y su centroide asignado, las suma y obtiene el promedio. Mientras más bajo sea este valor, mejor es la agrupación.

¿Cómo se ensambla todo en una sola función?

La función principal actúa como orquestador [5:38]. Declara una variable de iteración en cero, una lista vacía para almacenar los valores de J y una variable stop en false. Entra en un ciclo while que se repite hasta que el algoritmo converge:

Ejecuta el paso uno (group assignment).
Ejecuta el paso dos (actualización de centroides).
Calcula el clustering objective.
Verifica si los nuevos centroides se movieron menos de 1×10⁻⁶ respecto a los anteriores [6:33].

Cuando el movimiento de los centroides es imperceptible, el algoritmo se detiene. La función regresa los centroides finales, los agrupamientos, el historial de valores de J y el número de iteraciones.

¿Cómo se aplica K-means a datos de alta dimensionalidad?

Con datos generados alrededor de los puntos (0,0), (1,1) y (1,-1), el algoritmo convergió en apenas cinco iteraciones [8:20]. La curva del clustering objective mostró una caída pronunciada en las primeras iteraciones y una estabilización rápida, confirmando la convergencia.

Pero el verdadero desafío viene con el dataset MNIST [9:28]. Se importa desde sklearn un conjunto de setenta mil vectores, cada uno con setecientas ochenta y cuatro dimensiones. Cada vector, al reorganizarse en una matriz de 28×28, representa un dígito escrito a mano.

¿Cuál es el reto con el dataset MNIST?

Ya no es posible visualizar los clústeres como en el plano bidimensional. Sin embargo, el algoritmo K-means opera exactamente igual sin importar la dimensión [10:22]. El reto consiste en:

Aplicar las funciones de K-means al conjunto MNIST.
Determinar la cantidad óptima de clústeres que minimice la curva de J.
Verificar que los vectores representativos resultantes correspondan a los dígitos del cero al nueve.

Si la clusterización funciona correctamente, cada centroide debería parecerse visualmente a uno de los diez dígitos. Comparte tus resultados y la cantidad de clústeres que mejor funcionó en los comentarios.

Comentarios

César Isaac González Naranjo

student•

No creo poder hacer este código yo solo en este momento :( Alguien más ?

Alejandro Sebastian Delgado Farias

student•

Rubén Cuello

student•

no te preocupes que el profe tampoco :smi

Jerry Aldair Portal Rivera

student•

Esta es la forma en la que use el array A[1] para poder diferenciar los grupos que se forman:

# Guardo en las listas G_1, G_2 y G_3 la posicion en la que estan los valores 1,2 o 3 de mi array A[1]
G_1 = []
G_2 = []
G_3 = []
for i in range(len(A[1])):
    if A[1][i] == 1:
        G_1.append(i)
    elif A[1][i] == 2:
        G_2.append(i)
    elif A[1][i] == 3:
        G_3.append(i)
        
# Separar los datos para poder graficarlos
X_1 = [X[:,0][G_1[i]] for i in range(len(G_1))]
Y_1 = [X[:,1][G_1[i]] for i in range(len(G_1))]

X_2 = [X[:,0][G_2[i]] for i in range(len(G_2))]
Y_2 = [X[:,1][G_2[i]] for i in range(len(G_2))]

X_3 = [X[:,0][G_3[i]] for i in range(len(G_3))]
Y_3 = [X[:,1][G_3[i]] for i in range(len(G_3))]

Para graficarlo:

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=100)

ax.scatter( X_1, Y_1, color='red', label='Grupo 1')
ax.scatter( X_2, Y_2, color='blue', label='Grupo 2')
ax.scatter( X_3, Y_3, color='black', label='Grupo 3')
ax.set_xlim(-1.5,2.5)
ax.set_ylim(-2,2)
plt.legend()
plt.show()

![](

Robin Angel Romero

student•

en la parte donde separas los datos:

X_1 = [X[:,0][G_1[i]] for i in range(len(G_1))]
Y_1 = [X[:,1][G_1[i]] for i in range(len(G_1))]

que significa cuando escribes X[:,0] y X[:,1]?

Jerry Aldair Portal Rivera

student•

X[:,0] seria la posicion en el eje "x" y X[:,1] la posicion en el eje "y" de los datos en general(sin distinguir cuales pertenecen a que grupo).

Ya que en G_1, G_2, G_3 guarda las posiciones en donde estan los datos con valor 1, 2 o 3.

Al usar:

X_1 = [X[:,0][G_1[i]] for i in range(len(G_1))]

separo los valores de mi eje x (X[:,0]) contal la posicion que tengo guardada en G_1 para poder separarlos en cada uno de los grupos(en este caso para el grupo 1).

Roberto Jassiel Montes Gutierrez

student•

import pandas as pd
import matplotlib.pyplot as plt

clusters = list(zip(X,A[1]))

df = pd.DataFrame(clusters,columns=["Vectores","k"])
k = df.groupby("k")
k1 = k.get_group(1).iloc[:,0]
k2 = k.get_group(2).iloc[:,0]
k3 = k.get_group(3).iloc[:,0]

grupo1 = np.array([k1]).astype(float).reshape(101,2)
grupo2 = np.array([k2]).astype(float).reshape(99,2)
grupo3 = np.array([k3]).astype(float).reshape(100,2)

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.scatter( grupo1[:,0],grupo1[:,1], color='red',label='Grupo1')
ax.scatter( grupo2[:,0],grupo2[:,1], color="green", label = 'Grupo2')
ax.scatter( grupo3[:,0],grupo3[:,1], color="black", label = ' Grupo3')
ax.set_xlim(-1.5,2.5)
ax.set_ylim(-2,2)
plt.legend()
plt.show()

A mi al correr de nuevo el algoritmo me dio esta distribucion de puntos:

![](

Ulises Rayon

teacher•

Lo que pasa es que los puntos son generados de manera aleatoria entonces no necesariamente vamos a tener los mismos puntos pero sí están distribuidos al rededor de los mismos puntos. El generador de los datos es:

X = np.concatenate([[0.3*np.random.randn(2) for i in range(100)],\
                    [[1,1] + 0.3*np.random.randn(2) for i in range(100)], \
                    [[1,-1]+ 0.3* np.random.randn(2) for i in range(100)]])```

Y en partes [[0.3*np.random.randn(2) for i in range(100)] genera 100 puntos distribuidos al redor del cero y dentro 0.3*np.random.randn(2) genera dos puntos aleatorios entre -1 y 1 y escalados por 0.3. Opera de misma forma [[1,1] + 0.3*np.random.randn(2) for i in range(100)] genera 100 puntos pero ahora al rededor del (1,1), fíjate que [1,1] + 0.3*np.random.randn(2) es una suma de vectores y como 0.3*np.random.randn(2) a lo más es 0.3 entonces lo más lejos que puede estar uno de esos vectores es +/-1.3 en cualquiera de los ejes.

Espero te sirva :)

Bernardo Tamayo

student•

Me gusta como usas pandas para la data final, solo me causa duda que cuando haces el reshape de los grupos, encuentro que pusiste las dimensiones exactas.

Mauro Cortes

student•

Hola, no entendí muy bien que se debe hacer para clisterizar los números del 1 al 9, si alguien lo entendió me puede ayudar?... porfavor ;(

Christian Molina Vázquez

student•

Aqui la solución para el dataset fetch_openml Me base en el código del google colab, solo le cambie me pequeñas cosas.

Me tardó bastante en procesar, y pense que no me cargaría, asi que lo deje un largo tiempo, despues de 30 iteracioes este es mi resultado.

from sklearn.datasets import fetch_openml
import random

X, y = fetch_openml('mnist_784', version=1, return_X_y=True)
import itertools
a = list(itertools.product(range(3),range(3)))
X_array = np.array(X)
X_array.shape
A = Kmeans_alg(X_array,random.choices(X_array,k=9))
fig, ax = plt.subplots(3,3,figsize=(7,7),dpi=120)
for i,j in zip(a,A[0]):
        ax[i[0]][i[1]].imshow(j.reshape(28,28))
plt.show()

Christian Molina Vázquez

student•

Para gráficar los grupos, les recomiendo usar pandas y la librería seaborns.

import pandas as pd 
import seaborn as sns

gruping = A[1].reshape(-1,1)
arr = np.concatenate((X, gruping),axis=1)

df = pd.DataFrame(arr,columns=['x', 'y', 'group'])

fig,ax= plt.subplots(1,1,figsize=(7,7),dpi=300)
sns.scatterplot(x='x',y='y',hue='group',data=df, palette='deep')
for i in A[0]:
    ax.scatter(i[0],i[1],c='black',linewidths=3)
plt.show()

Heynar Soto Holguin

student•

no se soy soy el único, pero hasta la fecha de hoy ya no funciona el código me dice que means_alg no es definida

Fernando Camacho

student•

La verdad no se si dejarlo como aporte o como pregunta porque no se el fetch_openml me regreso un DataFrame en lugar de un arreglo de Numpy, además yo pensaba que así como trabajaba con Numpy lo podía hacer con Pandas pero no me dejo. Tuve que revisar el tipo de dato que me regresaba para darme cuenta de eso, para poder cambiar de Pandas a Numpy lo que hice fue:

X = np.array(X)

La verdad es algo simple pero me tarde bastante para darme cuenta jajajaja. Aun así pude obtener los resultados aunque tardo más de 7 minutos en obtener los centroides.

En el caso de los colores fue sencillo porque lo primero que hice fue hacer un arreglo booleano para cada grupo de la siguiente manera:

red = A[1]==1
blue = A[1]==2
green = A[1]==3

Después utilizando esos arreglos hice tres arreglos diferentes para definir cada cluster de la siguiente manera:

X_red=Y[red]
X_blue=Y[blue]
X_green=Y[green]

Y finalmente realicé la gráfica. Dejo mi archivo que realicé en Deepnote para el proyecto final. Me encantaría recibir sus sugerencias.

Sebastian Calderón Araque

student•

Gracias por el aporte. Duré un buen rato en lo mismo.

Mateo Echavarria

student•

Mi codigo de grafica:

Creo una lista con la cantidad de grupos
Pregunto cual esta en cada lista y la agrego a un sub-indice de gropus

groups = [ [] for i in range(len(A[0]))]
for i in range(len(groups)):
  for j in range(len(A[1])):
    if A[1][j] == i+1:
      groups[i].append(j)

Creo 2 listas grandes, allx y ally que van a contener a todos los X y Y de cada sub-lista

allx = []
for j in range(len(groups)):
  val = [X[:,0][groups[j][i]] for i in range(len(groups[j]))]
  allx.append(val)

ally = [ ]
for j in range(len(groups)):
  val = [X[:,1][groups[j][i]] for i in range(len(groups[j]))]
  ally.append(val)

Grafico, iterando igualmente con len(groups)

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=100)
for i in range(len(groups)):
    ax.scatter(allx[i], ally[i])
plt.show()

Todo esta mas claro en mi notebook ♥

Roger Christian Cansaya Olazabal

student•

Bueno el ultimo reto demora en procesar sera motivo para investigar la librería fetchopenml

import numpy as np 
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml
import itertools
import random

def group_assignment(data, centroids):
    grouping_vec_c = np.zeros((len(data)))
    for i in range(len(data)): # recorrido de toda la data
        dist = np.zeros(len(centroids))
        for j in range(len(centroids)): # recorrido de centroides en este caso son 3 para obtener la distancia con cada centroide
            dist[j] = np.linalg.norm(data[i] - centroids[j]) # vector dist contiene las distancias de cada vector de data con cada centroide.
        min_dist = min(dist)        # min_dist contiene la distancia minima del versos data - centroides
        for j in range(len(centroids)): # con este for encontramos el indice de la distancia minima ubicada en ese vector con el dato actual
            if min_dist == dist[j]:
                grouping_vec_c[i] = j + 1 # al vector grouping_vec_c que esta vinculado al vector data  se le asigna un grupo segun cercania a los centriodes 1, 2, y 3
    return grouping_vec_c


def update_centroid(data, grouping, centroids):
    new_centroids = []
    for i in range(len(centroids)): # bucle para recorrer los centroides
        cent = np.zeros(len(data[0])) # porque nbo hacer un np.zeros(1)
        count = 0
        for j in range(len(data)): # bucle para para recorrer la daa
            if grouping[j] == i + 1:    # compara si el vector de grupos grouping_vec_c asociado a lo vector data comparado con su grupo.
                cent = cent + data[j]
                count += 1
        group_average =  cent/count # vector promedio de cada grupo asociado a cada centroide
        new_centroids.append(group_average) # nuevo vector de centroides es el promedio de cada grupo de centroides
    return new_centroids

def clustering_objetive(data, grouping, centroids):
    J_obj = 0
    for i in range (len(data)):     # recorre data
        for j in range(len(centroids)): # recorre centroides
            if grouping[i] == j + 1:    # compara cada grupo de data asignado al vector grouping_vec_c
                J_obj += np.linalg.norm(data[i] - centroids[j])**2 # obtiene la suma de las distancias entre el vetor centroide y su grupo de datos asignados
    J_obj = J_obj/len(data) #promedio de la suma de distancias vinculadas a a todos los centroides
    return J_obj    # promedio de distancias


def Kmeans_alg(data, centroids):
    iteration = 0
    J_obj_vector = []
    Stop = False
    while Stop == False:
        grouping = group_assignment(data, centroids) # ingresamos data y centroides para obtener el vector grouping vinculando el vector data a cada grupo
        new_centroids = update_centroid(data, grouping, centroids) # Ingresamos datam grouping y centroids para obtener el nuevo vector de centroides
        J_obj = clustering_objetive(data, grouping, new_centroids)  # Ingresamos data, grouping y new_centroids para obtener el promedio de distancias dato de grupo vs centroide de grupo
        J_obj_vector.append(J_obj) # Vector J_Obj almacena el promedio de distancias por grupo-centroide
        iteration +=1
        if np.linalg.norm(np.array(new_centroids) - np.array(centroids)) < 1e-6: #compara la distancia entre centroides viejos vs los nuevos centroides para ver si se mueven poco
            Stop = True
        else:
            centroids = new_centroids   
    return new_centroids, grouping, J_obj_vector, iteration

if __name__ == '__main__':

    fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
    X = np.concatenate([[0.3*np.random.randn(2) for i in range(100)],\
                        [[1,1] + 0.3*np.random.randn(2) for i in range(100)], \
                        [[1,-1]+ 0.3* np.random.randn(2) for i in range(100)]])
    ax.scatter( X[:,0],X[:,1])
    ax.set_xlim(-1.5,2.5)
    ax.set_ylim(-2,2)
    #plt.show()

    A = Kmeans_alg(X, X[:3])
    fig, ax = plt.subplots(1, 1, figsize=(7,7),dpi=120)
    plt.plot(list(range(A[-1])), A[2])
    #plt.show()

    grouping = A[1]
    
    v_grupo1 = []
    v_grupo2 = []
    v_grupo3 = []

    fig, ax = plt.subplots(1, 1, figsize=(7,7), dpi=100)
    for i, d_val in enumerate(X):
        if grouping[i] == 1:
            v_grupo1.append(d_val)
        elif grouping[i] == 2:
            v_grupo2.append(d_val)
        elif grouping[i] == 3:
            v_grupo3.append(d_val)

    x1, y1 = zip(*v_grupo1)
    x2, y2 = zip(*v_grupo2)
    x3, y3 = zip(*v_grupo3)
    
    ax.scatter(x1, y1, color='red', label='Grupo 1')     
    ax.scatter(x2, y2, color='blue', label='Grupo 2') 
    ax.scatter(x3, y3, color='green', label='Grupo 3')  

    ax.set_xlim(-1.5,2.5)
    ax.set_ylim(-2,2)
    plt.legend()
    plt.show()

    # B, y = fetch_openml('mnist_784', version=1, return_X_y=True)
    
    # A = Kmeans_alg(B, random.choices(B,k=9))
    # a = list(itertools.product(list(range(3)),list(range(3))))
    # fig, ax = plt.subplots(3,3,figsize=(7,7),dpi=120)
    # for i,j in zip(a,A[0]):
    #         ax[i[0]][i[1]].imshow(j.reshape(28,28))

    # plt.show()

Raúl Andrés Olivares Pasten

student•

Creamos una lista de colores

ListColor = []
for i in range(len(A[1])):
  if A[1][i]==1.0:
    ListColor.append('red')
  if A[1][i]==2.0:
    ListColor.append('green')
  if A[1][i]==3.0:
    ListColor.append('blue')

Y luego lo agregamos cuando imprimamos los elementos

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.scatter( X[:,0],X[:,1],color=ListColor)
ax.set_xlim(-1.5,2.5)
ax.set_ylim(-2,2)
plt.show()

Eduardo Reyes

student•

Me costó mucho separar por colores porque cuando quería visualizar la data de grouping me encontré esto:

print(A["grouping"])
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3.
 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3.
 3. 3. 3. 3. 3. 3. 1. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3.
 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3.
 3. 3. 3. 3. 3. 3. 3. 3. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.
 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.
 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.
 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.
 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.]

Cómo están siendo guardados los datos en esto?, y cómo se supone que puedo acceder a ellos de manera natural?

Osvaldo Olguín

student•

Al intentar ver las dimensiones de los vectores del dataset importado con len(X[0]), me arroja el error KeyError: 0. Al parecer la data importada es un dataframe de pandas. A alguien más le pasó?

Osvaldo Olguín

student•

¿Por qué al calcular las distancias de los data points al centroide de su clúster se eleva la norma al cuadrado? De clases anteriores tenemos esto

Juan Felipe Moreno

student•

Eso se debe al teorema de Pitágoras.

Oscar Francisco Trujillo Puentes

student•

Hola!

Les comparto el código usado para colocar los grupos al array X generado.


X2 = np.insert(X, X.shape[1],A[1], axis=1)

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.margins(0.05)
for i in range(1,4):
    X3 = X2[X2[:,2] == i]
    ax.plot(X3[:,0],X3[:,1], marker='.', linestyle='', ms=12, label=i)
ax.legend()
plt.show()
ax.set_xlim(-1.5,2.5)
ax.set_ylim(-2,2)
plt.show()
```y su resultado:

![](https://static.platzi.com/media/user_upload/Sin%20t%C3%ADtulo-33d44064-1bc0-4b9c-8a2e-81135d159c7b.jpg)

Jhon Freddy Tavera Blandon

student•

import numpy as np
import matplotlib.pyplot as plt

def Kmeans_alg(data, centroids):
    iteration = 0
    J_obj_vector = []
    Stop = False
    while Stop == False:
        grouping = group_assignment(data, centroids)
        new_centroids = update_centroid(data, grouping, centroids)
        J_obj = clustering_objective(data, grouping, new_centroids)
        J_obj_vector.append(J_obj)
        iteration += 1
        if np.linalg.norm(np.array(new_centroids) - np.array(centroids)) < 1e-6:
            Stop = True
        else:
            centroids = new_centroids
    return new_centroids, grouping, J_obj_vector, iteration

def group_assignment(data, centroids):
    # Implementación de asignación de grupos
    pass

def update_centroid(data, grouping, centroids):
    # Implementación de actualización de centroides
    pass

def clustering_objective(data, grouping, centroids):
    J_obj = 0
    for i in range(len(data)):
        for j in range(len(centroids)):
            if grouping[i] == (j+1):
                J_obj += np.linalg.norm(data[i] - centroids[j])**2
    J_obj = J_obj/len(data)
    return J_obj

# Generar datos de muestra
X = np.concatenate([[0.3*np.random.randn(2) for i in range(100)],\
                    [[1,1] + 0.3*np.random.randn(2) for i in range(100)], \
                    [[1,-1]+ 0.3* np.random.randn(2) for i in range(100)]])

# Llamar a la función Kmeans_alg
centroids, _, _, _ = Kmeans_alg(X, X[:3])

# Graficar los puntos y los centroides
plt.scatter(X[:, 0], X[:, 1], label='Puntos')
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='X', label='Centroides')
plt.legend()
plt.xlabel('Eje X')
plt.ylabel('Eje Y')
plt.title('Clustering con K-means')
plt.show()

print("Centroides:")
print(centroids)

Erik Ucenik

student•

Antes de ver, les comparto una implementación que hice en el curso de pensamiento probabilístico:

Gabriel Gallardo

student•

Hola, en la versión actual de pandas existe un problema con el método reshape, por lo que debemos utilizar el método .values.reshape para poder ingresar los valores a nuestro algoritmo. También hay que utilizar la búsqueda por índice con .iloc

A continuación los cambios para poder utilizar los algoritmos

import random
X_reshape = [ X.iloc[i].values.reshape(28,28) for i in range(len(X))]
C = kmeans(X_reshape,random.choices(X_reshape,k=10))

Luego los resultados fueron

Tomas Dale

student•

https://circuitdigest.com/microcontroller-projects/raspberry-pi-based-emotion-recognition-using-opencv-tensorflow-and-keras

El reconocimiento de imagenes lo uso con la raspberry Pi, muy facil de implementar el projecto, con tensorflow y keras

Sebastian Calderón Araque

student•

RETO 1

G1 = np.array([X[i] for i in range(len(X)) if A[1][i] == 1])
G2 = np.array([X[i] for i in range(len(X)) if A[1][i] == 2])
G3 = np.array([X[i] for i in range(len(X)) if A[1][i] == 3])

fig,ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.scatter( G1[:,0], G1[:,1], color="red", label='Grupo 1')
ax.scatter( G2[:,0], G2[:,1], color="blue", label='Grupo 2')
ax.scatter( G3[:,0], G3[:,1], color="green", label='Grupo 3')
ax.set_xlim(-1.5,2.5)
ax.set_ylim(-2,2)
plt.legend()
plt.show()

RETO 2

Este reto fue muy interesante. Lo primero es que fue necesario hacer esto X=np.array(X) para que el código funcionara con el dataset de los números, ya que X era de tipo dataframe en lugar de un arreglo de numpy. La clusterización se realiza en 10 grupos (lo 10 digitos).

from sklearn.datasets import fetch_openml
import matplotlib.pyplot as plt
import numpy as np
import random
import itertools

X, y = fetch_openml('mnist_784', version=1, return_X_y=True)
X=np.array(X)
A = Kmeans_alg(X,random.choices(X,k=10))
a = list(itertools.product(list(range(3)),list(range(4))))

fig, ax = plt.subplots(3,4,figsize=(7,7),dpi=120)
for i,j in zip(a,A[0]):
        ax[i[0]][i[1]].imshow(j.reshape(28,28))
plt.show()

obteniendo lo siguiente:

esto que vemos es el grupo de vectores representativos, por eso es que se ven algo difusos, ya que fue la mejor adaptación que el algoritmo encontró. Tambien podemos notar que la clusterización no es lo suficientemente buena para este caso, ya que repite números como el 1, además de que le cuesta diferenciar el número 4 y 5. Y bueno, el 7 ni aparece por ahí XD.

Hice otro código para ver si estimaba correctamente los números. Le pedi que me mostrara los primeros números que reconociera como un tres

a partir de esto estimo una eficiencia de aproximadamente 60% para detectar el número tres .

Con el número seis le fue mucho mejor. El código que usé es el siguiente:

G1 = np.array([X[i] for i in range(len(X)) if A[1][i] == 3])
b = list(itertools.product(list(range(4)),list(range(4))))

fig, ax = plt.subplots(4,4,figsize=(7,7),dpi=120)
for i,j in zip(b,G1):
        ax[i[0]][i[1]].imshow(j.reshape(28,28))
plt.show()

OJO! el vector A[1] (el cual me indica a qué cluster se asignó cada vector) no necesariamente coincide con el número que se busca hallar (parece obvio pero yo tambien tuve la duda).

Introducción al curso

Este curso tiene una versión actualizada

Vectores en Álgebra Lineal: Definición y Operaciones Básicas

Vectores

Vectores y Escalares: Conceptos y Operaciones Básicas

Convenciones y Notación en Vectores y Escalares

Modelo RGB y su implementación en Python

Adición de Vectores: Conceptos y Propiedades Básicas

Suma de Vectores en Python con NumPy

Producto Escalar-Vectores: Conceptos y Propiedades Básicas

Operaciones con Escalares y Vectores en Python usando NumPy

Producto Interno de Vectores: Definición y Propiedades

Producto Interno de Vectores en Python con NumPy

Análisis de Sentimientos de Tweets con Vectores de Palabras

Funciones lineales

Funciones Lineales: Transformación de Vectores en Escalares

Funciones Lineales y Propiedades de Superposición

Teoremas y Corolarios en Funciones Lineales

Funciones Afines: Propiedades y Ejercicios Prácticos

Aproximaciones de Taylor: Modelos Lineales de Funciones No Lineales

Aproximaciones de Taylor y análisis de error en Python

Regresión Lineal con Datos Geográficos y Socioeconómicos

Norma y distancia

Propiedades y Cálculo de la Norma de Vectores

Cálculo de Distancias entre Vectores usando Normas Euclidianas y LP

Optimización de Visitas para Arrendar Departamentos

Cálculo de Desviación Estándar en Series de Tiempo con NumPy

Modelo de Riesgo Retorno en Inversiones de Acciones

Cálculo de Ángulos y Correlación entre Vectores

Clustering

Clustering con K-Means: Teoría y Aplicación Práctica

Algoritmo K-means: Clustering Geométrico Sin Matemáticas