Producto punto: cómo mide similitud la IA

Clase 7 de 16 • Curso de Álgebra Lineal para Machine Learning

Resumen

La similitud entre vectores es clave en machine learning: desde sistemas de recomendación hasta búsqueda semántica y modelos de lenguaje. Aquí verás cómo el producto punto y la similitud coseno explican si dos vectores “apuntan” en la misma dirección, cómo implementarlo en NumPy y cómo aplicarlo con vectores de palabras preentrenados.

¿Por qué el producto punto mide similitud en machine learning?

El producto punto captura la alineación entre dos vectores: si representan gustos y una película, un valor alto implica mayor afinidad. En recomendación, un score alto entre tu perfil y una serie significa mejor sugerencia. En búsqueda semántica, mide relevancia de significado, no coincidencia exacta de palabras. En modelos de lenguaje, interviene en la atención para decidir qué palabras ponderar más al generar la siguiente.

¿Qué exige el shape de los vectores?

Los vectores deben tener el mismo número de componentes.
Verifica siempre el shape antes de calcular el producto punto.

¿Por qué coseno y no seno para la similitud?

Cos(0°) = 1: máxima similitud cuando están perfectamente alineados.
Cos(90°) = 0: indica ortogonalidad (sin relación lineal).
Cos(180°) = −1: máxima oposición, nada de similitud.
El seno daría 0 tanto a 0° como a 180° y su máximo en 90°, lo que no refleja la intuición de similitud.

¿Cómo calcular producto punto y similitud coseno en NumPy?

Primero, crea dos vectores y calcula el producto punto con NumPy. Hay dos formas: usando np.dot o el operador @.

import numpy as np

U = np.array([2, 3])
V = np.array([4, 1])

producto_punto_np = np.dot(U, V)
producto_punto_at = U @ V

print(f"resultado con np.dot: {producto_punto_np}")
print(f"producto punto con operador @: {producto_punto_at}")
# Ambos imprimen 11

Luego, estandariza con similitud coseno: producto punto normalizado por las normas (magnitudes). El resultado siempre está en [−1, 1].

def similitud_coseno(v1, v2):
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

¿Qué significa el valor del producto punto?

Por sí solo, depende de la magnitud de los vectores.
Estandariza con similitud coseno para comparar en una escala común.
Valores cercanos a 1: muy similares. Cercanos a 0: no relacionados. Cercanos a −1: opuestos.

¿Qué habilidades y conceptos refuerzas aquí?

Uso de NumPy para operaciones vectoriales: np.array, np.dot, @, np.linalg.norm.
Comprensión de norma, producto punto, ángulo theta y ortogonalidad.
Interpretación práctica del score de afinidad y la relevancia semántica.

¿Cómo aplicar similitud coseno con vectores de palabras preentrenados?

Se emplea Gensim para descargar vectores de palabras y medir similitud semántica. El enfoque se limita a usar un modelo preentrenado para comparar palabras a través de sus vectores.

# En Google Colab
!pip install gensim

import gensim.downloader as api
print("descargando modelo de vectores de palabras...")
word_vectors = api.load("globe-wiki-gigaword-50")
print("modelo cargado")

Crea variables con vectores de palabras y calcula la similitud coseno.

rey = word_vectors['king']
hombre = word_vectors['man']
reina = word_vectors['queen']
gato = word_vectors['cat']

sim_rey_hombre = similitud_coseno(rey, hombre)
sim_rey_reina = similitud_coseno(rey, reina)
sim_rey_gato = similitud_coseno(rey, gato)

print(f"similitud rey-hombre: {sim_rey_hombre:.2f}")
print(f"similitud rey-reina: {sim_rey_reina:.2f}")
print(f"similitud rey-gato: {sim_rey_gato:.2f}")

¿Qué observas en los resultados?

rey–reina y rey–hombre: similitud relativamente alta.
rey–gato: similitud baja, tiene sentido semántico.
La métrica funciona porque compara direcciones, no solo magnitudes.

¿Qué práctica puedes realizar ahora?

Define vectores de 3 componentes para tus intereses: tecnología, arte, deportes.
Crea un vector para un amigo o familiar en el mismo orden.
Calcula la similitud coseno y responde: ¿qué tan alineados están sus intereses?.

¿Listo para probar con tus propios gustos o palabras? Comparte tus resultados y cuéntanos qué pares te dieron mayor y menor similitud. Además, ¿qué ideas te surgen sobre ortogonalidad y sistemas de coordenadas con vectores ortogonales?

Pablo Joaquín Cruz

student•

Por curiosidad quise ver qué tenían los vectores dentro y me encontré con esto:

Cada vector de esta librería tiene 50 componentes, o sea que cada palabra se evalúa en 50 dimensiones. Una locura.

Daniel Erazo

teacher•

Sí una locura, imposible de visualizar para un ser humano, por surte tenemos el PCA!

Darlinson Felipe Polania Camacho

student•

Parece que en tecnología, arte, deportes, son muy similares a el, ya que tiene alto puntaje de similitud 0.9

Victor Nuñez

student•

Tuve un problema al instalar gensim ya que estoy utilizando un entorno montado con uv, si para alguno de ustedes es el caso gensim necesita Python 3.13.4 para funcionar no es compatible todavia con Python 3.14, para esto pueden utilizar el siguiente comando al momento de inicializar el entorno virtual con uv:

uv venv --python 3.13.4

luego pueden usar ya este comando para instalar gensim:

uv add gensim

Daniel Erazo

teacher•

Muchas gracias por el aporte! 🙌🏼

Juan Pablo Marin Jimenez

student•

Me queda la duda en que rangos se moveran los vectores?

Jhon Alexander García Sierra

student•

Roberto Fernández Vega

student••

A la hora de ejecutar el código siguiente:

import gensim.downloader as api
print("descargando modelo de vectores de palabras...")
word_vectors = api.load("wiki-gigaword-50")
print("modelo cargado")

Me apareció un error ("Incorrect model/corpus name"). Es decir, el modelo no estaba siendo encontrado. Para corregirlo, propongo ejecutar las siguientes líneas previamente:

import gensim.downloader as api

info = api.info()  # diccionario con modelos y datasets disponibles
print([k for k in info["models"].keys() if "glove-wiki-gigaword" in k])

De esta manera, tendremos un diccionario con los nombres reales para cargar. En este caso, el código fallaba que el nombre que introduje era "globe-wiki-gigaword-50", pero el nombre correcto era "glove-wiki-gigaword-50":

import gensim.downloader as api

print("descargando modelo de vectores de palabras...")
word_vectors = api.load("glove-wiki-gigaword-50")
print("modelo cargado")

Espero que esto les sirva!

Daniel Erazo

teacher•

Muchas gracias por el aporte!

Gabriel Obregón

student•

📌Similitud entre vectores en Machine Learning

➡️ Producto punto

¿Qué mide? La alineación entre dos vectores (si “apuntan” en la misma dirección).

Interpretación práctica:

🎥 Recomendación: Perfil del usuario · Película → score alto = mejor recomendación
📚 Búsqueda semántica: Relevancia de significado, no coincidencia exacta de palabras
🗣️ Modelos de lenguaje: Determina qué palabras son más importantes en un contexto (atención)

👉 Valor alto = mayor afinidad entre vectores.

📐 Requisitos de los vectores (shape)

Antes de calcular el producto punto:

Los vectores deben tener:
- El mismo número de componentes
Verifica el shape siempre antes de operar

❌ Si no coinciden → no es válido el cálculo.

🔄 ¿Por qué similitud coseno?

La similitud coseno depende del ángulo entre los vectores, no de su tamaño.

Valores clave:

Cos(0°) = 1 → Máxima similitud (vectores perfectamente alineados)
Cos(90°) = 0 → Ortogonalidad (sin relación lineal)
Cos(180°) = −1 → Máxima oposición (vectores opuestos)

🚫 ¿Por qué no seno?

El seno da 0 tanto en 0° como en 180°
Su máximo es a 90° → no refleja bien la similitud.

🧮 Producto punto en NumPy

Calcular el producto punto en NumPy: Dos formas equivalentes:

import numpy as np

U = np.array([2, 3])

V = np.array([4, 1])

np.dot(U, V) # o también U @ V

✅ Ambos devuelven: 11

📏 Similitud coseno en NumPy

La similitud coseno se obtiene normalizando el producto punto con las magnitudes de los vectores.

Fórmula:

def similitud_coseno(v1, v2):

return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

🔢 Resultado entre −1 y 1

🔄 Compara vectores en una escala común.

Johan L

student•

intereses_yo = np.array([10, 8, 9]) 
intereses_amigo = np.array([5, 10, 7]) 

similitud_yo_amigo = similitud_coseno(intereses_yo, intereses_amigo)
print(f"Similitud entre intereses: {similitud_yo_amigo:.2f}")

Resultado: Similitud entre intereses: 0.93

Daniel Erazo

teacher•

Sus intereses están muy bien alineados!

NESTOR IVAN RONCANCIO CABALLERO

student•

Alberto Ezequiel Marin Chacon

student•

Daniel Erazo

teacher•

Sus intereses están muy bien alineados, me pregunto qué significarán esos vectores 🤔

Darlinson Felipe Polania Camacho

student•

Toca delimitarlos para interpretarlos

intereses_yo = np.array([10, 8, 9]) 
intereses_amigo = np.array([5, 10, 7]) 

similitud_yo_amigo = similitud_coseno(intereses_yo, intereses_amigo)
print(f"Similitud entre intereses: {similitud_yo_amigo:.2f}")

Producto punto: cómo mide similitud la IA

Introducción al Álgebra Lineal para Machine Learning

Cómo Netflix sabe qué quieres ver

Configurar Google Colab para álgebra lineal

NumPy y Matplotlib: de números a gráficos

Escalares, vectores y tensores en Machine Learning

Operaciones con Vectores y Matrices

Resta y multiplicación escalar en machine learning

Norma L2 vs L1 en vectores con NumPy

Producto punto: cómo mide similitud la IA

Ortogonalidad en machine learning con Python

Multiplicación de Matrices

Producto matriz-vector en NumPy para inferencia

Producto matriz matriz en NumPy

Matriz identidad e inversa en NumPy

Construcción de un Modelo de Regresión Lineal

Cómo predecir precios con álgebra lineal

Cómo resolver theta con np.linalg.solve

Determinante y rango en regresión lineal

Por qué la multicolinealidad rompe el entrenamiento

Pseudoinversa para multicolinealidad en NumPy