Evaluación de Similitudes Semánticas: Métodos y Aplicaciones

Clase 4 de 26 • Curso de Embeddings y Bases de Datos Vectoriales para NLP

Resumen

¿Por qué es importante calcular distancias en vectores?

Trabajar con vectores es una ventaja significativa en el análisis del lenguaje, pues nos permite evaluar distancias entre ellos para determinar similitudes o diferencias semánticas entre palabras. Al conocer la distancia, identificamos qué tan cercanas o alejadas están ciertas palabras en un contexto semántico, lo que es crucial para comprender cómo se relacionan en nuestro lenguaje.

¿Qué es la similitud por coseno?

Esta es una de las primeras métricas para evaluar la similitud entre vectores. En esencia:

Coseno de vectores: Los vectores con direcciones similares poseen palabras similares. El ángulo entre estos vectores indica su semejanza: cuanto menor es el ángulo, mayor es la similitud.
Método de similitud por coseno: Multiplicamos cada uno de los elementos de los vectores y sumamos los resultados. A continuación, el vector A y B se elevan al cuadrado y se aplica una raíz cuadrada para normalizarlos. Finalmente, se establece la relación entre el producto punto y la normalización de ambos vectores para obtener un valor entre 0 y 1.

Ejemplo en Python:

import numpy as np

# Definimos los vectores gato y perro
gato = np.array([0.8, 0.22, 0.5])
perro = np.array([0.7, 0.3, 0.4])

# Calculamos la similitud por coseno
dot_product = np.dot(gato, perro)
gato_norm = np.linalg.norm(gato)
perro_norm = np.linalg.norm(perro)
cosine_similarity = dot_product / (gato_norm * perro_norm)

print(cosine_similarity)  # Resultado entre 0 y 1

¿Qué otros métodos de distancia se utilizan?

Distancia euclidiana

A diferencia de la similitud por coseno, la distancia euclidiana evalúa tanto la dirección como la magnitud de los vectores:

Resta de vectores: Restamos los valores de los vectores A y B.
Normalización: Elevamos al cuadrado sus diferencias, sumamos, y aplicamos una raíz cuadrada.

La distancia euclidiana mide en particular qué tan cercanos están dos puntos en un espacio vectorial.

Producto punto

Ya utilizado en el cálculo de la similitud por coseno, el producto punto se puede utilizar por separado. Este método tiene tres interpretaciones clave según el resultado:

Mayor a 0: ángulo menor a 90° = vectores más similares.
Igual a 0: vectores ortogonales.
Menor a 0: ángulo mayor a 90° = vectores menos similares.

¿Cómo podemos automatizar el cálculo de estas métricas?

Gracias a bibliotecas como NumPy, es posible realizar estos cálculos de manera sencilla en Python. Los ejemplos de código antes mencionados son aplicables en entornos de programación estándar para analizar vectores semánticos sin tener que realizar cálculos matemáticos manualmente.

Finalmente, conocer y utilizar estas métricas no solo te permitirá analizar palabras de manera eficiente, sino también te ayudará a construir modelos más robustos y entrenar sistemas de inteligencia artificial que dependen de estas representaciones vectoriales. ¡Anímate a explorar con vectores distintos y descubre nuevas relaciones semánticas!

Hector Salvador Fisharp

student•

Un aporte para el reto de la distancia entre vectores:

Siguiendo el ejemplo ilustrado en el video anterior (acerca de los espacios vectoriales y dimensionalidad) podemos representar las palabras para el reto mediante una tabla simple (sólo a modo ilustrativo, pues ya vimos que en realidad se trata de vectores en múltples dimensiones) con: ⬇

Palabra	Género	Edad	Realeza
reina	9	7	8
rey	1	7	8
mujer	9	7	0
hombre	1	7	0
niña	9	2	0
niño	1	2	0
✅ Notebook con solución propuesta en Colab

Rafael Gibrán Amparán Durán

student•

Corrección: La similitud por coseno es una métrica con un rango de valores que van de -1 a 1 (no 0 a 1).

1 significa que son iguales

0 que son diferentes

-1 que son opuestos.

Santiago Ahumada Lozano

student•

Como dato interesante: El producto interno A*B entre dos vectores es 0 si son perperdiculares y crece cuando son paralelos (Uno encima de otro) Por eso es que la distancia del coseno mide similitud eficientemente

Fredy Alberto Orozco Loaiza

student•

Hay que tener que el coseno está definido entre -1 y 1. Siendo -1 un vector con se sentidos opuestos y 1 misma orientación

Massimo Di Berardino

student•

Regresión logística

Mauricio Velasco Flores

student•

¿Los valores de gato y perro de donde los sacó? o solo son inventados para dar el ejemplo

Ever Augusto Torres Silva

student•

En efecto, son solo ejemplos para entender mejor el problema. De igual manera las dimensiones de los vectores también son asignadas.

Mateo Montoya Henao

student•

Evaluación de Similitudes Semánticas: Métodos y Aplicaciones

¿Qué es la Similitud Semántica?

La similitud semántica se refiere al grado de similitud entre dos palabras, frases o textos en términos de su significado y contexto. La idea es medir cuán relacionados o análogos son los conceptos, ideas o información transmitida en dos textos.

Métodos de Evaluación de Similitudes Semánticas

Word Embeddings:
- Definición: Representan palabras como vectores en un espacio de alta dimensión, donde palabras con significados similares tienen vectores cercanos.
- Modelos Populares: Word2Vec, GloVe, FastText.
- Ventajas: Capturan relaciones semánticas y de analogía entre palabras.
- Desventajas: No manejan bien palabras compuestas o con errores ortográficos.
TF-IDF (Term Frequency-Inverse Document Frequency):
- Definición: Combina la frecuencia de una palabra en un documento con su frecuencia inversa en el corpus para ponderar su importancia.
- Ventajas: Penaliza palabras comunes y proporciona una representación de características más informativa.
- Desventajas: No captura contexto o semántica.
BERT (Bidirectional Encoder Representations from Transformers):
- Definición: Modelo de transformadores bidireccional que captura el contexto de palabras en un texto.
- Ventajas: Captura relaciones semánticas complejas y contextuales.
- Desventajas: Requiere grandes cantidades de datos y cómputo para entrenar.
Universal Sentence Encoder (USE):
- Definición: Genera vectores de fija dimensión para frases que pueden usarse en cualquier tarea de NLP.
- Ventajas: Eficiente y versátil para una amplia gama de tareas.
- Desventajas: Puede ser menos preciso que modelos más específicos.
Sentence-BERT (SBERT):
- Definición: Variante de BERT optimizada para la similitud semántica de frases.
- Ventajas: Más rápido y eficiente que BERT para tareas de similitud semántica.
- Desventajas: Requiere entrenamiento adicional para adaptarse a tareas específicas.

Aplicaciones de la Similitud Semántica

Sistemas de Búsqueda:
- Mejora la relevancia de los resultados de búsqueda al entender el contexto y el significado de las consultas.
Sistemas de Recomendación:
- Proporciona recomendaciones basadas en la similitud semántica entre contenido.
Sistemas de Preguntas y Respuestas:
- Mejora la capacidad de los sistemas de comprender y responder a consultas complejas.
Resumen de Texto:
- Ayuda a identificar y resumir contenido similar.
Análisis de Sentimiento:
- Determina el tono emocional y la intención detrás de un texto.
Clustering de Corpus:
- Agrupa documentos con contenido similar para análisis y organización.

Fabian Villada

student•

Acá les dejo enlace a github donde podrán ver resumen realizado de las primeras clases, el cual continuare actualizando a medida q avance en el curso. Agradecería sus aportes y correcciones si las hubiera.

Katerine Valencia Chantre

student•

Hola! en casos se podría dar o podría ser necesario restar la similitud por coseno con 1?

david alvarez

student•

Cuando el profe dice que cosine_similarity es igual al resultado anterior a que resultado se refiere, ya que no veo la exactitud.

Miguel Torres

student•

se refiere al de los ejemplos en las slides :D

cuando se usaron las fórmulas en el min 3 de la clase. 🤓

Miguel Torres

student•

Nydia Mejía Zavala

student•

La diversidad y completud del vocabulario en modelos de embeddings se asegura mediante el uso de grandes datasets representativos, que incluyen documentos variados y recientes. Esto permite captar un espectro amplio de términos y contextos. Para palabras poco frecuentes pero con alta carga semántica, se utilizan técnicas como el aumento de datos o la transferencia de conocimiento desde palabras más comunes. Esto ayuda a que el modelo reconozca su relevancia, incluso en contextos limitados, mejorando la calidad de la representación vectorial. Aunque tengo la inquietud de que al solo vectorizar palabras recientes, se contribuye a la pérdida de diversidad léxica. Creo que también puede haber sesgo desde la selección de las bases de datos, al no sopesar los aspectos sociales del lenguaje.

Andres Mauricio Castro Llanos

student•

Los valores de los vectores para "gato" y "perro" en un ejemplo real se derivan de sus representaciones en embeddings. Estos valores son generados por modelos de lenguaje como Word2Vec, que asignan a cada palabra un vector en un espacio multidimensional. En un caso práctico, después de entrenar un modelo con un corpus de texto, podrías obtener vectores específicos para "gato" y "perro" que reflejan su similitud semántica. Por ejemplo, si "gato" tiene un vector de [0.2, 0.4, 0.1] y "perro" de [0.3, 0.5, 0.1], su distancia será baja, indicando que son palabras similares.

Fabian Villada

student•

que bueno ver que la matemáticas vectoriales son la herramienta por medio del cual se construye un sistema de representación semantica que permite a la ia básicamente leer y escribir oraciones con sentido semántico

Palabra

Género

Edad

Realeza

reina

rey

mujer

hombre

niña

niño

✅ Notebook con solución propuesta en Colab

Evaluación de Similitudes Semánticas: Métodos y Aplicaciones

¿Cómo funcionan los embeddings?

Cómo Entender y Aplicar Embeddings en IA: De Teoría a Práctica

Introducción a One-Hot Encoding y TF-IDF en IA

Representación Vectorial de Palabras

Evaluación de Similitudes Semánticas: Métodos y Aplicaciones

Creación de embeddings

Creación y entrenamiento de modelos Word2Vec con Gensim

Procesamiento y Limpieza de Datos para IA con Word2Vec y Gensim

Entrenamiento de Modelos Word2Vec con GenSim y Análisis de Similitud

Word2Vec: Entrenando IA para Comprender el Lenguaje

Usando embeddings preentrenados

Uso práctico de Sentence Transformers en procesamiento de textos

Análisis Semántico: Buscar Textos con Sentence Transformers

Manejo de Embeddings con OpenAI: API, Instalación y Datasets

Manejo y Visualización de Embeddings con OpenAI: Guía Práctica

Creación de un Motor de Búsqueda Semántico con Python

Transformación de Texto a Embeddings con Sentence Transformer

Bases de datos vectoriales

Qué es y cómo usar una base de datos vectorial

Gestión de Bases de Datos Vectoriales con ChromaDB: Instalación y Uso

Generación y manejo de embeddings en Chroma con Sentence Transformer

Consultas avanzadas y filtrado en bases de datos con Chroma

Cargar colección de Chroma previamente creada

Configuración y Uso de Pinecone: Desde la Instalación hasta la Inserción de Datos

Optimización de Ingesta de Datos en Pinecone: Procesos y Estrategias

Consultas Avanzadas en Pinecone: De Texto a Vector y Filtros

Carga de índices en Pinecone: Gestión eficiente en la nube

Carga de embeddings en Pinecone para búsqueda semántica

Creación de buscador semántico con Gradio y Sentence Transformer

Conclusiones

Potenciando los LLMs: Integración de Embeddings y Datos Vectoriales