Uso práctico de Sentence Transformers en procesamiento de textos

Clase 9 de 26 • Curso de Embeddings y Bases de Datos Vectoriales para NLP

Contenido del curso

¿Cómo funcionan los embeddings?

Creación de embeddings

Usando embeddings preentrenados

Bases de datos vectoriales

Conclusiones

26
Potenciando los LLMs: Integración de Embeddings y Datos Vectoriales
03:16 min

Tomar examen

Resumen

Transformar texto en representaciones numéricas que capturen su significado es una de las tareas más poderosas del procesamiento del lenguaje natural. Gracias a modelos preentrenados como Sentence Transformers, podemos hacerlo de forma gratuita, rápida y sin necesidad de entrenar nada desde cero. A continuación se explica paso a paso cómo cargar este modelo, generar embeddings y aplicarlos a un dataset real.

¿Por qué usar modelos preentrenados en lugar de entrenar desde cero?

Existen múltiples métodos para entrenar modelos que comprendan representaciones semánticas de palabras en espacios vectoriales: word2vec, ELMo, BERT, entre otros [0:00]. Sin embargo, la gran mayoría de las veces no necesitamos entrenar un modelo desde cero. El lenguaje no cambia constantemente, por lo que podemos aprovechar modelos preentrenados con un alto conocimiento lingüístico y usarlos de manera global.

Sentence Transformers es un modelo open source disponible en Hugging Face que permite convertir cualquier texto en un vector numérico sin reentrenamiento [0:30]. Este modelo general sirve para diversas tareas de procesamiento del lenguaje, aunque también existen modelos específicos para resumen, question answering y otras aplicaciones.

¿Cómo se instala y configura Sentence Transformers?

Se instala la librería sentence-transformers directamente desde pip.
Se importan pandas y SentenceTransformer junto con util, que incluye métricas de distancia.
Se recomienda usar un runtime con GPU para acelerar el procesamiento [1:05].

El modelo utilizado en este caso es all-MiniLM-L6-v2, un modelo general que se descarga automáticamente la primera vez que se invoca [2:30].

¿Qué dimensionalidad tienen los embeddings generados?

Al pasar dos frases de ejemplo al método encode, el resultado es un arreglo con forma (2, 384) [3:10]. Esto significa que cada texto se representa en un espacio vectorial de 384 dimensiones, independientemente de la longitud del texto original. Esa es la dimensionalidad fija que maneja este modelo.

¿Cuál es el límite de longitud del texto que puede procesar?

Una prueba interesante consiste en pasar un texto extenso, como un capítulo completo de El Señor de los Anillos [3:50]. El modelo genera un embedding sin lanzar ningún error, pero esto puede ser engañoso. Al consultar la propiedad max_seq_length, se descubre que el límite es de 256 tokens [4:30].

El modelo no arroja error al recibir textos más largos.
Simplemente toma los primeros 256 tokens y descarta el resto.
Este comportamiento representa un riesgo importante al trabajar con cualquier modelo open source de lenguaje.

La solución práctica sería dividir textos largos en fragmentos de 256 tokens antes de generar los embeddings.

¿Cómo aplicar embeddings a un dataset completo?

El dataset utilizado es un CSV con los diálogos de la serie animada Avatar, que contiene información sobre personajes, episodios, temporadas y el texto (script) de cada diálogo [1:30].

Para generar los embeddings de toda la columna script, se usa el método encode con dos parámetros clave [5:20]:

batch_size=64: procesa los textos en lotes pequeños para optimizar memoria.
show_progress_bar=True: muestra una barra de progreso para monitorear el avance.

El resultado: 13,369 diálogos embebidos en 384 dimensiones, procesados en aproximadamente siete segundos con GPU [5:55].

¿Por qué es importante usar GPU en vez de CPU?

Al cambiar el parámetro device a "cpu", el mismo proceso apenas alcanza el 1% de avance en el mismo tiempo [6:30]. La GPU permite un procesamiento mucho más rápido y eficiente gracias a su capacidad de paralelización.

¿Cómo almacenar los embeddings en el dataframe?

Una vez generados, los embeddings se convierten a lista con tolist() y se asignan como una nueva columna llamada embedding en el dataframe original [7:10]. El dataset resultante conserva su estructura original y añade la representación vectorial de cada diálogo, lista para aplicar métricas de distancia o búsqueda semántica.

Todo este proceso es gratuito y aprovecha modelos preentrenados de alta calidad. ¿Ya has probado Sentence Transformers en tus proyectos? Comparte tu experiencia en los comentarios.

Comentarios

Eber Laurente Lliuyacc

student•

Notas

sentes-transformers es una biblioteca y framework de embeddings de oraciones o textos completos.
- Características:
  - Utiliza modelos pre-entrenados (como BERT, RoBERTa, DistilBERT entre otros) y técnicas de aprendizaje por transferencia para generar representaciones de texto de alta calidad.
  - A diferencia de Bag of Words o TF-IDF, considera el contexto y la semántica de las oraciones. Lo que permite representaciones más ricas y significativa
- Ventajas:
  - Mejora de la semántica: captura significados semánticos y relaciones entre palabras en las oraciones
  - Facilidad de uso: proporciona una API sencilla para calcular representaciones de oraciones y textos
  - Interoperabilidad: Puede trabajar con una variedad de modelos pre-entrenados y permite la comparación de oraciones entre diferentes idiomas
    - Admite modelos pre-entrenados de varios idiomas, lo significa que puede utilizar modelos diseñados específicamente para un idioma en particular. Algunos modelos pre-entrenados son multilingües lo que permite procesar y comparar oraciones en múltiples idiomas
    - Es compatible con varias arquitecturas de modelos pre-entrenados. Esta flexibilidad permite elegir la arquitectura que mejor se adapte a las necesidades y datos específicos
    - Se pude hacer transformaciones de texto y obtener representaciones vectoriales de oraciones y textos en diferentes idiomas.
    - Facilita la comparación de oraciones y textos utilizando diferentes modelos pre-entrenados, lo que permite evaluar la representación de los datos cuando se procesan con diferentes modelos, ayudando a seleccionar el modelo que mejor se adapte a la tarea
    - Se puede transferir e conocimiento aprendido en un idioma a tareas en otro idioma. Útil en aplicaciones de traducción automática, análisis de sentimientos y procesamiento de texto en general
    - Flexibilidad den la elección de modelos según necesidad y recursos computacionales disponibles. Podemos seleccionar modelos más grandes y precisos para tareas críticas o modelos más ligeros para aplicaciones con restricciones o recursos.
  - Alto rendimiento: Ofrece una representación eficiente de textos y es útil en una amplia gama de aplicaciones NLP

Carlos Perilla

student•

Corrección menor de la clase: el limite de 256, no es de caracteres sino de tokens (palabras en la mayoría de casos)

Rommer Batista

student•

Una forma práctica es dividir documentos extensos en fragmentos de 256 tokens, generar embeddings por fragmento y luego promediarlos para obtener una representación del texto completo, lo que mejora la búsqueda semántica sin superar el límite del modelo

Fabian Villada

student•

Tal cual Rommer seria "CHUNKEAR el texto"

# Importa SentenceTransformer para cargar el modelo de embeddings

from sentence_transformers import SentenceTransformer

# Importa numpy para poder combinar (promediar) embeddings luego

import numpy as np

# Carga el modelo preentrenado que generará los embeddings (vectores)

model = SentenceTransformer("all-MiniLM-L6-v2")

# Obtiene el tokenizer del modelo (sirve para dividir en tokens)

tokenizer = model.tokenizer

# Define una función para dividir un texto largo en fragmentos por cantidad de tokens

def chunk_text_by_tokens(text, max_tokens=200):

# Convierte el texto en una lista de tokens (sin tokens especiales)

tokens = tokenizer.encode(text, add_special_tokens=False)

# Crea una lista vacía donde guardaremos los fragmentos (chunks) en texto

chunks = []

# Recorre la lista de tokens en saltos de max_tokens

for i in range(0, len(tokens), max_tokens):

# Toma un bloque de tokens de tamaño max_tokens

chunk_tokens = tokens[i:i + max_tokens]

# Convierte esos tokens nuevamente a texto

chunk_text = tokenizer.decode(chunk_tokens)

# Agrega el fragmento a la lista

chunks.append(chunk_text)

# Devuelve la lista de fragmentos en texto

return chunks

# ---------------------------

# CHUNKEAR el texto

# ---------------------------

# Divide el texto largo en fragmentos de hasta 200 tokens

chunks = chunk_text_by_tokens(Big_text, max_tokens=200)

# (Opcional) Imprime cuántos fragmentos se generaron

print("Cantidad de chunks:", len(chunks))

# ---------------------------

# VECTORIZAR (EMBEDDINGS) cada chunk

# ---------------------------

# Genera un embedding por cada chunk

# convert_to_numpy=True devuelve un array de numpy (más cómodo para promediar)

chunk_embeddings = model.encode(

chunks, # Lista de textos (chunks) a vectorizar

convert_to_numpy=True, # Devuelve embeddings como numpy arrays

normalize_embeddings=True # (Opcional) Normaliza para similitud coseno

)

# (Opcional) Imprime la forma: (n_chunks, dim_embedding)

print("Shape embeddings:", chunk_embeddings.shape)

# ---------------------------

# (Opcional) UN embedding para TODO el documento

# ---------------------------

# Calcula el embedding del documento completo como el promedio de los embeddings de chunks

doc_embedding = np.mean(chunk_embeddings, axis=0)

# (Opcional) Imprime la dimensión del embedding final del documento

print("Dimensión embedding documento:", doc_embedding.shape)

# ---------------------------

# (Opcional) Guardar pares chunk + embedding

# ---------------------------

# Arma una lista de diccionarios para mantener el texto de cada chunk con su embedding

chunk_data = [

{

"chunk_text": chunk, # El texto del fragmento

"embedding": emb # El vector numérico del fragmento

}

for chunk, emb in zip(chunks, chunk_embeddings)

]

# (Opcional) Muestra el primer chunk y los primeros 10 valores de su embedding

print("Primer chunk:", chunk_data[0]["chunk_text"][:200])

print("Primer embedding (primeros 10 valores):", chunk_data[0]["embedding"][:10])

Luis Boivar

student•

Recomendado el curso de Pandas, ahora tiene más sentido jaja.

Mateo Montoya Henao

student•

Uso Práctico de Sentence Transformers en Procesamiento de Textos

¿Qué son Sentence Transformers?

Sentence Transformers son modelos que generan representaciones vectoriales densas para frases, párrafos e incluso imágenes. Estos modelos están basados en arquitecturas de transformadores, como BERT, RoBERTa y XLM-RoBERTa, y están diseñados para capturar el significado semántico del texto. Esto permite que frases similares estén más cercanas en el espacio vectorial, lo que facilita tareas como la búsqueda semántica y la comparación de documentos.

Cómo Funcionan Sentence Transformers

Generación de Embeddings:
- Sentence Transformers convierten frases en vectores densos que capturan su significado semántico. Esto se logra mediante una arquitectura de transformadores que procesa el texto en contexto.
Entrenamiento:
- Los modelos son entrenados para que frases semánticamente similares tengan vectores cercanos, mientras que frases disimilares tengan vectores alejados. Esto se logra mediante estructuras de red siamesa y triplet.
Uso en Aplicaciones:
- Los embeddings generados se pueden utilizar para tareas como búsqueda semántica, clustering y clasificación de textos.

Aplicaciones Prácticas

Búsqueda Semántica:

Sentence Transformers permiten realizar búsquedas basadas en el significado de las frases, no solo en coincidencias de palabras clave. Esto es especialmente útil en sistemas de búsqueda donde los usuarios pueden usar sinónimos o paráfrasis.

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('all-MiniLM-L6-v2')
query = "What are the advancements in NLP?"
documents = [
    "Machine learning enables advancements in NLP.",
    "Climate change is a pressing issue globally.",
    "Natural language processing allows machines to understand text."
]

query_embedding = model.encode(query)
doc_embeddings = model.encode(documents)
results = util.semantic_search(query_embedding, doc_embeddings, top_k=1)
most_similar_doc = documents[results[0][0]['corpus_id']]
print(f"Most similar document to the query: \"{most_similar_doc}\"")
```**Resultado**:> Most similar document to the query: "Machine learning enables advancements in NLP."

Sentence Transformers permiten realizar búsquedas basadas en el significado de las frases, no solo en coincidencias de palabras clave. Esto es especialmente útil en sistemas de búsqueda donde los usuarios pueden usar sinónimos o paráfrasis.

**Recomendaciones Contextuales**:

En comercio electrónico, Sentence Transformers pueden analizar consultas de usuarios y emparejarlas con descripciones de productos para proporcionar recomendaciones personalizadas.

**Selección de Respuestas en Chatbots**:

Los chatbots pueden utilizar Sentence Transformers para seleccionar las respuestas más relevantes de una lista predefinida, mejorando la satisfacción del usuario.

**Extracción de Información**:

Sentence Transformers pueden identificar y extraer datos estructurados de texto no estructurado, lo que es crucial para construir grafos de conocimiento.

**Recuperación Multimodal**:

Los avances en Sentence Transformers permiten la recuperación de información en diferentes formatos, como texto, imágenes y audio, basándose en la intención semántica de la consulta.

#### Ventajas sobre Métodos Tradicionales

* **Captura de Significado Semántico**: A diferencia de los métodos basados en bolsa de palabras, Sentence Transformers capturan el contexto y el orden de las palabras, lo que permite una comprensión más profunda del texto.
* **Eficiencia**: Son altamente eficientes para tareas de gran escala, como la búsqueda semántica en grandes corpus de texto.

#### Desafíos y Limitaciones

* **Requisitos de Cómputo**: Requieren recursos computacionales significativos para el entrenamiento y pueden ser propensos a sesgos presentes en los datos de entrenamiento.
* **Desempeño en Idiomas con Pocos Recursos**: El rendimiento puede ser limitado en idiomas con menos datos de entrenamiento disponibles.

### Conclusión

Sentence Transformers son una herramienta poderosa en el procesamiento del lenguaje natural que permite capturar el significado semántico de frases y párrafos. Su capacidad para generar embeddings densos y contextuales los hace ideales para una amplia gama de aplicaciones, desde búsqueda semántica hasta recomendaciones personalizadas y chatbots. A medida que estas tecnologías continúan evolucionando, su impacto en el procesamiento de texto será aún mayor.

denisse.velasquez

student•

sentence_transformers es muy util! así utilizas grandes modelos de lenguaje sin bajarlos a tu computadora o a colab.

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('all-MiniLM-L6-v2')
query = "What are the advancements in NLP?"
documents = [
    "Machine learning enables advancements in NLP.",
    "Climate change is a pressing issue globally.",
    "Natural language processing allows machines to understand text."
]

query_embedding = model.encode(query)
doc_embeddings = model.encode(documents)
results = util.semantic_search(query_embedding, doc_embeddings, top_k=1)
most_similar_doc = documents[results[0][0]['corpus_id']]
print(f"Most similar document to the query: \"{most_similar_doc}\"")
```**Resultado**:> Most similar document to the query: "Machine learning enables advancements in NLP."

Sentence Transformers permiten realizar búsquedas basadas en el significado de las frases, no solo en coincidencias de palabras clave. Esto es especialmente útil en sistemas de búsqueda donde los usuarios pueden usar sinónimos o paráfrasis.

**Recomendaciones Contextuales**:

En comercio electrónico, Sentence Transformers pueden analizar consultas de usuarios y emparejarlas con descripciones de productos para proporcionar recomendaciones personalizadas.

**Selección de Respuestas en Chatbots**:

Los chatbots pueden utilizar Sentence Transformers para seleccionar las respuestas más relevantes de una lista predefinida, mejorando la satisfacción del usuario.

**Extracción de Información**:

Sentence Transformers pueden identificar y extraer datos estructurados de texto no estructurado, lo que es crucial para construir grafos de conocimiento.

**Recuperación Multimodal**:

Los avances en Sentence Transformers permiten la recuperación de información en diferentes formatos, como texto, imágenes y audio, basándose en la intención semántica de la consulta.

#### Ventajas sobre Métodos Tradicionales

* **Captura de Significado Semántico**: A diferencia de los métodos basados en bolsa de palabras, Sentence Transformers capturan el contexto y el orden de las palabras, lo que permite una comprensión más profunda del texto.
* **Eficiencia**: Son altamente eficientes para tareas de gran escala, como la búsqueda semántica en grandes corpus de texto.

#### Desafíos y Limitaciones

* **Requisitos de Cómputo**: Requieren recursos computacionales significativos para el entrenamiento y pueden ser propensos a sesgos presentes en los datos de entrenamiento.
* **Desempeño en Idiomas con Pocos Recursos**: El rendimiento puede ser limitado en idiomas con menos datos de entrenamiento disponibles.

### Conclusión

Sentence Transformers son una herramienta poderosa en el procesamiento del lenguaje natural que permite capturar el significado semántico de frases y párrafos. Su capacidad para generar embeddings densos y contextuales los hace ideales para una amplia gama de aplicaciones, desde búsqueda semántica hasta recomendaciones personalizadas y chatbots. A medida que estas tecnologías continúan evolucionando, su impacto en el procesamiento de texto será aún mayor.

Uso práctico de Sentence Transformers en procesamiento de textos

¿Cómo funcionan los embeddings?

Cómo Entender y Aplicar Embeddings en IA: De Teoría a Práctica

Introducción a One-Hot Encoding y TF-IDF en IA

Representación Vectorial de Palabras

Evaluación de Similitudes Semánticas: Métodos y Aplicaciones

Creación de embeddings

Creación y entrenamiento de modelos Word2Vec con Gensim

Procesamiento y Limpieza de Datos para IA con Word2Vec y Gensim

Entrenamiento de Modelos Word2Vec con GenSim y Análisis de Similitud

Word2Vec: Entrenando IA para Comprender el Lenguaje

Usando embeddings preentrenados