Embeddings en Chroma con LangChain y OpenAI

Curso de LangChain

Contenido del curso

Introducción a LangChain

Casos de uso de LangChain

Manejo de documentos con índices

Embeddings y bases de datos vectoriales

Chats y memoria con LangChain

Evolución del uso de LLM

37
Ecosistema LLM y qué sigue después de LangChain
05:26 min

Tomar examen

Embeddings en Chroma con LangChain y OpenAI

Resumen

Convertir documentos en vectores numéricos es el paso que conecta tu información cruda con un sistema capaz de responder preguntas. Aquí aprenderás a generar embeddings con OpenAI, almacenarlos en una base de datos vectorial Chroma usando LangChain y manejar su recreación o carga según convenga. Esta guía es para quienes construyen aplicaciones de búsqueda semántica o asistentes conversacionales con documentación propia.

¿Cómo configurar la API de OpenAI antes de generar embeddings?

Antes de tocar una sola línea de embeddings, necesitas validar que tu llave de OpenAI esté disponible como variable de ambiente. Sin esto, nada corre.

Desde el módulo utils se importa la función get_openai_api_key, que revisa si tienes configurada la variable OPENAI_API_KEY. Si no la tienes, el script falla y te avisa. La solución es simple: copia tu llave desde el panel de desarrolladores de OpenAI y expórtala en tu terminal antes de ejecutar.

¿Qué es un embedding? Es la representación numérica de un texto en forma de vector. Permite que un modelo compare significados entre fragmentos calculando distancia entre vectores en lugar de comparar palabras literales.

¿Cómo generar embeddings con OpenAI y LangChain?

La instancia de embeddings es el motor que traduce tus documentos a números. Aquí defines qué modelo usar y cómo inicializarlo [1:15].

Desde langchain.embeddings importas OpenAIEmbeddings y creas una instancia indicando el modelo. En este caso se usa text-embedding-ada-002, un modelo de OpenAI diseñado específicamente para generar embeddings de alta calidad [1:30].

python from langchain.embeddings import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

Al correr el script con Poetry, los embeddings se inicializan correctamente y quedan listos para alimentar la base vectorial.

¿Cómo guardar embeddings en una base de datos Chroma?

Una vez tienes los embeddings y los documentos partidos, toca unirlos en Chroma, una base de datos vectorial open source que se integra de forma nativa con LangChain [2:45].

La lógica se encapsula en una función llamada get_chroma_db que recibe tres argumentos clave:

Los embeddings que vas a usar para vectorizar.
Los documentos de LangChain ya fragmentados.
Un path donde persistir la base de datos.

¿Por qué usar una variable recreate_chroma_db?

No siempre quieres regenerar todo desde cero. Procesar cientos de documentos toma tiempo y consume llamadas a la API de OpenAI, lo que cuesta dinero.

Por eso se introduce la variable booleana recreate_chroma_db. Si está en True, el sistema recrea la base de datos desde cero usando Chroma.from_documents, vectoriza todo y guarda en persist_directory. Si está en False, simplemente carga la base existente desde el path indicado, reutilizando los embeddings ya calculados [4:50].

python from langchain.vectorstores import Chroma from rich.console import Console

console = Console()

def get_chroma_db(embeddings, documents, path): if recreate_chroma_db: console.print("Recreando Chroma DB") return Chroma.from_documents( documents=documents, embedding=embeddings, persist_directory=path ) else: console.print("Cargando Chroma existente") return Chroma( persist_directory=path, embedding_function=embeddings )

¿Cómo mejorar la salida en la terminal con rich?

La librería rich permite imprimir mensajes con colores y formato en la consola. Importas Console desde rich.console, instancias el objeto y usas console.print para mostrar mensajes en verde u otros estilos [5:30].

Esto no es decorativo nada más: en proyectos largos te ayuda a distinguir rápido entre logs de creación, carga y errores.

¿Cuántos fragmentos se cargan en la base vectorial Chroma?

Al ejecutar el script con recreate_chroma_db = True, el sistema procesa toda la documentación de Hugging Face fragmentada y la convierte en vectores [7:10].

El resultado: 1807 fragmentos cargados como embeddings en la base de datos Chroma. Cada uno representa una porción de texto convertida en un vector numérico, lista para búsquedas semánticas.

¿Qué hace persist_directory en Chroma? Define la carpeta local donde se guardan los vectores. Permite que la base de datos sobreviva entre ejecuciones, evitando recalcular embeddings cada vez que corres el script.

Después de la primera carga, en el directorio del proyecto aparece la carpeta chroma-docs, que contiene la base persistida. A partir de ese momento, cambias recreate_chroma_db a False y la próxima ejecución solo carga lo que ya existe.

Conceptos y herramientas clave usados en el flujo

Estos son los elementos técnicos que aparecen en el desarrollo y conviene tener claros:

OpenAIEmbeddings: clase de LangChain que conecta con la API de OpenAI para generar vectores [1:20].
text-embedding-ada-002: modelo de embeddings de OpenAI optimizado para semántica [1:35].
Chroma: base de datos vectorial que almacena embeddings y permite búsquedas por similitud [3:00].
from_documents: método que recibe documentos y embeddings para crear la base desde cero [5:15].
persist_directory: parámetro que define dónde se guarda físicamente la base vectorial [5:45].
rich.console: librería para imprimir logs estéticos en terminal [5:25].

Con la base vectorial lista, el siguiente paso es hacerle preguntas en lenguaje natural y recuperar los fragmentos más relevantes. ¿Ya configuraste tu primera base Chroma? Cuéntame en los comentarios qué documentación estás vectorizando.

Valentina Arenas Lozano

Estudiante

Dejo mi código con algunas mejoras. Para filtrar a que documentos tiene acceso el retriver y como eliminar archivos para hacer un pipeline de carga de datos al agregar archivos o actualizarlos

from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# Create an OpenAI embedding model to generate vector embeddings from text
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vs_path = "vector_store"

if not os.path.isdir(vs_path):
    # Create a Chroma vectorstore from a list of documents and embeddings
    vs = Chroma.from_documents(
        documents=documents,
        embedding=embeddings,
        persist_directory=vs_path
    )
else:
    vs = Chroma(
        embedding_function=embeddings,
        persist_directory=vs_path
    )

# Define metadata to search (filter by the field 'id')
metadata_filter = {'id': 2}
docs = vs.similarity_search("doc", k=3, filter=metadata_filter)
docs

# Convert the vectorstore into a retriever
metadata_filter = {'id': 4}
retriever = vs.as_retriever(search_kwargs={"k": 3, "filter": metadata_filter})
retriever.invoke("documentos")

# Access the documents and metadata from the vectorstore
all_data = vs._collection.get()

# Extract the IDs and metadata
ids = all_data['ids']
metadatas = all_data['metadatas']

# Function to filter metadata using a dictionary of attributes
def filter_by_metadata(metadata, filter_dict):
    """
    Check if all key-value pairs in the filter_dict match the metadata.
    If all conditions are met, return True.
    """
    return all(
        metadata.get(key) == value
        for key, value in filter_dict.items()
    )

# Dictionary with the filters to apply (multiple attributes)
filter_dict = {
    "source": '/content/documents.jsonl',
    "seq_num": 1
}

# Filter the IDs based on the filter dictionary attributes
filtered_ids = [
    doc_id
    for doc_id, meta in zip(ids, metadatas)
    if filter_by_metadata(meta, filter_dict)
]

# Delete the filtered IDs
vs.delete(filtered_ids)

print('documents:', len(vs._collection.get()['documents']))
print('metadatas:', len(vs._collection.get()['metadatas']))
print('ids:', len(vs._collection.get()['ids']))
```from langchain.embeddings import OpenAIEmbeddingsfrom langchain.vectorstores import Chroma
\# Create an OpenAI embedding model to generate vector embeddings from textembeddings = OpenAIEmbeddings(model="text-embedding-3-small")vs\_path = "vector\_store"
if not os.path.isdir(vs\_path):    # Create a Chroma vectorstore from a list of documents and embeddings    vs = Chroma.from\_documents(        documents=documents,        embedding=embeddings,        persist\_directory=vs\_path    )else:    vs = Chroma(        embedding\_function=embeddings,        persist\_directory=vs\_path    )

Embeddings en Chroma con LangChain y OpenAI

Introducción a LangChain

Creación de un sistema de preguntas y respuestas con LangChain

Estructura y Uso de Langchain en Python

Carga de Modelos Open Source con Langchain y Hugging Face

Cómo usar modelos OpenAI con LangChain

Creación de Prompts Dinámicos con LangChain

Tipos de cadenas en LangChain

Resumir PDFs largos con LangChain chains

Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje

Cómo encadenar TransformChain y LLMChain

Casos de uso de LangChain

Qué es Langchain y por qué importa

Implementación de Lanchain y LLMs: Costos, Privacidad y Buenas Prácticas

Manejo de documentos con índices

Cómo los índices dan memoria a los LLMs

Fundamentos de la Clase Document en Langchain

Cómo cargar PDFs en LangChain

Lectura de CSV y conversión a DataFrame de Pandas y LangChain

Cargador JSONL personalizado en LangChain

Fragmentación de Documentos con TextSplitter en Langsteam

Inicialización del proyecto chatbot con Langchain

Cómo partir documentos JSONL para Chroma

Embeddings y bases de datos vectoriales

Cómo los embeddings encuentran información relevante

Embeddings con OpenAI y LangChain

Embeddings open source con LangChain y Hugging Face

Creación y Gestión de Bases de Datos Vectoriales con Chroma