Cadena RetrievalQA para preguntar a documentos

Curso de LangChain

Contenido del curso

Introducción a LangChain

Casos de uso de LangChain

Manejo de documentos con índices

Embeddings y bases de datos vectoriales

Chats y memoria con LangChain

Evolución del uso de LLM

37
Ecosistema LLM y qué sigue después de LangChain
05:26 min

Tomar examen

Cadena RetrievalQA para preguntar a documentos

Resumen

Crear una cadena RetrievalQA en LangChain te permite conectar un modelo de lenguaje con tu base de datos vectorial para responder preguntas sobre documentos propios. Aquí verás cómo construir la función process_qa_query, qué hace cada argumento y cómo encaja en un flujo completo con embeddings, Chroma y GPT-3.5-turbo. Útil si estás armando un chatbot sobre documentación técnica.

Cómo defines la función process_qa_query paso a paso

La función recibe tres entradas mínimas y devuelve una respuesta generada por el modelo a partir de tu base vectorial.

Dentro de process_qa_query recibes un query (el texto de la pregunta), un retriever y un modelo de lenguaje. Con esos tres ingredientes construyes una instancia de RetrievalQA, que importas así: from langchain.chains import RetrievalQA.

La cadena se crea con el método from_chain_type y necesita estos argumentos:

llm: el modelo de chat que recibes como parámetro, por ejemplo GPT-3.5-turbo.
chain_type: usa "stuff" cuando quieres que solo entre al prompt lo que quepa directamente, sin resúmenes intermedios.
retriever: el retriever que recibes, encargado de buscar los fragmentos más parecidos a la pregunta.

Antes de ejecutar la cadena, imprime en consola un mensaje tipo la inteligencia artificial está pensando para que la persona usuaria sepa que el proceso está corriendo, sobre todo si tarda unos segundos. Finalmente ejecutas la cadena con qa_chain.run(query).

¿Qué hace chain_type="stuff" en RetrievalQA? Mete todos los fragmentos recuperados directamente en el prompt del modelo, sin resumirlos. Funciona bien cuando los fragmentos caben en la ventana de contexto.

Por qué aparece el error de max_tokens

Un detalle fácil de pasar por alto: el parámetro correcto es max_tokens, no max_token. Si lo escribes en singular, el modelo no lo reconoce y la ejecución falla. Cambia max_token por max_tokens, vuelve a correr y la chroma existente carga sin problema.

Para mantener el código ordenado puedes apoyarte en dos herramientas:

Black: formatea el código Python con un estilo consistente.
isort: ordena los imports automáticamente.

Qué pasa cuando le preguntas al chatbot sobre Transformers

Una vez corriendo, el flujo se siente natural. Le preguntas qué son los Transformers y el modelo procesa la pregunta, busca las respuestas más probables dentro de la base vectorial y devuelve algo como: son una biblioteca de modelos preentrenados y más. Si después preguntas qué es Accelerate y cómo puedo usarlo, recibes la definición y un ejemplo de código en Python listo para usar la librería de Hugging Face.

Hay un punto importante: este chat no tiene memoria. Cada pregunta empieza desde cero, así que no puedes referirte a lo que dijiste antes. Si quieres continuidad, necesitas agregar un componente de memoria, que es justo lo que viene en las siguientes clases.

¿RetrievalQA tiene memoria de conversación? No por defecto. RetrievalQA responde cada pregunta de forma independiente. Para recordar el historial necesitas usar cadenas con memoria como ConversationalRetrievalChain.

Cómo encaja todo el pipeline desde los JSON hasta la respuesta

El chatbot final es la última pieza de un pipeline más largo. Así se conectan las partes:

La documentación de Hugging Face vive en archivos JSON, uno por cada pieza de contenido.
Importas esos JSON como documents de LangChain, uno por archivo.
Partes cada document en fragmentos más pequeños con un splitter, generando nuevos documents.
Conviertes esos fragmentos en vectores numéricos con los embeddings de OpenAI.
Guardas los vectores en una base de datos vectorial Chroma.
Transformas la base en un retriever, que devuelve los fragmentos más parecidos a un texto de entrada.
Combinas retriever, modelo y query en una cadena RetrievalQA que entrega la respuesta.

Con ese flujo ya tienes un producto funcional: una interfaz donde cualquier persona puede hacer preguntas sobre toda la documentación de Hugging Face y recibir respuestas fundamentadas en los fragmentos recuperados.

Qué conceptos clave te llevas de esta implementación

RetrievalQA: cadena de LangChain que combina recuperación vectorial con generación de respuestas.
chain_type stuff: estrategia que inserta los fragmentos completos en el prompt.
Retriever: componente que devuelve los fragmentos más relevantes para una consulta.
Embeddings: representaciones numéricas del texto que permiten medir similitud semántica.
Chroma: base de datos vectorial donde guardas y consultas esos embeddings.
Splitter: utilidad que parte documentos largos en fragmentos manejables.

¿Qué tipo de memoria le agregarías tú a este chatbot para que recuerde el contexto de la conversación? Cuéntame en los comentarios cómo lo estás implementando en tu propio proyecto.

Comentarios6

juan.alcaraz

Estudiante

Para llegar a tener el chat funcionando se hizo lo siguiente:

Se comenzó guartdando la documentación en una base de datos, cada uno de los archivos en un json.
Se importaron estos json en formato de documents de LangChain uno por uno.
Despues se crearon más documents a partir de los datos previous para partir la data en pequeños textos.
Se convirtieron estos fragmentos de texto en números utilizando embbedings
Los fragmentos anteriores se guardan en una base de datos vectorial como chrome
Esta base se convierte a un retriever para poder obtener los fragmentos de texto que más se parecen a la pregunta. Con todo esto se crea una cadena (retriever, query a resolver y un modelo). El proceso se resumiría en que el query (pregunta) ingresado es recibido por un modelo de chat (open ai) y va a buscar en la base de datos de chroma cuales son los fragmentos de texto que podrían resolver la duda.

Johan Nicolás Valderrama Serrato

Estudiante

Me cuesta entender que hice mal para que el resultado de este chat no se base en los documentos facilitados

Johan Nicolás Valderrama Serrato

Estudiante

Curiosamente usando el archivo del curso la respuesta es similar,

Dersarrollo OSLP

Estudiante

Yo creo, que te esta respondiendo el llm con lo que fue entrenado, asi que creo que no le estas pasando el contexto al prompt. Debe ser un error menor en el codigo

Carlos Arturo Gonzalez Meyberg

Estudiante

Gracias, me ha ayudado un monton en mi trabajo

Evert Escalante

Estudiante

Si al momento de hacer queries obtienen resultados que no tienen nada que ver con su chatbot asegurensen de cada una de las siguientes cosas:

1. El vector_store persistente que creamos no se esta recargando correctamente. Si no definimos los mismos parametros que se usaron al crearlo, al recargarlo no tendra los embeddings que le pasamos.

# esta es la implementacion que la clase Chroma para crear y recargar los datos, usar los mismos valores
vector_store = Chroma(
  collection_name=name_index_chroma,
  embedding_function=embeddings,
  persist_directory="./vector_store_chroma_db"
)

# comprobar que los documentos se cargaron correctamente:
print(vector_store._collection.count())

2. El retriever y vector store siempre van a retornar documentos incluso cuando no son relevantes, esto se debe a que los embeddings siempre encuentran algo, incluso palabras completamente no relacionadas tienen algun nivel de similtud matematica . Para solucionar esto necesitaras agregar un filtrado por similarity score

# esta es la funcion que se encarga de ejecutar las queries.
def process_qa_query(qa_chain, retriever, query) -> str:
    """Procesa una consulta en el modo de
    preguntas y respuestas.
    """
    # Get documents WITH similarity scores
    docs_with_scores = retriever.vectorstore.similarity_search_with_relevance_scores(
      query, k=10  # Search more docs to have better filtering
    )
    
    # Filter by minimum relevance threshold
    min_score = 0.2
    relevant_docs = []
    
    print("--- Relevance Scores ---")
    for doc, score in docs_with_scores:
        print(f"Score: {score:.3f} - {doc.page_content[:100]}...")
        if score >= min_score:
            relevant_docs.append(doc)

    print(f"Found {len(docs_with_scores)} docs, {len(relevant_docs)} are relevant (>= {min_score})")
    
    # If no relevant docs found
    if not relevant_docs:
        return f"Try asking something more specific about hugging face libraries"
    
    qa_response = qa_chain.invoke(query)
    return qa_response

Leonar Santiago Castro Vizcaya

Estudiante

Excelentes clases, estoy fascinado 😁, me gustaría un segmento donde se hable a detalle de los costos o que se incluyera en cada ejemplo y con eso evitar problemas y no sobrepasar los costos que cubre la api key free de openAI, Mil gracias!

Sebastián Franco

Estudiante

Puedes indagar sobre el pricing de OpenAI aquí

Es un poco calcular sobre los segmentos donde usas la API (En este caso el embedding y el chat).

Este es el pricing hoy en día de GPT 3.5 Turbo y Ada 2

GPT 3.5 TURBO
4K context	$0.0015 / 1K tokens	$0.002 / 1K tokens
16K context	$0.003 / 1K tokens	$0.004 / 1K tokens

Ada V2	
$0.0001 / 1K tokens

La misma OpenAI entrega una funcionalidad para calcular los tokens que se crearán a partir de un texto

text = "text to encode"
encoding = tiktoken.encoding_for_model("text-embedding-ada-002")
amount_tokens = len(encoding.encode(text))
print(amount_tokens)

Con esto podrías crear un pipeline paralelo para costear el precio de tus prompts.

Adán Galván González

Estudiante

¿Por què no se usa un chain_type como map_reduce o ``` refine

Platzi

Estudiante

No se usa un chain_type como map_reduce o refine en este caso porque se busca generar un código más fluido y legible, evitando almacenar el resultado en cada iteración y permitiendo operar directamente sobre los elementos del string.

Cadena RetrievalQA para preguntar a documentos

Introducción a LangChain

Creación de un sistema de preguntas y respuestas con LangChain

Estructura y Uso de Langchain en Python

Carga de Modelos Open Source con Langchain y Hugging Face

Cómo usar modelos OpenAI con LangChain

Creación de Prompts Dinámicos con LangChain

Tipos de cadenas en LangChain

Resumir PDFs largos con LangChain chains

Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje

Cómo encadenar TransformChain y LLMChain

Casos de uso de LangChain

Qué es Langchain y por qué importa

Implementación de Lanchain y LLMs: Costos, Privacidad y Buenas Prácticas

Manejo de documentos con índices

Cómo los índices dan memoria a los LLMs

Fundamentos de la Clase Document en Langchain

Cómo cargar PDFs en LangChain

Lectura de CSV y conversión a DataFrame de Pandas y LangChain

Cargador JSONL personalizado en LangChain

Fragmentación de Documentos con TextSplitter en Langsteam

Inicialización del proyecto chatbot con Langchain

Cómo partir documentos JSONL para Chroma

Embeddings y bases de datos vectoriales

Cómo los embeddings encuentran información relevante

Embeddings con OpenAI y LangChain

Embeddings open source con LangChain y Hugging Face

Creación y Gestión de Bases de Datos Vectoriales con Chroma

Embeddings en Chroma con LangChain y OpenAI

Preguntas a documentos con Chroma y LangChain

Chatbot QA con LangChain y ChromaDB