Construcción de un Asistente Conversacional con LangChain y RAG

Resumen

RAG es un enfoque de generación de respuestas donde un language model combina su conocimiento preentrenado con la capacidad de recuperar información relevante desde un vector store. En lugar de generar respuestas basadas solo en los datos con los que fue entrenado, el modelo busca y extrae fragmentos de texto relevantes almacenados externamente y genera respuestas más precisas y contextuales. Esto es especialmente útil para tareas que requieren acceso a información actualizada o específica, como documentos internos, informes empresariales, o investigaciones científicas.

Componentes Clave en el Proceso de RAG

Language Model (Modelo de Lenguaje): Es el modelo que genera las respuestas. Puede ser un modelo preentrenado como GPT-4 o una opción open-source como los modelos de Hugging Face. Este modelo actúa como la base del asistente conversacional y es quien finalmente forma las respuestas para el usuario.
Vector Store: Es una base de datos que almacena los documentos en forma de vectores. Los documentos son fragmentados en partes más pequeñas (conocidos como chunks), y cada fragmento se convierte en un vector numérico que representa el significado semántico de ese texto. En esta clase hemos utilizado ChromaDB para gestionar este proceso.
Contexto en las Respuestas: Además de utilizar la memoria del historial de la conversación, se recuperan fragmentos relevantes desde el vector store. Esto asegura que la respuesta no solo sea coherente con la conversación, sino que también esté basada en documentos externos que el asistente pueda consultar.
Historial de Conversación: Este componente guarda las interacciones anteriores entre el usuario y el asistente. Esto permite que el asistente no solo recuerde las preguntas recientes, sino que también genere respuestas más contextuales. En aplicaciones reales, esto es útil para mantener la coherencia en conversaciones largas o repetidas.
Prompts Personalizados: Al configurar prompt templates, se puede definir el rol del asistente, indicando cómo debe responder, el tono que debe usar, y el formato en que debe entregar las respuestas. Este tipo de configuración permite personalizar la experiencia de usuario.

¿Cómo Funciona el Proceso de Recuperación y Generación?

Input del Usuario: El usuario ingresa una pregunta o consulta. Este input es procesado y enviado al retriever, que se encarga de buscar en la base vectorial los fragmentos más relevantes.
Búsqueda en el Vector Store: El retriever utiliza la pregunta del usuario para encontrar los fragmentos o chunks más cercanos en términos de similitud semántica. Estos fragmentos son recuperados desde el vector store, en este caso ChromaDB.
Generación de la Respuesta: El modelo de lenguaje toma los fragmentos recuperados y los utiliza como contexto adicional para generar la respuesta. Esta combinación de información permite que las respuestas estén basadas en información más reciente o específica, extraída de documentos cargados en el vector store.

Vector Stores y ChromaDB

Un Vector Store como ChromaDB es una base de datos optimizada para almacenar y gestionar vectores. Estos vectores son representaciones numéricas de fragmentos de texto que han sido vectorizados utilizando modelos de embeddings, como los de OpenAI. La ventaja de usar un vector store es que permite realizar búsquedas semánticas rápidas y precisas, recuperando los fragmentos más cercanos a la consulta del usuario.

Fragmentación del Texto (Chunking): Para almacenar documentos en un vector store, es necesario fragmentar el texto en partes más pequeñas (chunks). Esto asegura que los fragmentos sean manejables y permite una búsqueda más precisa cuando el usuario realiza una consulta.
Metadata en los Fragmentos: Cada fragmento almacenado en el vector store contiene metadata adicional, como el documento de origen y la página de donde fue extraído. Esto facilita la recuperación de la información precisa.

El Rol del Historial de Conversación

La memoria del historial de conversación juega un papel crucial en un asistente conversacional que necesita recordar interacciones previas para dar respuestas más coherentes y útiles. En este proyecto, cada vez que el usuario hace una consulta, se guarda el contexto de la interacción, permitiendo al asistente mantener un seguimiento de la conversación.

Memoria Contextualizada: Al utilizar la memoria, el asistente puede recordar el nombre del usuario, el tema que se ha discutido previamente, o cualquier otro detalle relevante. Esto mejora la experiencia del usuario, haciendo que las interacciones sean más naturales y personalizadas.

Prompts Personalizados y su Importancia

Los Prompt Templates permiten guiar al modelo en la forma en que debe responder. Este prompt incluye:

El rol del asistente: Puede ser, por ejemplo, un experto en inteligencia artificial o un asesor de viajes.
El formato de la respuesta: Esto puede incluir el tono de la respuesta, la inclusión de emojis, o la forma de estructurar la información.
Instrucciones adicionales: Como la necesidad de basarse en documentos previamente cargados en el vector store o evitar inventar información.

Aplicaciones de RAG en el Mundo Real

El enfoque RAG es especialmente útil en escenarios donde el acceso a información actualizada o específica es esencial. Algunos casos de uso incluyen:

Consultas sobre Documentación Técnica o Corporativa: Empresas que necesitan acceso rápido a manuales, informes, o políticas internas.
Asistentes de Investigación Científica: Donde se requiere acceso a publicaciones científicas o estudios recientes.
Sistemas de Atención al Cliente: Capaces de consultar bases de datos de conocimiento para resolver problemas técnicos en tiempo real.

Guillermo Baldán López

student•

Relación entre los conceptos

Chatbot RAG es el sistema general que combina la recuperación de información con la generación de respuestas utilizando un modelo de lenguaje.
Prompt templates proporcionan la estructura y formato adecuado para que el chatbot formule preguntas o solicitudes al modelo de lenguaje de manera coherente, integrando tanto la consulta del usuario como la información recuperada.
Cadenas (Chains) son el mecanismo que permite que el chatbot RAG conecte múltiples pasos, como la recuperación de información y la generación de respuestas, en un flujo de trabajo bien organizado.
Memoria permite al chatbot mantener el contexto de la conversación a lo largo del tiempo, recordando interacciones anteriores y utilizando ese conocimiento para mejorar la relevancia de las respuestas.

Gerardo Mayel Fernández Alamilla

student•

pueden subir el notebook de la clase, los cortes de cámara hacen complicado ver el código que se está escribiendo

Ricardo Gomez

student•

excelente ejercicio,

Se podrían colocar a hablar dos modelos eje OpenAI y Google en un tipo de conversiones de este tipo RAG?

Eduardo Guzmán

student•

Tengo entendido que si amigo, hay un canal en ingles que se llama tech with Tim , ahí hay varios ejemplos de agentes que se desarrollan así.

IA Terra

student•

Buenas, cuando hago lo siguiente: history_aware_retriever = create_history_aware_retriever( llm, retriever, contextualize_q_prompt)

arroja el siguiente error: in create_history_aware_retriever(llm, retriever, prompt) 60 lambda x: not x.get("chat_history", False), 61 # If no chat history, then we just pass input to retriever ---> 62 (lambda x: x["input"]) | retriever, 63 ), 64 # If chat history, then we pass inputs to LLM chain, then to retriever

TypeError: unsupported operand type(s) for |: 'function' and 'method'

Alguien tuvo el mismo problema?

Jairo Arturo Morán Burgos

student•

Debes corregir asi: "retriever = vector_store.as_retriever()"

Juan Diego Mamani

student•

Pueden poner el book para poder revisarlo

Sandra Milena RAIRAN PINILLA

student•

wooow!!! que clase tan genial.

Daniel Jaramillo

student•

Antes (no funciona):

from langchain.chains import create_history_aware_retriever, create_retrieval_chain

Ahora (funciona):

from langchain_classic.chains import create_history_aware_retriever, create_retrieval_chain

Tu código corregido quedaría así:

from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder

from langchain_classic.chains import create_history_aware_retriever, create_retrieval_chain

¿Por qué pasó esto?

PaqueteVersiónContenido

langchain (antiguo)

0.x

Todo junto: chains, agents, etc.

langchain (nuevo)

1.x

Solo metadatos, casi vacío

langchain_classic

1.x

Las chains y funciones clásicas

langchain_core

1.x

Clases base (prompts, messages)

LangChain 1.x modularizó todo y movió las funciones "clásicas" al paquete langchain_classic.

Juan Camilo Mejía Rodríguez

student•

¿Dónde puedo ver el notebook de la clase por favor'?

John Salcedo

student•

Esta bueno el ejercicio pero el asistente tiene sus fallas, ejemplo si le preguntas algo como : por que las personas dicen mentiras ? o dime que es python el sigue respondiendo normalmente, del todo el modelo no esta cerrado, como que te responde correctamente en algunas preguntas que no tienen que ver con los pdfs que le adjuntes pero en otras sigue asumiendo ese rol de sabelotodo de chat gpt, cuando lo ideal es que solo se base en la informacion, alguna idea para hacer esa validacion ?

Luis Castillo

student•

creo que las nuevas versiones de langchain no te dejan importar de esa manera:

from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder

from langchain.chains.history_aware_retriever import create_history_aware_retriever

from langchain.chains.retrieval import create_retrieval_chain

contextualize_q_system_ = ChatPromptTemplate.from_messages(

[

(

'system', contextualize_q_system_prompt

MessagesPlaceholder(variable_name='chat_history'),

('human', '{input}')

]

ModuleNotFoundError                       Traceback (most recent call last)

/tmp/ipython-input-965246410.py in <cell line: 0>()
      1 from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
----> 2 from langchain.chains.history_aware_retriever import create_history_aware_retriever
      3 from langchain.chains.retrieval import create_retrieval_chain
      4 
      5 contextualize_q_system_ = ChatPromptTemplate.from_messages(

ModuleNotFoundError: No module named 'langchain.chains'

---------------------------------------------------------------------------
NOTE: If your import is failing due to a missing package, you can
manually install dependencies using either !pip or !apt.

To view examples of installing some common dependencies, click the
"Open Examples" button below.

John Salcedo

student•

si, la solucion es ejecutar este comando:

!pip -q install -U langchain-classic

y el impor cambia a:

from langchain_classic.chains import create_history_aware_retriever, create_retrieval_chain

el tema es que hubo seguramente un gran cambio y quedo este lang_chain clasic , que de hecho este cambio es como de unos 5 meses atras, por lo demas todo funciona.

Nota: tener en cuenta que se deben ajustar otros imports al lang chain classic y si lo hacen por google colab da otros errores pero que tiene que ver con las versiones del python en el colab, ese fue mi caso, pero estas no me impedieron realizar el ejercicio.

Harold Combita

student•

No aparece el note book apropiado, en el material y me sale unerror del la variable context, no esta definida. --oor eso quiero el notebook para comparar

Eduardo Guzmán

student•

Por favor, corríjanme si me equivoco: la 'Memory' que vimos en clases pasadas tiene mayor funcionalidad cuando se desea construir un agente que actúe o responda según sus prompt templates, los cuales pueden desencadenar otras tareas. Por otro lado, el enfoque RAG sustituye esta funcionalidad cuando el agente está entrenado con información previa, además del contexto proporcionado a través de los prompt templates. ¿Es correcto?

luis arturo Monsalve

student•

desde la clase de embeddings no actualizas el notebook lo triste ya han pasado como 8 meses y con un monton de comentarios de los mismo

Gerardo Miguel Pérez Solis

student•

¿cómo puedo especificar al agente que solo me responda de un documento en particular?

Por ejemplo es un listado de procesos, pero el cocinero solo puede ver procesos de cocina y no de cómo levantar un servidor caído.

Abimelek Castrezana

student•

hubiera estado bueno ver el problema que te sucedio en video, porque así solo me lo imagino y me pierdo.

Ojala lo suban o algo así como extra

Juan Andrés Guillamet Chargué

student•

Hola, tengo un error en el ultimo paso

in _get_document_info(doc, prompt) 384 385 def _get_document_info(doc: Document, prompt: BasePromptTemplate[str]) -> dict: --> 386 base_info = {"page_content": doc.page_content, **doc.metadata} 387 missing_metadata = set(prompt.input_variables).difference(base_info) 388 if len(missing_metadata) > 0:

AttributeError: 'tuple' object has no attribute 'page_content'````python

\----> 1 conversational\_rag\_chain.invoke(
&#x20;     2     {'input': 'Cuales son las ventas del último trimestre?'}, config={'configurable':{'session\_id': 'abc1'}}
&#x20;     3 )\['answer']
````---------------------------------------------------------------------------
AttributeError                            Traceback (most recent ca

Construcción de un Asistente Conversacional con LangChain y RAG

Fundamentos de los Agentes Inteligentes y LangChain

Conexión a Huggingface GPT-2 en Google Collaboratory

Desarrollo de Aplicaciones Conversacionales con LangChain

Creación de Agentes Inteligentes con LangChain

Instalación y uso de API Keys para modelos de lenguaje en Google Collab

Chat Models y Prompt templates

Chat Messages con OpenAI

Conexión y uso de modelos de chat con LangChain y OpenAI

Uso de Modelos de Google AI Gemini en LangChain

Creación de Plantillas de Prompts en LangChain

Técnicas de Few-Shot Prompting en Modelos de Lenguaje

Cadenas en LangChain

Creación de Cadenas en LangChain con String Output Parser

Gestión de Historial de Chat con LangChain

Integración de Herramientas Claves en LangChain: Runnable, OutputParser, Streaming

Creación de Chatbots Inteligentes con Memoria Conversacional

Cadena de Procesos para Memoria Conversacional con GPT-3.5 Turbo

Carga de documentos en LangChain

Carga y procesamiento de archivos HTML con LangChain y Beautiful Soup

Carga de PDFs y CSVs en LangChain con PyPDF y CSV Loader

División de Texto en Fragmentos con TextSplitters en LangChain

Retrieval-augmented generation (RAG)

Gestión de Vectores de Texto con Chroma y LangChain

Embeddings y su aplicación en modelos de lenguaje y RAG

Pinecone: Implementación de Bases de Datos Vectoriales Escalables

Creación de Chatbot RAG con LangChain y ChromaDB