Creación de un Chatbot para Preguntas con Bases de Datos Vectoriales

Clase 27 de 37 • Curso de LangChain

Contenido del curso

Introducción a LangChain

Casos de uso de LangChain

Manejo de documentos con índices

Embeddings y bases de datos vectoriales

Chats y memoria con LangChain

Evolución del uso de LLM

37
Creación de Chatbots con Modelos de Lenguaje y Bases de Datos Vectoriales
05:27 min

Tomar examen

Resumen

Construir un sistema que responda preguntas basándose en documentación real es uno de los pasos más poderosos al trabajar con modelos de lenguaje. Aquí se explica cómo crear una cadena de preguntas y respuestas usando LangChain, una base de datos vectorial de Chroma y un modelo como GPT-3.5 Turbo, integrando cada pieza del flujo de datos.

¿Cómo se construye la función process QA query?

El punto de partida es definir una función llamada process_qa_query que recibe tres argumentos: un query (la pregunta en texto), un retriever y un modelo de lenguaje (LLM) [01:06]. Dentro de esta función se crea la cadena principal.

La cadena se instancia con RetrievalQA, una clase que se importa directamente desde LangChain [01:20]:

python from langchain.chains import RetrievalQA

Para configurarla se usa el método from_chain_type, donde se especifican tres parámetros clave:

llm: el modelo de chat que se recibe como argumento.
chain_type: se establece como "stuff", lo que significa que solo se incluye en el prompt la información que cabe directamente en él [01:40].
retriever: el retriever que se pasa a la función.

Finalmente, se imprime un mensaje indicando que la inteligencia artificial está procesando la consulta y se ejecuta la cadena con el método run, pasándole el query original [02:10].

¿Qué herramientas ayudan a formatear el código?

Para mantener el código organizado se utilizan dos herramientas: Black, que formatea automáticamente el estilo del código Python, e isort, que ordena los imports de manera consistente [02:30]. Ambas se ejecutan desde la terminal antes de correr el programa.

¿Qué errores comunes pueden surgir?

Un error frecuente es escribir max_token en lugar de max_tokens [03:05]. Este tipo de detalle genera un fallo en tiempo de ejecución. Corregir el nombre del parámetro soluciona el problema de inmediato.

¿Cómo funciona el flujo completo del chatbot?

El sistema sigue un proceso bien definido que conecta varias etapas [04:20]:

La documentación se almacena inicialmente en archivos JSON.
Cada JSON se convierte en un document de LangChain.
Los documents se dividen en fragmentos más pequeños usando un splitter.
Cada fragmento se transforma en representaciones numéricas mediante los embeddings de OpenAI.
Estos embeddings se almacenan en una base de datos vectorial como Chroma.
La base de datos se convierte en un retriever, que busca los fragmentos más similares a la pregunta del usuario.

Cuando una persona hace una pregunta, la cadena toma ese query, usa el retriever para encontrar los fragmentos relevantes dentro de Chroma y el modelo de chat genera una respuesta basada exclusivamente en esa información [05:00].

¿Por qué este sistema no tiene memoria de conversación?

Un punto importante es que esta implementación no incluye memoria [03:50]. Cada pregunta se procesa de forma independiente, sin recordar las interacciones previas. Esto significa que no se puede hacer referencia a respuestas anteriores dentro de la misma sesión.

Sin embargo, el sistema ya constituye un producto funcional por sí mismo. La posibilidad de agregar memoria, es decir, que el chatbot recuerde el contexto de la conversación y lo use para responder con mayor precisión, es una mejora que se aborda con distintos tipos de memoria disponibles en LangChain [05:30].

Si ya tienes tu base de datos vectorial lista, prueba construir tu propia cadena y experimenta con diferentes preguntas para ver cómo responde tu modelo. Comparte en los comentarios qué tipo de documentación estás usando y qué resultados obtuviste.

Comentarios

juan.alcaraz

student•

Para llegar a tener el chat funcionando se hizo lo siguiente:

Se comenzó guartdando la documentación en una base de datos, cada uno de los archivos en un json.
Se importaron estos json en formato de documents de LangChain uno por uno.
Despues se crearon más documents a partir de los datos previous para partir la data en pequeños textos.
Se convirtieron estos fragmentos de texto en números utilizando embbedings
Los fragmentos anteriores se guardan en una base de datos vectorial como chrome
Esta base se convierte a un retriever para poder obtener los fragmentos de texto que más se parecen a la pregunta. Con todo esto se crea una cadena (retriever, query a resolver y un modelo). El proceso se resumiría en que el query (pregunta) ingresado es recibido por un modelo de chat (open ai) y va a buscar en la base de datos de chroma cuales son los fragmentos de texto que podrían resolver la duda.

Carlos Arturo Gonzalez Meyberg

student•

Gracias, me ha ayudado un monton en mi trabajo

Johan Nicolás Valderrama Serrato

student•

Me cuesta entender que hice mal para que el resultado de este chat no se base en los documentos facilitados

Johan Nicolás Valderrama Serrato

student•

Curiosamente usando el archivo del curso la respuesta es similar,

Dersarrollo OSLP

student•

Yo creo, que te esta respondiendo el llm con lo que fue entrenado, asi que creo que no le estas pasando el contexto al prompt. Debe ser un error menor en el codigo

Evert Escalante

student•

Si al momento de hacer queries obtienen resultados que no tienen nada que ver con su chatbot asegurensen de cada una de las siguientes cosas:

1. El vector_store persistente que creamos no se esta recargando correctamente. Si no definimos los mismos parametros que se usaron al crearlo, al recargarlo no tendra los embeddings que le pasamos.

# esta es la implementacion que la clase Chroma para crear y recargar los datos, usar los mismos valores
vector_store = Chroma(
  collection_name=name_index_chroma,
  embedding_function=embeddings,
  persist_directory="./vector_store_chroma_db"
)

# comprobar que los documentos se cargaron correctamente:
print(vector_store._collection.count())

2. El retriever y vector store siempre van a retornar documentos incluso cuando no son relevantes, esto se debe a que los embeddings siempre encuentran algo, incluso palabras completamente no relacionadas tienen algun nivel de similtud matematica . Para solucionar esto necesitaras agregar un filtrado por similarity score

# esta es la funcion que se encarga de ejecutar las queries.
def process_qa_query(qa_chain, retriever, query) -> str:
    """Procesa una consulta en el modo de
    preguntas y respuestas.
    """
    # Get documents WITH similarity scores
    docs_with_scores = retriever.vectorstore.similarity_search_with_relevance_scores(
      query, k=10  # Search more docs to have better filtering
    )
    
    # Filter by minimum relevance threshold
    min_score = 0.2
    relevant_docs = []
    
    print("--- Relevance Scores ---")
    for doc, score in docs_with_scores:
        print(f"Score: {score:.3f} - {doc.page_content[:100]}...")
        if score >= min_score:
            relevant_docs.append(doc)

    print(f"Found {len(docs_with_scores)} docs, {len(relevant_docs)} are relevant (>= {min_score})")
    
    # If no relevant docs found
    if not relevant_docs:
        return f"Try asking something more specific about hugging face libraries"
    
    qa_response = qa_chain.invoke(query)
    return qa_response

Leonar Santiago Castro Vizcaya

student•

Excelentes clases, estoy fascinado 😁, me gustaría un segmento donde se hable a detalle de los costos o que se incluyera en cada ejemplo y con eso evitar problemas y no sobrepasar los costos que cubre la api key free de openAI, Mil gracias!

Sebastián Franco

student•

Puedes indagar sobre el pricing de OpenAI aquí

Es un poco calcular sobre los segmentos donde usas la API (En este caso el embedding y el chat).

Este es el pricing hoy en día de GPT 3.5 Turbo y Ada 2

GPT 3.5 TURBO
4K context	$0.0015 / 1K tokens	$0.002 / 1K tokens
16K context	$0.003 / 1K tokens	$0.004 / 1K tokens

Ada V2	
$0.0001 / 1K tokens

La misma OpenAI entrega una funcionalidad para calcular los tokens que se crearán a partir de un texto

text = "text to encode"
encoding = tiktoken.encoding_for_model("text-embedding-ada-002")
amount_tokens = len(encoding.encode(text))
print(amount_tokens)

Con esto podrías crear un pipeline paralelo para costear el precio de tus prompts.

Adán Galván González

student•

¿Por què no se usa un chain_type como map_reduce o ``` refine

Platzi

student•

No se usa un chain_type como map_reduce o refine en este caso porque se busca generar un código más fluido y legible, evitando almacenar el resultado en cada iteración y permitiendo operar directamente sobre los elementos del string.

Creación de un Chatbot para Preguntas con Bases de Datos Vectoriales

Introducción a LangChain

Creación de un sistema de preguntas y respuestas con LangChain

Estructura y Uso de Langchain en Python

Carga de Modelos Open Source con Langchain y Hugging Face

Uso de Modelos OpenAI con LangChain: Guía Práctica para Principiantes

Creación de Prompts Dinámicos con LangChain

Uso de Cadenas en Modelos de Lenguaje con Language Chain

Procesamiento de PDFs y creación de resúmenes con LangChain

Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje

Creación de cadenas secuenciales en Python para procesamiento de texto

Casos de uso de LangChain

Aplicaciones y Beneficios de Lancheng en el Manejo de LLMs

Implementación de Lanchain y LLMs: Costos, Privacidad y Buenas Prácticas

Manejo de documentos con índices

Carga de Documentos en Langchain para Creación de Índices

Fundamentos de la Clase Document en Langchain

Carga y Transformación de Documentos No Estructurados con Landship

Lectura de CSV y conversión a DataFrame de Pandas y LangChain

Creación de un Cargador de JSON-Lines Personalizado en Python

Fragmentación de Documentos con TextSplitter en Langsteam

Creación de un Chatbot con Documentación de Hugging Face

Creación de Índice Vectorial con Langchain y Embeddings

Embeddings y bases de datos vectoriales

Creación de Índices con Embeddings y Bases de Datos Vectoriales

Creación y uso de embeddings con OpenAI y Lanchain

Modelos de Embeddings Open Source en Español con Sentence Transformers

Creación y Gestión de Bases de Datos Vectoriales con Chroma

Creación y manejo de bases de datos vectoriales con OpenAI Embeddings

Creación y Uso de un Retriever en Chroma para Consultas Avanzadas

Modelo de Chat para Preguntas y Respuestas con LangChain y Chroma