Creación de un Chatbot para Preguntas con Bases de Datos Vectoriales

Resumen

Crear una herramienta capaz de realizar preguntas a una base de documentos puede revolucionar la manera en que interactuamos con grandes volúmenes de información. Para lograrlo, se desarrolla una función específica denominada processQAQuery. Este proceso involucra definir una cadena de preguntas y respuestas, utilizar modelos de lenguaje avanzados y organizar adecuadamente el código para facilitar la interacción y comprensión del usuario.

¿Cómo se crea la función processQAQuery?

La función processQAQuery se concibe como el núcleo para hacer preguntas a documentos mediante lenguaje de programación. Es aquí donde se reciben tres elementos clave:

Un query, que es el texto pregunta.
Un Retriever, que es el elemento encargado de recuperar información.
Un modelo de lenguaje, que en este caso se trata de un chatbot avanzado.

¿Qué es una cadena de nombre QAChain y cómo se configura?

La QAChain es una instancia de RetrievalQA que proviene del LangChain. Para configurarla, primero se importa utilizando from LangChain import RetrievalQA. Luego, en la función, se establecen los argumentos del método fromChainType:

El modelo de chat (LLM) que se va a utilizar.
El tipo de cadena (Stuff) que limita la información al prompt.
El Retriever que se va a usar.

¿Cómo se asegura una respuesta eficiente del sistema?

Para mantener al usuario informado del proceso, se imprime un mensaje en la consola que indica que la inteligencia artificial está "pensando". Este feedback es crucial en casos de procesamiento que toman más tiempo de lo esperado, brindando así una experiencia de usuario más agradable.

¿Qué pasos se siguen para ejecutar y organizar el código?

Después de correr la función, se utilizan herramientas de formateo de código como black y isort para organizar y estilizar el código adecuadamente, sustentando así las buenas prácticas de programación.

¿Qué pasa cuando surge un error y cómo se soluciona?

Si surge un error en tiempo de ejecución, como un mal reconocimiento de un token debido a una errata (maxToken en lugar de maxTokens), se realiza una corrección rápida del mismo y se reejecuta la función para continuar con la prueba de chat, demostrando la importancia de los procesos de depuración en el desarrollo de software.

¿Cómo se estructura el proceso para resolver preguntas mediante la cadena?

El proceso general consiste en los siguientes pasos:

Comenzar con una base de datos de documentación.
Importar los documentos como objetos documents en 'lanching'.
Fragmentar los documentos con un splitter para mejor acceso.
Convertir los fragmentos en valores numéricos mediante embeddings de OpenAI.
Incluir estos valores en una base de datos vectorial como Chroma.
Utilizar esta base para crear un retriever.
Crear una cadena que use el query y un modelo de chat como GPT-3.5 Turbo para responder preguntas.

¿Qué más se puede agregar al modelo para mejorar la interacción?

Es factible agregar memoria al chatbot para que recuerde interacciones anteriores, lo cual puede enriquecer la capacidad de respuesta del modelo. Este tipo de características avanzadas y la forma de implementarlas se abordarán en clases posteriores, preparando el contexto para futuras innovaciones y aprendizajes.

Comentarios

juan.alcaraz

student•

Para llegar a tener el chat funcionando se hizo lo siguiente:

Se comenzó guartdando la documentación en una base de datos, cada uno de los archivos en un json.
Se importaron estos json en formato de documents de LangChain uno por uno.
Despues se crearon más documents a partir de los datos previous para partir la data en pequeños textos.
Se convirtieron estos fragmentos de texto en números utilizando embbedings
Los fragmentos anteriores se guardan en una base de datos vectorial como chrome
Esta base se convierte a un retriever para poder obtener los fragmentos de texto que más se parecen a la pregunta. Con todo esto se crea una cadena (retriever, query a resolver y un modelo). El proceso se resumiría en que el query (pregunta) ingresado es recibido por un modelo de chat (open ai) y va a buscar en la base de datos de chroma cuales son los fragmentos de texto que podrían resolver la duda.

Carlos Arturo Gonzalez Meyberg

student•

Gracias, me ha ayudado un monton en mi trabajo

Johan Nicolás Valderrama Serrato

student•

Me cuesta entender que hice mal para que el resultado de este chat no se base en los documentos facilitados

Johan Nicolás Valderrama Serrato

student•

Curiosamente usando el archivo del curso la respuesta es similar,

Dersarrollo OSLP

student•

Yo creo, que te esta respondiendo el llm con lo que fue entrenado, asi que creo que no le estas pasando el contexto al prompt. Debe ser un error menor en el codigo

Evert Escalante

student•

Si al momento de hacer queries obtienen resultados que no tienen nada que ver con su chatbot asegurensen de cada una de las siguientes cosas:

1. El vector_store persistente que creamos no se esta recargando correctamente. Si no definimos los mismos parametros que se usaron al crearlo, al recargarlo no tendra los embeddings que le pasamos.

# esta es la implementacion que la clase Chroma para crear y recargar los datos, usar los mismos valores
vector_store = Chroma(
  collection_name=name_index_chroma,
  embedding_function=embeddings,
  persist_directory="./vector_store_chroma_db"
)

# comprobar que los documentos se cargaron correctamente:
print(vector_store._collection.count())

2. El retriever y vector store siempre van a retornar documentos incluso cuando no son relevantes, esto se debe a que los embeddings siempre encuentran algo, incluso palabras completamente no relacionadas tienen algun nivel de similtud matematica . Para solucionar esto necesitaras agregar un filtrado por similarity score

# esta es la funcion que se encarga de ejecutar las queries.
def process_qa_query(qa_chain, retriever, query) -> str:
    """Procesa una consulta en el modo de
    preguntas y respuestas.
    """
    # Get documents WITH similarity scores
    docs_with_scores = retriever.vectorstore.similarity_search_with_relevance_scores(
      query, k=10  # Search more docs to have better filtering
    )
    
    # Filter by minimum relevance threshold
    min_score = 0.2
    relevant_docs = []
    
    print("--- Relevance Scores ---")
    for doc, score in docs_with_scores:
        print(f"Score: {score:.3f} - {doc.page_content[:100]}...")
        if score >= min_score:
            relevant_docs.append(doc)

    print(f"Found {len(docs_with_scores)} docs, {len(relevant_docs)} are relevant (>= {min_score})")
    
    # If no relevant docs found
    if not relevant_docs:
        return f"Try asking something more specific about hugging face libraries"
    
    qa_response = qa_chain.invoke(query)
    return qa_response

Leonar Santiago Castro Vizcaya

student•

Excelentes clases, estoy fascinado 😁, me gustaría un segmento donde se hable a detalle de los costos o que se incluyera en cada ejemplo y con eso evitar problemas y no sobrepasar los costos que cubre la api key free de openAI, Mil gracias!

Sebastián Franco

student•

Puedes indagar sobre el pricing de OpenAI aquí

Es un poco calcular sobre los segmentos donde usas la API (En este caso el embedding y el chat).

Este es el pricing hoy en día de GPT 3.5 Turbo y Ada 2

GPT 3.5 TURBO
4K context	$0.0015 / 1K tokens	$0.002 / 1K tokens
16K context	$0.003 / 1K tokens	$0.004 / 1K tokens

Ada V2	
$0.0001 / 1K tokens

La misma OpenAI entrega una funcionalidad para calcular los tokens que se crearán a partir de un texto

text = "text to encode"
encoding = tiktoken.encoding_for_model("text-embedding-ada-002")
amount_tokens = len(encoding.encode(text))
print(amount_tokens)

Con esto podrías crear un pipeline paralelo para costear el precio de tus prompts.

Adán Galván González

student•

¿Por què no se usa un chain_type como map_reduce o ``` refine

Platzi

student•

No se usa un chain_type como map_reduce o refine en este caso porque se busca generar un código más fluido y legible, evitando almacenar el resultado en cada iteración y permitiendo operar directamente sobre los elementos del string.

# esta es la implementacion que la clase Chroma para crear y recargar los datos, usar los mismos valores
vector_store = Chroma(
  collection_name=name_index_chroma,
  embedding_function=embeddings,
  persist_directory="./vector_store_chroma_db"
)

# comprobar que los documentos se cargaron correctamente:
print(vector_store._collection.count())

# esta es la funcion que se encarga de ejecutar las queries.
def process_qa_query(qa_chain, retriever, query) -> str:
    """Procesa una consulta en el modo de
    preguntas y respuestas.
    """
    # Get documents WITH similarity scores
    docs_with_scores = retriever.vectorstore.similarity_search_with_relevance_scores(
      query, k=10  # Search more docs to have better filtering
    )
    
    # Filter by minimum relevance threshold
    min_score = 0.2
    relevant_docs = []
    
    print("--- Relevance Scores ---")
    for doc, score in docs_with_scores:
        print(f"Score: {score:.3f} - {doc.page_content[:100]}...")
        if score >= min_score:
            relevant_docs.append(doc)

    print(f"Found {len(docs_with_scores)} docs, {len(relevant_docs)} are relevant (>= {min_score})")
    
    # If no relevant docs found
    if not relevant_docs:
        return f"Try asking something more specific about hugging face libraries"
    
    qa_response = qa_chain.invoke(query)
    return qa_response

Creación de un Chatbot para Preguntas con Bases de Datos Vectoriales

Introducción a LangChain

Creación de un sistema de preguntas y respuestas con LangChain

Estructura y Uso de Langchain en Python

Carga de Modelos Open Source con Langchain y Hugging Face

Uso de Modelos OpenAI con LangChain: Guía Práctica para Principiantes

Creación de Prompts Dinámicos con LangChain

Uso de Cadenas en Modelos de Lenguaje con Language Chain

Procesamiento de PDFs y creación de resúmenes con LangChain

Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje

Creación de cadenas secuenciales en Python para procesamiento de texto

Casos de uso de LangChain

Aplicaciones y Beneficios de Lancheng en el Manejo de LLMs

Implementación de Lanchain y LLMs: Costos, Privacidad y Buenas Prácticas

Manejo de documentos con índices

Carga de Documentos en Langchain para Creación de Índices

Fundamentos de la Clase Document en Langchain

Carga y Transformación de Documentos No Estructurados con Landship

Lectura de CSV y conversión a DataFrame de Pandas y LangChain

Creación de un Cargador de JSON-Lines Personalizado en Python

Fragmentación de Documentos con TextSplitter en Langsteam

Creación de un Chatbot con Documentación de Hugging Face

Creación de Índice Vectorial con Langchain y Embeddings

Embeddings y bases de datos vectoriales

Creación de Índices con Embeddings y Bases de Datos Vectoriales

Creación y uso de embeddings con OpenAI y Lanchain

Modelos de Embeddings Open Source en Español con Sentence Transformers

Creación y Gestión de Bases de Datos Vectoriales con Chroma

Creación y manejo de bases de datos vectoriales con OpenAI Embeddings

Creación y Uso de un Retriever en Chroma para Consultas Avanzadas

Modelo de Chat para Preguntas y Respuestas con LangChain y Chroma

Creación de un Chatbot para Preguntas con Bases de Datos Vectoriales

Chats y memoria con LangChain

Memoria de Corto Plazo en Chatbots: Implementación y Optimización

Creación y Uso de Modelos de Chat con OpenAI y LangChain

Creación de Plantillas Dinámicas para Prompts de Chat en Langstead

Memoria en chatbots: Implementación con ConversationBufferMemory

Configuración de ConversationBufferWindowMemory en Chatbots

Memoria de Resumen de Conversaciones con Chat GPT-3.5

Gestión de Memoria en Chatbots con ConversationSummaryBufferMemory

Memoria de Entidades en Chatbots para Soporte de Ventas

Implementación de Chatbot con Memoria en Python usando Langchain

Evolución del uso de LLM

Creación de Chatbots con Modelos de Lenguaje y Bases de Datos Vectoriales