Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje

Curso de LangChain

Contenido del curso

Introducción a LangChain

Casos de uso de LangChain

Manejo de documentos con índices

Embeddings y bases de datos vectoriales

Chats y memoria con LangChain

Evolución del uso de LLM

37
Ecosistema LLM y qué sigue después de LangChain
05:26 min

Tomar examen

Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje

Resumen

¿Cómo construir una cadena de utilidad para responder preguntas?

La creación de cadenas de utilidad, específicamente diseñadas para resolver preguntas a partir de documentos, es un enfoque que combina técnicas de inteligencia artificial con la manipulación de datos. Utilizando bibliotecas de Python, como chains.retrieval.qa, podemos construir estas cadenas que realizan un proceso de "question answering" o QA, aprovechando la información almacenada en bases de datos específicas.

¿Qué es retrieval.qa y cómo se utiliza?

retrieval.qa es una característica crucial de la librería de cadenas que nos permite crear una cadena para resolver preguntas a partir de un modelo de lenguaje y una base de datos. Aquí, "retrieval" implica la obtención de información, y "QA" se refiere a la resolución de preguntas. Con esta herramienta, podemos recuperar información relevante desde una base de datos vectorial previamente definida, como una almacenada con Chroma.

Para utilizar retrieval.qa, seguimos estos pasos:

Definir el modelo de lenguaje (LLM):
- En el ejemplo, utilizamos el modelo gpt3-5, específicamente el gpt3.5 turbo de OpenAI.
- Este modelo es cargado y gestionado a través de herramientas de homogeneización de modelos como Langstan, que nos permiten mantener una clase uniforme para distintos tipos de modelos de IA, facilitando la interconectividad y sustituibilidad sin modificar la cadena.
Definir el tipo de cadena:
- Usamos el tipo de cadena ChainType Stuff, que permite procesar el texto que cabe completamente en el prompt del modelo.
- Este enfoque evita iterar a través de grandes volúmenes de texto, como haría un enfoque MapReduce.
Incorporación de un Retriever:
- Un Retriever es esencial en este proceso ya que actúa como la base de datos de donde nuestros modelos de cadena extraerán la información.
- En este caso, nuestra base de datos es Chroma, y utilizamos el VectorStore que almacena documentos, como un PDF de un artículo de investigación.

from chains.retrieval.qa import RetrievalQA

# Definir modelo de lenguaje
llm = 'gpt3-5'

# Inicializar cadena
cadena_resolver = RetrievalQA.from_chain_type(
    llm=llm, 
    chain_type='Stuff', 
    retriever=VectorStore
)

¿Qué rol juega el búsqueda y el contexto en la resolución de preguntas?

La finalidad de configurar correctamente las búsquedas y contextos es optimizar la precisión y relevancia de las respuestas generadas. A medida que las capacidades de almacenamiento y procesamiento de las bases de datos crecen, estas configuraciones permiten que el sistema adquiera un mayor conocimiento y contexto al resolver preguntas complejas.

Parámetros de búsqueda (SearchQuarks):
- Estas son configuraciones importantes que determinan qué fragmentos de texto serán considerados relevantes al responder una pregunta.
- En el ejemplo proporcionado, se usa un ajuste que restringe a dos fragmentos de texto. Este número busca equilibrar el contexto proporcionado y el tamaño máximo del prompt aceptado por el modelo.
Balance de contexto:
- Al aumentar la cantidad de fragmentos, el modelo tiene un mayor contexto para basar sus respuestas, mejorando su exactitud.
- Sin embargo, la limitación sigue siendo el tamaño del prompt que el modelo puede procesar, que actualmente es restringido pero se espera mejore en el futuro.

¿Cómo se ejecuta la cadena para resolver una pregunta?

Una vez que la cadena está correctamente inicializada y configurada con sus parámetros, podemos realizar consultas específicas. Por ejemplo, para evaluar la relevancia de la criptografía de llave pública, simplemente ejecutamos la cadena con la pregunta deseada y obtenemos no solo la respuesta, sino también el contexto relevante del contenido original.

# Ejecutar pregunta
respuesta = cadena_resolver.run(
    pregunta='¿Cuál es la relevancia de la criptografía de llave pública?'
)

print(respuesta)

Con estas herramientas y metodologías, estamos bien posicionados para enfrentar cualquier desafío en el ámbito del "question answering", y con la evolución continua de la tecnología, el potencial solo seguirá creciendo. Mantente al tanto de estas innovaciones y sigue explorando las aplicaciones del aprendizaje automático y procesamiento del lenguaje natural.

Emmanuel Rodríguez

Estudiante

🚚 Recuperadores (Retrievers)

ℹ️ Summary

Esta guía proporciona un caso de uso sobre Recuperadores QA (Retrievers QA), sobre documentos combinados sobre cadenas en un almacenamiento vectorial local, HNSWLib. .

🗂️ Background

Un recuperador es una interfaz que devuelve documentos a partir de una consulta no estructurada. Es más general que un almacén vectorial. . Un recuperador no necesita ser capaz de almacenar documentos, sólo de devolverlos (o recuperarlos). Los almacenes vectoriales pueden utilizarse como columna vertebral de un recuperador, pero también existen otros tipos de recuperadores. . Enlaces auxiliares:

Recuperadores (Retrievers)
Almacén vectorial HNSWLib
Recuperadores QA (Retrievers QA)

🎯 Problem

Implementar una "Utility Chain" en LangChain utilizando TypeScript para implementar una tarea específica, por ejemplo, procesar y analizar datos textuales para extraer información QA. .

🚧 Solution

LangChain permite incorporar prompts como parte de un flujo de procesamiento de una aplicación a un concentrado documental, para posteriormente la extracción específica información mediante RetrievalQAChain.

import { RetrievalQAChain } from 'langchain/chains'

Posteriormente, se genera una chain para efectuar un query sobre un nicho de información, por ejemplo una pregunta What time will the meeting be?.

const chain = RetrievalQAChain.fromLLM(llm, vectorStore.asRetriever({ k: 1 }))
const response = await chain.call({
    query: 'What time will the meeting be?',
})

Sin embargo, RetrievalQAChain emplea un VectorStore para poder mezclar y seccionar la información. . HNSWLib es un almacén de vectores en memoria, o local, que puede guardarse en un archivo. Instalable como dependencia mediante hnswlib-node. . Cada almacenamiento vectorial requiere de Incrustaciones (Embeddings), los cuales son un medio para representar información en un formato numérico.

import { OpenAIEmbeddings } from 'langchain/embeddings/openai'
import { HNSWLib } from 'langchain/vectorstores/hnswlib'

const embeddings = new OpenAIEmbeddings({
    openAIApiKey: API_TOKEN,
})
const vectorStore = await HNSWLib.fromDocuments(docs, embeddings)

🍻 Discussion

A distintos tipos de Embeddings, configurables para usarlos con LangChain. Dependiendo de caso de uso y la instalación, serán más ajustables para resolver los requerimientos de nuestro producto. . Cabe mencionar, que los Embeddings permiten procesar documentos, para permitirnos enfocar en la generación, refinamiento u optimización de nuestros prompts.

import { RetrievalQAChain } from 'langchain/chains'
import { OpenAIEmbeddings } from 'langchain/embeddings/openai'
import { OpenAI } from 'langchain/llms/openai'
import { TextLoader } from 'langchain/document_loaders/fs/text'
import { HNSWLib } from 'langchain/vectorstores/hnswlib'

const API_TOKEN = // 👈 Enter the API Token from OpenAI

const loader = new TextLoader('tmp/conversation.txt')
const docs = await loader.load()

const llm = new OpenAI({
    maxTokens: -1,
    modelName: 'gpt-4',
    temperature: 0,
    openAIApiKey: API_TOKEN,
})

const embeddings = new OpenAIEmbeddings({
    openAIApiKey: API_TOKEN,
})
const vectorStore = await HNSWLib.fromDocuments(docs, embeddings)

const chain = RetrievalQAChain.fromLLM(llm, vectorStore.asRetriever({ k: 1 }))
const response = await chain.call({
    query: 'What time will the meeting be?',
})
console.log(response)

Sebastian Carballo

Estudiante

Impecable aporte compa, gracias!

Matheus Carvalho

Gian

Jose Luis Gutierrez Ramirez

Evert Escalante

Beyling Mendoza

Gabriel Ichcanziho Pérez Landa

Johnny Loachamin

Orlando castellanos

Platzi Team

David Vallejo Gomez

Juan José de la Torre Mesa

Company_admin

Ernesto Vivas

Sebastian Gaviria

Christian Mahony Reátegui Rivera

Jose Luis Alcocer Caceres

Juan R. Vergara M.

Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje

Introducción a LangChain

Creación de un sistema de preguntas y respuestas con LangChain

Estructura y Uso de Langchain en Python

Carga de Modelos Open Source con Langchain y Hugging Face

Cómo usar modelos OpenAI con LangChain

Creación de Prompts Dinámicos con LangChain

Tipos de cadenas en LangChain

Resumir PDFs largos con LangChain chains