Introducción a LangChain

1

Desarrollo de aplicaciones con LLM utilizando LangChain

2

Estructura y módulos de LangChain

3

Uso de modelos Open Source de Hugging Face

4

Uso de modelos de OpenAI API

5

Prompt templates de LangChain

6

Cadenas en LangChain

7

Utility chains

8

RetrievalQA chain

9

Foundational chains

Quiz: Introducción a LangChain

Casos de uso de LangChain

10

Casos de uso de LangChain

11

¿Cómo utilizar LangChain en mi equipo?

Quiz: Casos de uso de LangChain

Manejo de documentos con índices

12

¿Cómo manejar documentos con índices en LangChain?

13

La clase Document

14

Document Loaders: PDF

15

Document Loaders: CSV con Pandas DataFrames

16

Document Loaders: JSONL

17

Document Transformers: TextSplitters

18

Proyecto de Chatbot: configuración de entorno para LangChain y obtención de datos

19

Proyecto de Chatbot: creación de documents de Hugging Face

Quiz: Manejo de documentos con índices

Embeddings y bases de datos vectoriales

20

Uso de embeddings y bases de datos vectoriales con LangChain

21

¿Cómo usar embeddings de OpenAI en LangChain?

22

¿Cómo usar embeddings de Hugging Face en LangChaing?

23

Chroma vector store en LangChain

24

Proyecto de Chatbot: ingesta de documents en Chroma

25

RetrievalQA: cadena para preguntar

26

Proyecto de Chatbot: cadena de conversación

27

Proyecto de Chatbot: RetrievalQA chain

Quiz: Embeddings y bases de datos vectoriales

Chats y memoria con LangChain

28

¿Para qué sirve la memoria en cadenas y chats?

29

Uso de modelos de chat con LangChain

30

Chat prompt templates

31

ConversationBufferMemory

32

ConversationBufferWindowMemory

33

ConversationSummaryMemory

34

ConversationSummaryBufferMemory

35

Entity memory

36

Proyecto de Chatbot: chat history con ConversationalRetrievalChain

Quiz: Chats y memoria con LangChain

Evolución del uso de LLM

37

LangChain y LLM en evolución constante

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Convierte tus certificados en títulos universitarios en USA

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

17 Días
19 Hrs
4 Min
24 Seg
Curso de LangChain

Curso de LangChain

Omar Espejel

Omar Espejel

Document Transformers: TextSplitters

17/37
Recursos

Aportes 2

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

⚠️ Una advertencia para que sí usen la data del PDF de crypto.

Antes de cargar documents con el text_splitter recuerden correr nuevamente el código que carga el archivo public_key_cryptography.pdf que se aprende en la Clase 14 Document Loaders: PDF, de lo contrario van cargar la data del JSON o del CSV y no resolverán las queries que indica el profe. 🤓

from langchain.document_loaders import PyPDFLoader

loader = PyPDFLoader("./public_key_cryptography.pdf")
data = loader.load()

🔩 Divisores de Texto (Text Splitters)

.

ℹ️ Summary

Esta guía proporciona un caso de uso sobre “Text Splitters”, cuando se desea dividir un documento largo en trozos que puedan ajustarse a la ventaja contextual de un modelo.
.

🗂️ Background

Una vez cargados los documentos, a menudo querrá transformarlos para adaptarlos mejor a su aplicación. El ejemplo más sencillo es que quieras dividir un documento largo en trozos más pequeños que quepan en la ventana contextual de tu modelo. LangChain tiene una serie de transformadores de documentos incorporados que facilitan la división, combinación, filtrado y manipulación de documentos.
.
En alto nivel, los divisores de texto funcionan de la siguiente manera:
.

  1. Divida el texto en pequeños fragmentos semánticamente significativos (a menudo frases).
  2. Se empieza a combinar estos trozos pequeños en un trozo más grande hasta que alcances un cierto tamaño (medido por alguna función).
  3. Una vez alcanzado ese tamaño, haga de ese trozo su propio fragmento de texto y empiece a crear un nuevo trozo de texto con cierto solapamiento (para mantener el contexto entre los trozos).

.
Enalces auxiliares:

.

🎯 Problem

Implementar un “Text Splitter” utilizando TypeScript para dividir un repositorio de información manejable por el model GPT-4 de OpenAI.
.

🚧 Solution

LongChain recomienda la funcionalidad RecursiveCharacterTextSplitter, ya que posee la versatilidad de dividir, recursivamente, mediante caracteres distintivos en una oración y párrafos en un documento de texto.

import { RecursiveCharacterTextSplitter } from 'langchain/text_splitter'

const splitter = new RecursiveCharacterTextSplitter({
	chunkSize: 1000,
	chunkOverlap: 200,
})

const docsOutput = await splitter.splitDocuments(docs)

Podemos destacar los parámetros chunkSize y chunkOverlap, los cuales definen la división semántica del contenido en función del tamaño y la ampliación del mismo, respectivamente.
.

🍻 Discussion

En la definición del TextSplitter definimos un chunk de 1000 caracteres y un overlap de 200 caracteres, pero, ¿Cómo se cuál es valor correcto para estos parámetros?
.
Sobre el chunk, la cantidad de tokens o caracteres debe ser la misma que la que se definirá en el embedding, por lo que si se entregan más tokens que el modelo de embedding puede soportar, el modelo colapsará o procesará información incompleta. Los diferentes modelos aceptan diferentes límites, donde ada de OpenAI acepta hasta 8k de caracteres, mientras otros más modestos aceptan 500 (que es el valor estándar por ahora).
.
Con respecto al overlap es importante mantener un porcentaje de 10 a 20% para que pueda comprender contexto anterior sin que se repitan conceptos exageradamente, si bien este es un valor de prueba y error, se ha demostrado que estos valores son funcionales.

import { HNSWLib } from 'langchain/vectorstores/hnswlib'
import { OpenAIEmbeddings } from 'langchain/embeddings/openai'
import { RecursiveCharacterTextSplitter } from 'langchain/text_splitter'
import { TextLoader } from 'langchain/document_loaders/fs/text'

const API_TOKEN = // 👈 Enter the API Token from OpenAI

const textLoader = new TextLoader('tmp/meeting.txt')
const docs = await textLoader.load()

const splitter = new RecursiveCharacterTextSplitter({
	chunkSize: 1000,
	chunkOverlap: 200,
})
const docsOutput = await splitter.splitDocuments(docs)

const embeddings = new OpenAIEmbeddings({
	openAIApiKey: API_TOKEN,
})

const vectorStore = await HNSWLib.fromDocuments(docsOutput, embeddings)
console.log(vectorStore)