Fragmentación de Documentos con TextSplitter en Langsteam

Cursos Empresas Blog Live Conf Precios

Contenido del curso

Introducción a LangChain

Casos de uso de LangChain

Manejo de documentos con índices

Embeddings y bases de datos vectoriales

Chats y memoria con LangChain

Evolución del uso de LLM

37
Creación de Chatbots con Modelos de Lenguaje y Bases de Datos Vectoriales
05:27 min

Tomar examen

Fragmentación de Documentos con TextSplitter en Langsteam

Resumen

Fragmentar documentos es uno de los pasos más importantes cuando construyes un sistema de búsqueda semántica o un índice de información. Sin una buena estrategia de partición, los modelos de lenguaje no pueden procesar textos extensos de forma eficiente. Aquí se explica cómo usar los Text Splitters de LangChain para convertir documentos grandes en fragmentos manejables, qué hiperparámetros ajustar y cuáles son las recomendaciones de la literatura.

¿Qué es un Text Splitter y por qué lo necesitas?

Una vez que los datos están cargados e importados, el siguiente paso es partir ese "gran libro" en capítulos y subcapítulos más pequeños. Los Text Splitters son document transformers dentro de LangChain: toman documentos completos y los dividen en fragmentos más pequeños y legibles [0:12].

La analogía es clara: si tienes un PDF de dieciocho páginas, cada página es un documento. Pero dieciocho documentos grandes no son prácticos para indexar. Al aplicar el splitter, esos dieciocho documentos se convierten en ciento cuarenta y dos fragmentos más pequeños, listos para ser indexados y consultados con mayor precisión [3:30].

¿Cómo funciona el Recursive Character Text Splitter?

El Recursive Character Text Splitter se importa desde la librería text_splitter de LangChain. Su característica principal es que respeta los límites naturales del texto: intenta no cortar oraciones a la mitad [2:22]. Siempre busca que una oración termine antes de iniciar un nuevo fragmento, lo que hace que cada pedazo de texto sea coherente y comprensible.

python from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter( chunk_size=1000, chunk_overlap=200, length_function=len )

documents = text_splitter.split_documents(data)

El método split_documents recibe data, que es una lista de objetos document de LangChain. Cada uno de estos objetos tiene dos atributos fundamentales: page_content (el texto) y metadata (información como la fuente del archivo o el número de página) [3:50].

¿Qué significan chunk size y chunk overlap?

Estos son los dos hiperparámetros clave al fragmentar texto [4:30]:

Chunk size: define el tamaño máximo de cada fragmento. La length_function determina cómo se mide ese tamaño. Si usas len, cada carácter cuenta como una unidad. También puedes usar funciones más avanzadas, como un tokenizador de OpenAI o de Hugging Face, para contar tokens en lugar de caracteres [1:08].
Chunk overlap: establece cuántos caracteres se repiten entre un fragmento y el siguiente. Esto es importante porque a veces la respuesta a una pregunta está justo en el límite entre dos fragmentos. Con el overlap, cada pedazo incluye un poco del texto anterior y del siguiente, creando una conexión entre ellos [1:42].

¿Cuáles son los valores recomendados para fragmentar documentos?

La literatura y la práctica sugieren mantener el chunk size alrededor de quinientos tokens [5:06]. La razón tiene que ver con el paso siguiente en el proceso: la creación de embeddings. Los modelos de embeddings tienen un límite en la cantidad de tokens que aceptan como entrada.

En modelos de Sentence Transformers en Hugging Face, el máximo ronda los doscientos cincuenta tokens [5:40].
En el caso de OpenAI, el límite es de aproximadamente ocho mil tokens [5:50].
Estos números van creciendo con el tiempo, y en el futuro los índices podrán ser más grandes.

Para el chunk overlap, la recomendación es que represente entre un diez y un veinte por ciento del chunk size [6:18]. Esto permite que los documentos no sean demasiado repetitivos, pero mantengan conexión entre sí. Por ejemplo:

Chunk size de 500 con overlap de 50.
Chunk size de 1000 con overlap de 100.

python text_splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50, length_function=len )

documents = text_splitter.split_documents(data)

Con estos valores, los dieciocho documentos originales se convierten en doscientos cuarenta y uno [7:08]. Cada elemento de la lista resultante sigue siendo un objeto document de LangChain con su page_content y metadata intactos.

¿Cómo explorar los fragmentos generados?

Una vez creados los fragmentos, conviene inspeccionarlos para verificar que todo funcione correctamente:

len(documents) muestra cuántos fragmentos se generaron.
type(documents) confirma que es una lista.
type(documents[0]) verifica que cada elemento es un document.
documents[0].page_content muestra el texto del primer fragmento.
La metadata indica la fuente original y la página correspondiente [4:00].

Elegir los valores correctos de chunk size y chunk overlap no es una ciencia exacta. Como se menciona, es un proceso de "atínale al precio": hay que experimentar con diferentes combinaciones y evaluar cuál funciona mejor para cada caso de uso. ¿Qué valores has probado en tus proyectos y cuáles te han dado mejores resultados?

Emmanuel Rodríguez

student

🔩 Divisores de Texto (Text Splitters)

ℹ️ Summary

Esta guía proporciona un caso de uso sobre "Text Splitters", cuando se desea dividir un documento largo en trozos que puedan ajustarse a la ventaja contextual de un modelo. .

🗂️ Background

Una vez cargados los documentos, a menudo querrá transformarlos para adaptarlos mejor a su aplicación. El ejemplo más sencillo es que quieras dividir un documento largo en trozos más pequeños que quepan en la ventana contextual de tu modelo. LangChain tiene una serie de transformadores de documentos incorporados que facilitan la división, combinación, filtrado y manipulación de documentos. . En alto nivel, los divisores de texto funcionan de la siguiente manera:
.

Divida el texto en pequeños fragmentos semánticamente significativos (a menudo frases).
Se empieza a combinar estos trozos pequeños en un trozo más grande hasta que alcances un cierto tamaño (medido por alguna función).
Una vez alcanzado ese tamaño, haga de ese trozo su propio fragmento de texto y empiece a crear un nuevo trozo de texto con cierto solapamiento (para mantener el contexto entre los trozos).

. Enalces auxiliares:

Transformadores de Documentos

🎯 Problem

Implementar un "Text Splitter" utilizando TypeScript para dividir un repositorio de información manejable por el model GPT-4 de OpenAI. .

🚧 Solution

LongChain recomienda la funcionalidad RecursiveCharacterTextSplitter, ya que posee la versatilidad de dividir, recursivamente, mediante caracteres distintivos en una oración y párrafos en un documento de texto.

import { RecursiveCharacterTextSplitter } from 'langchain/text_splitter'

const splitter = new RecursiveCharacterTextSplitter({
	chunkSize: 1000,
	chunkOverlap: 200,
})

const docsOutput = await splitter.splitDocuments(docs)

Podemos destacar los parámetros chunkSize y chunkOverlap, los cuales definen la división semántica del contenido en función del tamaño y la ampliación del mismo, respectivamente. .

🍻 Discussion

En la definición del TextSplitter definimos un chunk de 1000 caracteres y un overlap de 200 caracteres, pero, ¿Cómo se cuál es valor correcto para estos parámetros? . Sobre el chunk, la cantidad de tokens o caracteres debe ser la misma que la que se definirá en el embedding, por lo que si se entregan más tokens que el modelo de embedding puede soportar, el modelo colapsará o procesará información incompleta. Los diferentes modelos aceptan diferentes límites, donde ada de OpenAI acepta hasta 8k de caracteres, mientras otros más modestos aceptan 500 (que es el valor estándar por ahora). . Con respecto al overlap es importante mantener un porcentaje de 10 a 20% para que pueda comprender contexto anterior sin que se repitan conceptos exageradamente, si bien este es un valor de prueba y error, se ha demostrado que estos valores son funcionales.

import { HNSWLib } from 'langchain/vectorstores/hnswlib'
import { OpenAIEmbeddings } from 'langchain/embeddings/openai'
import { RecursiveCharacterTextSplitter } from 'langchain/text_splitter'
import { TextLoader } from 'langchain/document_loaders/fs/text'

const API_TOKEN = // 👈 Enter the API Token from OpenAI

const textLoader = new TextLoader('tmp/meeting.txt')
const docs = await textLoader.load()

const splitter = new RecursiveCharacterTextSplitter({
	chunkSize: 1000,
	chunkOverlap: 200,
})
const docsOutput = await splitter.splitDocuments(docs)

const embeddings = new OpenAIEmbeddings({
	openAIApiKey: API_TOKEN,
})

const vectorStore = await HNSWLib.fromDocuments(docsOutput, embeddings)
console.log(vectorStore)

Introducción a LangChain

Creación de un sistema de preguntas y respuestas con LangChain

Estructura y Uso de Langchain en Python

Carga de Modelos Open Source con Langchain y Hugging Face

Uso de Modelos OpenAI con LangChain: Guía Práctica para Principiantes

Creación de Prompts Dinámicos con LangChain

Uso de Cadenas en Modelos de Lenguaje con Language Chain

Procesamiento de PDFs y creación de resúmenes con LangChain

Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje

Creación de cadenas secuenciales en Python para procesamiento de texto

Casos de uso de LangChain

Aplicaciones y Beneficios de Lancheng en el Manejo de LLMs

Implementación de Lanchain y LLMs: Costos, Privacidad y Buenas Prácticas

Manejo de documentos con índices

Carga de Documentos en Langchain para Creación de Índices

Fundamentos de la Clase Document en Langchain

Carga y Transformación de Documentos No Estructurados con Landship

Lectura de CSV y conversión a DataFrame de Pandas y LangChain

Creación de un Cargador de JSON-Lines Personalizado en Python