Cómo dividir textos largos con LangChain

Curso de Agentes AI

Contenido del curso

Fundamentos de los Agentes Inteligentes y LangChain

Chat Models y Prompt templates

Cadenas en LangChain

Carga de documentos en LangChain

Retrieval-augmented generation (RAG)

Agentes en LangChain

Ecosistema de LangChain

26
Creación y Gestión de Aplicaciones con LangChain, LangSmith y LangGraph
03:56 min

Tomar examen

Cómo dividir textos largos con LangChain

Resumen

Cuando trabajas con documentos largos en LangChain, los text splitters se vuelven una herramienta clave para dividir el contenido en fragmentos manejables sin perder coherencia. Esta guía te muestra qué son, por qué importan y cómo aplicarlos paso a paso si construyes aplicaciones con modelos de lenguaje como GPT.

Por qué necesitas dividir textos largos al usar modelos de lenguaje

Los modelos como GPT tienen un límite máximo de tokens que pueden procesar de una sola vez. Si intentas pasarle un libro completo, una transcripción extensa o un artículo largo, te vas a topar con la pared del contexto.

Aquí es donde entran los text splitters. Su trabajo es tomar un volumen grande de texto y partirlo en piezas más pequeñas, llamadas chunks, que sí caben dentro del límite del modelo.

¿Qué es un text splitter? Es una utilidad de LangChain que divide textos largos en fragmentos más pequeños llamados chunks, respetando límites de tokens y manteniendo coherencia semántica.

Hay tres razones principales por las que necesitas dividir el texto:

Límite de tokens: cada modelo acepta un número máximo de tokens por entrada, y los splitters ajustan los fragmentos a esa restricción.
Contexto entre fragmentos: aplicando superposiciones (overlap) entre chunks evitas perder información relevante en los cortes.
Coherencia semántica: no se trata solo de cortar por tamaño, sino de asegurar que cada fragmento tenga sentido por sí mismo.

Cómo funciona el RecursiveCharacterTextSplitter en LangChain

El splitter más común para empezar es el que recorre el texto recursivamente carácter por carácter. Para usarlo, primero cargas tu archivo de texto y luego configuras el objeto splitter con sus parámetros [2:00].

El flujo básico se ve así:

Abres el archivo, por ejemplo un example.txt con contenido tipo Lorem Ipsum, y lo guardas en una variable.
Lees el contenido y lo asignas a una variable como estado_de_la_union.
Importas el splitter recursivo por caracteres y configuras sus parámetros.
Creas el documento llamando al método que recibe una lista con tu texto.

Una vez creado el objeto, puedes acceder a cada fragmento por su índice. Por ejemplo, pedir el fragmento cero te devuelve el primer chunk que se generó.

Qué significan chunk size, overlap y length function

Estos tres parámetros definen cómo se corta tu texto y son los que más vas a tocar al ajustar resultados [2:30].

El chunk size establece cuántos caracteres tendrá cada fragmento. Si tu documento tiene 1.000 caracteres y eliges un chunk size de 100, obtendrás aproximadamente 10 fragmentos.

El overlap define cuántos caracteres se superponen entre un chunk y el siguiente. Si trabajas con chunks de 100 caracteres y un overlap de 20, cada fragmento incluirá los últimos 20 caracteres del anterior. Esto preserva continuidad y evita que una idea se rompa a la mitad.

La length function indica cómo se mide la longitud para hacer la división. Puedes medir por caracteres, por tokens o por la regla que necesites según tu caso.

¿Para qué sirve el overlap en un text splitter? Permite que cada chunk comparta caracteres con el anterior, manteniendo el contexto entre fragmentos para que el modelo no pierda información en los cortes.

Cómo usar separadores regex para dividir por patrones

Además de cortar por longitud, puedes pasarle un separador regex al splitter. Esto le dice que use una expresión regular para identificar dónde dividir, lo cual es útil cuando tu documento tiene patrones específicos como saltos de línea, encabezados o marcadores personalizados.

Con esta opción ganas control fino sobre los cortes y puedes adaptarlos a la estructura real del texto que estás procesando.

Cómo acceder a los fragmentos generados por el splitter

Después de crear el documento, cada chunk queda accesible como un objeto independiente. Puedes pedir el contenido completo o navegar fragmento por fragmento usando índices [4:30].

En una prueba con chunk size de 10 y overlap de 2, al pedir el fragmento cero el resultado fue simplemente la palabra Lorem. Cambiando el chunk size a 100, ese mismo fragmento contiene mucho más contenido. Esa es la flexibilidad que te da ajustar los parámetros: decides el nivel de granularidad según tu aplicación.

Explorar cada fragmento te permite verificar que la división tenga sentido antes de pasar los chunks al modelo o a un sistema de embeddings.

Qué otros text splitters puedes explorar en LangChain

El splitter recursivo por caracteres es solo el punto de partida. Dependiendo de tu caso, conviene probar otras variantes:

Splitters por tokens: dividen tomando como unidad los tokens del modelo, lo que se alinea mejor con los límites reales de procesamiento.
Splitters semánticos: cortan respetando el significado, agrupando frases o párrafos relacionados.
Splitters con separadores personalizados: ideales cuando tu texto tiene una estructura clara como capítulos, secciones o marcadores.

El reto ahora es tuyo: prueba dividir un mismo documento con distintos splitters, compara los resultados y comparte tus hallazgos en los comentarios.

Jovanny Delgado

Estudiante

Text Splitters en LangChain: Dividiendo Texto Eficientemente

Text Splitters en LangChain son herramientas esenciales para dividir grandes trozos de texto en fragmentos más pequeños y manejables. Esto es crucial para trabajar con modelos de lenguaje de gran tamaño (LLMs), ya que estos modelos suelen tener limitaciones en la cantidad de texto que pueden procesar a la vez.

Tipos de Text Splitters en LangChain

LangChain proporciona varios tipos de text splitters, cada uno con sus propias características y ventajas:

CharacterTextSplitter: Divide el texto en fragmentos de un tamaño específico en caracteres.
SentenceTextSplitter: Divide el texto en fragmentos basados en la detección de oraciones.
RecursiveCharacterTextSplitter: Divide el texto recursivamente, primero en fragmentos más grandes y luego en fragmentos más pequeños si es necesario.
TokenTextSplitter: Divide el texto en fragmentos basados en tokens, utilizando un tokenizador subyacente.
RegexPatternTextSplitter: Divide el texto según patrones definidos por expresiones regulares.

Ejemplo de Uso

Pythonfrom langchain.text_splitter import CharacterTextSplitter

text = "This is a long text that needs to be split into smaller chunks."

text_splitter = CharacterTextSplitter(chunk_size=50) chunks = text_splitter.split_text(text)

print(chunks) Usa el código con precaución.

Consideraciones Importantes

Tamaño de los fragmentos: El tamaño óptimo de los fragmentos puede variar según el modelo de lenguaje y la tarea específica.
Overlap: Puedes especificar un overlap entre los fragmentos para evitar perder contexto.
Tokenización: Si estás utilizando un TokenTextSplitter, asegúrate de que el tokenizador utilizado sea compatible con el modelo de lenguaje.
Personalización: Puedes personalizar los text splitters para satisfacer tus necesidades específicas, como utilizando expresiones regulares o funciones personalizadas.

Casos de Uso

Procesamiento de documentos largos: Dividir documentos largos en fragmentos más pequeños para procesarlos de manera eficiente.
Preparación de datos para entrenamiento: Dividir grandes conjuntos de datos de texto en fragmentos para entrenar modelos de lenguaje.
Interacción con modelos de lenguaje: Dividir las consultas del usuario en fragmentos más pequeños para evitar problemas de longitud.

Conclusión

Los text splitters son una herramienta fundamental en LangChain para trabajar con textos de diferentes tamaños y formatos. Al utilizarlos de manera efectiva, puedes mejorar la eficiencia y la precisión de tus aplicaciones basadas en modelos de lenguaje.

Cómo dividir textos largos con LangChain

Fundamentos de los Agentes Inteligentes y LangChain

Conexión a Huggingface GPT-2 en Google Collaboratory

Desarrollo de Aplicaciones Conversacionales con LangChain

Qué son los agentes en LangChain

Gemini y OpenAI con API keys en LangChain

Chat Models y Prompt templates

Flujo de conversación con trim_message en LangChain

Conexión y uso de modelos de chat con LangChain y OpenAI

Uso de Modelos de Google AI Gemini en LangChain

Creación de Plantillas de Prompts en LangChain

Técnicas de Few-Shot Prompting en Modelos de Lenguaje

Cadenas en LangChain

Creación de Cadenas en LangChain con String Output Parser

Gestión de Historial de Chat con LangChain

Integración de Herramientas Claves en LangChain: Runnable, OutputParser, Streaming

Creación de Chatbots Inteligentes con Memoria Conversacional

Cadena de Procesos para Memoria Conversacional con GPT-3.5 Turbo

Carga de documentos en LangChain

Carga y procesamiento de archivos HTML con LangChain y Beautiful Soup

Carga de PDF y CSV con LangChain