Fragmentación de Documentos para Modelos de Lenguaje

Clase 8 de 17 • Curso de LangChain para Manejo y Recuperación de Documentos

Contenido del curso

Manejo de documentos

Indexación de vectores

Recuperación de documentos

Re-ranking semántico

RAG

Tomar examen

Resumen

Cuando trabajas con documentos extensos que superan la ventana de contexto de tu modelo de lenguaje, necesitas una estrategia inteligente para no perder información relevante ni generar errores. La solución está en crear una jerarquía de fragmentos que combine especificidad y contexto, utilizando lo que se conoce como Parent Document Retriever.

¿Qué son los documentos padre y por qué los necesitas?

El problema es claro: si tus documentos originales son demasiado grandes, no caben en la ventana de contexto y el modelo simplemente no puede procesarlos. Pero tampoco quieres quedarte solo con fragmentos diminutos que pierden contexto.

La idea es crear documentos padre, que son fragmentos grandes pero manejables, a medio camino entre el documento completo y los fragmentos hijos. Los documentos hijos se enfocan en la especificidad, mientras que los padres ofrecen un contexto más amplio sin ser el documento gigante original.

Para implementarlo se define una función llamada Parent Text Splitter [0:24], que parte los documentos enormes en piezas más pequeñas pero con mayor ventana de contexto que los hijos.

¿Cómo se configura el tamaño de los fragmentos padre?

El parámetro clave es el chunk size. No puede ser igual al de los hijos, porque existe una jerarquía entre padre e hijo [0:52]. En el ejemplo práctico:

Los documentos padre tienen un tamaño de 400 tokens con 40 de overlap.
Los documentos hijos tienen un tamaño de 100 tokens.
Esto genera una relación de uno a cuatro: los padres son cuatro veces más grandes que los hijos.

Este overlap de 40 tokens asegura que no se pierda información en los bordes de cada fragmento, manteniendo coherencia entre chunks consecutivos.

¿Qué componentes se necesitan para armar el retriever?

La configuración requiere los mismos elementos base [1:16]:

Un child splitter para los fragmentos pequeños.
Una vector store (en este caso la colección se llamó big fragments para diferenciarla).
Una store en memoria para los documentos.
El Parent Document Retriever, al que ahora también se le especifica el parent splitter.

Una vez creado, se agregan los documentos a la vector store y se espera a que el proceso termine.

¿Qué resultados produce este enfoque de fragmentación?

Al verificar la longitud de documentos en el store, el número cambia drásticamente [1:44]. Si antes se tenían alrededor de 900 documentos completos, ahora hay 6,481 elementos. Esto tiene sentido: al cortar en chunks de 400 tokens, cada documento original genera múltiples fragmentos padre.

La prueba definitiva está en las queries [2:08]:

Al ejecutar una consulta directamente contra la vector store, se obtienen 4 documentos.
Al ejecutarla con el retriever, se obtienen 3 documentos.

Estos 3 documentos son un subconjunto de los 4 que devuelve la vector store directamente. La diferencia es que el retriever ya aplica la lógica de combinar especificidad (a través de los hijos) con contexto (a través de los padres).

El resultado final es un sistema que balancea precisión y amplitud de contexto, permitiendo que el modelo de lenguaje reciba fragmentos que realmente puede procesar sin sacrificar la calidad de la información recuperada. Si estás implementando este tipo de sistemas, ¿qué relación de tamaño entre padre e hijo te ha funcionado mejor? Comparte tu experiencia.

Comentarios

Eber Laurente Lliuyacc

student•

2.2 Parent Retriever: Recuperación de fragmentos largos en lugar de doc completos

Bien, nos hemos asegurado en que el LLM contará con el contexto completo, Parent documents, para dar respuesta a la consulta del usuario.

Pero ¿qué pasa si el Parent documents no entra en la ventana de contexto del LLM?

Estrategia: En lugar de pasar al LLM todo el Parent document, le pasamos secciones más reducidas pero más grandes que los Child documents

Paulo Esteban Orsini

student•

Jesús, entences si mi documento es un libro con capítulos, el libro es el padre, y los capítulos son los hijos. Pero al momento de cargar los documentos, cargo el libro y los capítulos? No me quedo claro eso. Muchas Gracias.

RENÉ CARDOSO

student•

La forma correcta de implementarlo no es cargar dos conjuntos de documentos diferentes (el libro y los capítulos) manualmente. La forma correcta es cargar el documento base y dejar que el 'ParentDocumentRetriever' maneje la división y el almacenamiento jerárquico por ti.

Los chunks padres se guardan en InMemoryStore, y los chunks hijos se guardan en VectorStore.

Mauricio Combariza

student•

No entiendo por que me sale este error, por documentación pareceria estar bien pero no. TypeError: MultiVectorRetriever.init() got an unexpected keyword argument 'child_splitter'

Fragmentación de Documentos para Modelos de Lenguaje

Manejo de documentos

Extracción y Fragmentación de Texto para IA

Extracción de Texto Contextual en HTML: Técnicas y Aplicaciones

Extracción de Texto en PDFs con Doku Gami

Fragmentación de Texto con Contexto en Documentos de Programación

Indexación de vectores

Indexación de Vectores para Optimizar Bases de Datos

Indexación Incremental y Limpieza de Vectores Duplicados

Recuperación de documentos

Recuperación y fragmentación de documentos para consultas eficaces

Fragmentación de Documentos para Modelos de Lenguaje

Etiquetado y Filtrado de Documentos con Modelos de Lenguaje

Filtrado Inteligente de Documentos con Metadatos y Modelos de Lenguaje

Implementación de MultiQuery Retrievers con LangChain y Pydantic

Combinación de Retrievers para Búsqueda de Documentos Relevantes

Re-ranking semántico

Integración de Reranking Semántico en Buscadores por Palabras Clave

Ranking por Relevancia Marginal Máxima en Documentos

Reordenamiento de Documentos en Recuperación Mejorada de Información

RAG

Implementación de Sistemas RAG para Mejora de Chatbots

Creación de Aplicación con Streamlit para Procesamiento de Documentos