Fragmentación de documentos en bases de datos vectoriales

Clase 4 de 22 • Curso de RAG con Microsoft Azure

Resumen

¿Qué diferencia el manejo de información en sistemas web y aplicaciones distribuidas?

Cuando subes documentos completos, como PDF o Word, a un sistema web tradicional, estos se almacenan y descargan de manera íntegra. Sin embargo, en sistemas avanzados como los utilizados por RAG, ocurre un cambio radical en cómo se procesa y almacena esta información.

¿En qué consiste la fragmentación o rebanado de documentos?

El rebanado o fragmentación implica dividir cada archivo, sea texto, PDF o imagen, en pequeños segmentos llamados chunks. Esta división ocurre sin un patrón específico; un solo término podría partirse en diferentes fragmentos sin afectar esencialmente el almacenamiento.

La ventaja radica en que estos chunks permiten almacenar los documentos de manera eficiente en bases de datos especializadas, conocidas como bases de datos vectoriales.

¿Qué son los embeddings y cómo funcionan en bases de datos vectoriales?

Los embeddings representan la manera concreta en que los fragmentos almacenados están organizados dentro de una base de datos vectorial. Estos permiten realizar consultas precisas, recuperando el fragmento exacto de información que mejor responda a una pregunta del usuario.

¿Cómo interactúan las consultas con la base de datos y los LLM?

Al realizar preguntas a la base de datos, esta recupera el fragmento más acorde a la consulta mediante los embeddings ya almacenados. Luego, esos fragmentos escogidos formarán un prompt para que un modelo de lenguaje large (LLM por sus siglas en inglés) presente una respuesta clara y directa al usuario.

Es importante reconocer que esta metodología permite a los LLM ofrecer respuestas comprensibles, incluso si la información inicial está fragmentada o incompleta, gracias a su capacidad de análisis.

¿Qué rol juega la indexación de datos?

Otro aspecto fundamental, mencionado brevemente en la clase, es la indexación de datos. Aunque este tema se explorará más profundamente en clases futuras, es crucial para optimizar la recuperación de fragmentos correctos durante una búsqueda en tales bases vectoriales.

Invito tu participación y comentarios sobre este tema para continuar profundizando juntos en el manejo avanzado de datos.

Andrés Cardona

student•

Descripción general del diagrama:

Parte 1: Indexación del conocimiento

1. Document

Es el contenido fuente: puede ser texto plano, PDF, artículos científicos, reportes médicos, etc.
Ejemplo: un reporte de citología o una guía clínica.

2. Chunker

Divide el documento en trozos (chunks) manejables (ej. 200–500 tokens) para que el modelo no pierda el contexto.
Técnicas comunes:
- Dividir por párrafos.
- Usar sliding windows (ventanas solapadas).

3. Chunks

Fragmentos de texto que representan partes semánticas del documento original.
Ejemplo:
- Chunk 1: “La citología cervical busca identificar células anormales…”
- Chunk 2: “En lesiones de alto grado se observa hipercromasia…”

4. Embeddings

Cada chunk se convierte en un vector usando un modelo de embeddings (como text-embedding-ada-002).
Estos vectores representan el significado semántico del texto.

5. Vector Database

Los embeddings se almacenan en una base vectorial (FAISS, Weaviate, Pinecone, Chroma).
Permite búsquedas por similitud: "¿Qué fragmento es más similar semánticamente a mi pregunta?"

🔹 Parte 2: Búsqueda y generación de respuestas

6. Query

El usuario escribe una pregunta o consulta.
Ejemplo: “¿Qué cambios celulares indica una lesión intraepitelial de alto grado?”

7. Query → Embedding → Vector Database

Se genera un embedding de la query.
Se compara con todos los vectores almacenados para encontrar los más similares.

8. Closest chunk

Se recuperan los chunks más cercanos en significado.
Ejemplo: un fragmento que define la lesión intraepitelial de alto grado.

9. Prompt Composer

Toma los chunks relevantes y los combina con la pregunta para crear un prompt enriquecido.

10. LLM (Large Language Model)

El prompt se envía al modelo (GPT, Mistral, LLaMA, etc.).
El modelo genera una respuesta basada en la combinación del contexto + query.

11. Response

Se devuelve la respuesta generada al usuario.

Rosse SPA

student•

Gracias Andrés! Tremenda explicacion 👏🏼

Leandro Espino Espino

student•

Conceptos clave como los chunks y los embeddings, fundamentales en el funcionamiento de bases de datos vectoriales dentro de sistemas RAG.

Los chunks son fragmentos pequeños y coherentes en los que se dividen los documentos, facilitando una recuperación más precisa de la información.

Cada chunk es transformado en un embedding, una representación numérica que captura el significado semántico del texto.

Estos embeddings se almacenan en bases de datos vectoriales, permitiendo búsquedas por similitud que enriquecen las respuestas generadas.

Edwin Castelblanco Sánchez

student•

Diagrama del proceso de Ingesta:

Kevin Fiorentino

student•

Si bien RAG se utiliza y relaciona en un alto porcentaje de las veces con las bases de datos vectoriales y los embeddings, no es algo excluyendo. Uno puede implementar RAG con una BBDD comun, una API u otras formas de obtener información.

Alexis Morales

student•

Un "chunk" es un pequeño fragmento en el que se divide un documento grande, como un PDF, para que la información sea más manejable en sistemas RAG. Esto permite almacenar estos pedazos en una base de datos vectorial para consultas eficientes, como se explica en la clase.

Renato Puello Pereira

student•

Este gráfico representa el flujo de cómo funciona un sistema de RAG (Retrieval-Augmented Generation), que combina bases de datos vectoriales y modelos de lenguaje (LLM) para responder preguntas con base en documentos externos. Explicación paso a paso en palabras simples:

Parte 1: Preparación de la información (Ingesta de documentos)

Document (Documento) Se parte de un documento grande (PDF, artículo, base de conocimiento, etc.).
Chunker (Divisor en fragmentos) Ese documento se divide en partes más pequeñas llamadas chunks (párrafos o fragmentos manejables).
Chunks Ahora tenemos varias piezas de texto independientes.
Vector database (Base de datos vectorial con embeddings) Cada fragmento se convierte en un embedding (una representación matemática del texto) y se guarda en una base de datos vectorial.
- Esto permite buscar por significado, no solo por palabras exactas.

Parte 2: Consulta del usuario

Query (Consulta) El usuario hace una pregunta.
Vector database (con embeddings de la consulta) La pregunta también se convierte en un embedding y se compara contra los embeddings de los documentos.
Closest chunk (Fragmento más cercano) Se selecciona el fragmento de texto que más se parece (semánticamente) a la pregunta del usuario.
- Ejemplo: si el usuario pregunta “¿Cuál es el río más largo de Brasil?”, el sistema encuentra un fragmento que hable del río Amazonas.

Parte 3: Generación de la respuesta

Context (Contexto) Ese fragmento recuperado se toma como contexto.
Prompt composer (Composición del prompt) Se arma un prompt que combina la consulta del usuario + el contexto encontrado.
LLM (Modelo de Lenguaje Grande) El modelo de lenguaje procesa el prompt y genera una respuesta coherente y detallada.
Response (Respuesta) Finalmente, se entrega la respuesta al usuario.

En resumen:

Los documentos se fragmentan (dividen en trozos) → se convierten en vectores → se guardan.
El usuario pregunta → se busca el fragmento más similar → se arma un prompt con contexto → el modelo genera una respuesta precisa.

Juan Felipe Rodriguez Valencia

student•

Las bases de datos vectoriales son sistemas diseñados para almacenar y recuperar datos en forma de vectores. En el contexto de RAG (Recuperación Aumentada por Generación), se utilizan para almacenar "embeddings", que son representaciones matemáticas de fragmentos de información. Esto permite realizar búsquedas eficientes al comparar la similitud entre vectores, facilitando la recuperación de datos relevantes para consultas específicas. Su uso es fundamental en aplicaciones de aprendizaje automático y procesamiento de lenguaje natural, ofreciendo un enfoque eficaz para manejar grandes volúmenes de información de manera contextual y precisa.

Sebastián Franco

student•

Por la parte de la data, a diferencia de forms o estructuras tradicionales de movimiento de información, los sistemas RAG requieren un mecanismo de incrustación donde la data se splicea en chunks de tamaño predeterminado

El proceso es el siguiente:

Supongamos un documento, este puede ser un pdf de un paper sobre un estudio de una enfermedad. Este documento va a pasar por un chunker, ese chunker (e implícitamente parser) va a extraer la información (texto) del documento y tajearla en pedazos de tamaño fijo, luego, esos pedazos van a ser codificados por un embedding y guardados en una base de datos vectorial

En el proceso de query (o retrieval) vamos a usar la query (embebida) y compararla en la base de datos vectorial con el chunk más afín, este va a ser “extraído” y pasado por un prompt composer, el cual va a construir el contexto necesario para ser digestado a un LLM que generará la respuesta final

Alex Aguirre

student•

Tengo la intuición que la estrategia para realizar el "chankeo" de la informacion es sumamente importante. Es decir, el criterio que se utilice será el que divida el contenido en partes, que luego serán esas partes la que se utilizaran para que el LLM genere la respuesta. Entonces, podría elegir dividir toda mi informacion palabras, o podría dividir toda mi informacion según una cantidad de token, o podría elegir dividir toda mi informacion por párrafos, o podría dividir toda la info por hoja, inclusive, podría dividir toda mi informacion por documento completo... es decir, esto es a elección. Además, hasta podría pensar que estrategia me conviene mas en base a como están generados y redactados los documentos ya creados (ej: si cada documento tiene un índice, podría dividir el "chakeo" para cada tema del índice).

La pregunta es, como puedo evaluar cual es la estrategia de "chankeo" para la información que tengo?? Existe algunas "buenas practicas" en ese sentido?? Tengo manera de hacer "chankeos" en paralelo considerando diferentes estrategias, y luego evaluarlas??

Anderson Castañeda T

student•

Quiero aprender a construir agentes, bueno miento, quiero aprender a realizar soluciones que permita a mi organización mejorar la eficiencia operativa. Un ejemplo sencillo de algo que queiro trabajar, es poder gestionar las peticiones, primero clasificarlas, despues dependiendo de la clasificación traer la información que va a necesitar lo cual incluye datos estructurados, normas, documentos tecnicos y otras peticiones, y asi tomar una desición si se envia a un funcionario para su accionar o si se archiva. Pienso que con agentes podria abordarlo, y entiendo qeu un agente seria la relación entre llm, rag, y herramietnas, por eso estoy aca estudiando rag, pero aveces no se que ruta ordenada seguir para poder llegar a la solución que quiero. Si alguien desde su experiencia quiere aconsejarme, es bien recibido los buenos comentarios.

edgardo ponce

student•

Estuve probando ChromaDB cargando un archivo .json de productos para hacer una prueba con búsquedas vectoriales, pero los resultados no me cerraban del todo. Ahora, con esta explicación, me queda mucho más claro.

Fragmentación de documentos en bases de datos vectoriales

Introduccion a RAG

Arquitectura y construcción de sistemas RAG desde cero

Qué es RAG y cómo potencia los modelos de lenguaje actuales

Flujo de comunicación entre aplicaciones y sistemas RAG