Subida automática de documentos fragmentados a Azure AI Search

Clase 18 de 22 • Curso de RAG con Microsoft Azure

Contenido del curso

Introduccion a RAG

Etapas de RAG

Tecnicas de RAG

RAG avanzado

Fusionando RAG con un agente

Tomar examen

Resumen

¿Qué es y para qué sirve el bloque de código en Python?

El bloque de código desarrollado ayuda a importar datos, fragmentarlos en trozos o chunks y posteriormente subir esta información directamente a índices específicos en Azure AI Search. Al fragmentar los documentos estructurados en partes pequeñas y manejables, mejora la eficiencia del almacenamiento y facilita búsquedas posteriores.

¿Cómo se preparan y fragmentan los documentos en chunks?

Los documentos estructurados inicialmente deben convertirse a segmentos más pequeños conocidos como chunks. Este proceso ocurre en el paso identificado como "preparar los documentos", que facilita la fragmentación automática de la información. Una vez fragmentada, la información queda lista para integrarse directamente en los índices predeterminados.

¿En qué consiste el proceso de subida automática a Azure AI Search?

El método desarrollado para la subida automática utiliza un ciclo for que garantiza la organización y gestión variada de la información, aun cuando esta es igual para cada índice. La subida se ejecuta directamente hacia Azure AI Search, contando con mecanismos de excepción que manejan posibles errores o inconsistencias en los documentos durante el proceso.

¿Cuánto tiempo toma el proceso completo del indexado?

La subida total de diez mil documentos requiere aproximadamente 47 minutos, por lo que es vital considerar que este proceso puede demorar considerablemente. La respetable duración de este procedimiento exige paciencia y supervisión periódica para confirmar que la información se esté guardando correctamente sin interrumpirse.

Si tienes dudas o comentarios sobre este proceso, no dudes en compartirlos para aclarar conceptos o recibir ayuda adicional.

Sofía Sánchez Ramírez

student•

El tamaño del "chunk" es exactamente el que tú defines al llamar a la función. No tiene un valor predeterminado ni un valor mínimo o máximo.

La función chunk_list(lst: List[Any], chunk_size: int) toma un parámetro llamado chunk_size que es un número entero. Por ejemplo:

Si llamas chunk_list(my_list, 100), cada fragmento tendrá 100 elementos.
Si llamas chunk_list(my_list, 500), cada fragmento tendrá 500 elementos.

Este tamaño es arbitrario porque tú lo decides, pero la función lo aplica de manera fija y sin inteligencia sobre el contenido. No importa si 100 elementos terminan en medio de una frase o en una tabla, la función simplemente divide en ese punto. ¿Por qué LlamaParse es mejor?

LlamaParse está diseñado desde cero para un único propósito: extraer datos de documentos complejos y convertirlos en un formato óptimo para LLMs. Sus ventajas clave son:

Comprensión de la estructura: LlamaParse utiliza modelos de IA nativos para entender el diseño del documento. Esto significa que puede identificar y extraer con precisión:
- Tablas: No solo extrae el texto, sino que lo conserva en un formato estructurado como Markdown o JSON, manteniendo la relación entre filas y columnas.
- Imágenes y gráficos: Puede extraer imágenes y, en algunos casos, su contenido o descripción.
- Estructura del documento: Mantiene la jerarquía de títulos, subtítulos y párrafos, lo que permite un "chunking" mucho más inteligente y contextual.
- Fórmulas matemáticas: Puede convertir ecuaciones a formato LaTeX, que es crucial para documentos científicos.
Fragmentación (Chunking) inteligente: Debido a su comprensión de la estructura, LlamaParse fragmenta el documento en unidades lógicas. No se basa en un simple conteo de caracteres o palabras, sino en la coherencia semántica del texto. Esto asegura que cada "chunk" sea relevante y autónomo.
Salida optimizada: El resultado de LlamaParse es un formato limpio (como Markdown) que los modelos de lenguaje (LLMs) pueden entender y procesar de manera mucho más eficiente, lo que mejora la calidad de las respuestas en una aplicación RAG.

¿Qué hace el "chunking" de Azure AI Search?

El "chunking" dentro de Azure AI Search, como el Text Split skill, es una funcionalidad más básica y general. Su objetivo principal es dividir el texto en fragmentos según reglas simples, como:

Por tamaño fijo: Fragmenta el texto en partes de un número determinado de caracteres.
Por delimitadores: Fragmenta el texto por puntos, saltos de línea o cualquier otro delimitador.

Aunque es útil, este método es menos sofisticado que LlamaParse. No entiende la estructura de una tabla, no sabe si está dividiendo un párrafo por la mitad o si está separando un título de su contenido. fuente Gemini

Subida automática de documentos fragmentados a Azure AI Search

Introduccion a RAG

Arquitectura y construcción de sistemas RAG desde cero

Qué es RAG y cómo potencia los modelos de lenguaje actuales

Flujo de comunicación entre aplicaciones y sistemas RAG

Fragmentación de documentos en bases de datos vectoriales

Etapas de RAG

Embeddings y bases de datos vectoriales para documentos digitales

Configuración de Azure para RAG: preparativos y gestión de costos

Qué son las bases de datos vectoriales y sus aplicaciones

Despliegue de recursos de IA en Azure con scripts de Bash

Despliegue de modelos GPT-4 y embeddings en Azure OpenAI

Configuración de Jupyter Notebook y ambientes virtuales en Python

Tecnicas de RAG

Vectorización de documentos con Azure Search y OpenAI

Configuración de Azure OpenAI y AI Search en Jupyter Notebook

Integración de LLM para optimizar respuestas en Jupyter Notebook

Actualización manual de índices con nuevos documentos PDF

Búsqueda tradicional, vectorial e híbrida en Azure AI Search

RAG avanzado

Creación de múltiples índices en Azure AI Search con Jupyter

Generación de información ficticia con archivos Parquet

Subida automática de documentos fragmentados a Azure AI Search

Comparación de índices en Azure para optimizar almacenamiento

Creación de aplicación demo con Azure Search Service

Fusionando RAG con un agente

Conexión de Azure AI Search con GPT-4 en Azure AI Foundry

Evolución acelerada de los sistemas de inteligencia artificial