Subida automática de documentos fragmentados a Azure AI Search
Clase 18 de 22 • Curso de RAG con Microsoft Azure
Contenido del curso
- 5

Embeddings y bases de datos vectoriales para documentos digitales
03:35 - 6

Configuración de Azure para RAG: preparativos y gestión de costos
03:51 - 7

Qué son las bases de datos vectoriales y sus aplicaciones
04:50 - 8

Despliegue de recursos de IA en Azure con scripts de Bash
05:15 - 9

Despliegue de modelos GPT-4 y embeddings en Azure OpenAI
03:01 - 10

Configuración de Jupyter Notebook y ambientes virtuales en Python
03:37 quiz de Etapas de RAG
- 11

Vectorización de documentos con Azure Search y OpenAI
06:15 - 12

Configuración de Azure OpenAI y AI Search en Jupyter Notebook
06:56 - 13

Integración de LLM para optimizar respuestas en Jupyter Notebook
03:09 - 14

Actualización manual de índices con nuevos documentos PDF
03:17 - 15

Búsqueda tradicional, vectorial e híbrida en Azure AI Search
06:05 quiz de Tecnicas de RAG
- 16

Creación de múltiples índices en Azure AI Search con Jupyter
09:40 - 17

Generación de información ficticia con archivos Parquet
03:14 - 18

Subida automática de documentos fragmentados a Azure AI Search
02:53 - 19

Comparación de índices en Azure para optimizar almacenamiento
03:59 - 20

Creación de aplicación demo con Azure Search Service
03:39 quiz de RAG avanzado
¿Qué es y para qué sirve el bloque de código en Python?
El bloque de código desarrollado ayuda a importar datos, fragmentarlos en trozos o chunks y posteriormente subir esta información directamente a índices específicos en Azure AI Search. Al fragmentar los documentos estructurados en partes pequeñas y manejables, mejora la eficiencia del almacenamiento y facilita búsquedas posteriores.
¿Cómo se preparan y fragmentan los documentos en chunks?
Los documentos estructurados inicialmente deben convertirse a segmentos más pequeños conocidos como chunks. Este proceso ocurre en el paso identificado como "preparar los documentos", que facilita la fragmentación automática de la información. Una vez fragmentada, la información queda lista para integrarse directamente en los índices predeterminados.
¿En qué consiste el proceso de subida automática a Azure AI Search?
El método desarrollado para la subida automática utiliza un ciclo for que garantiza la organización y gestión variada de la información, aun cuando esta es igual para cada índice. La subida se ejecuta directamente hacia Azure AI Search, contando con mecanismos de excepción que manejan posibles errores o inconsistencias en los documentos durante el proceso.
¿Cuánto tiempo toma el proceso completo del indexado?
La subida total de diez mil documentos requiere aproximadamente 47 minutos, por lo que es vital considerar que este proceso puede demorar considerablemente. La respetable duración de este procedimiento exige paciencia y supervisión periódica para confirmar que la información se esté guardando correctamente sin interrumpirse.
Si tienes dudas o comentarios sobre este proceso, no dudes en compartirlos para aclarar conceptos o recibir ayuda adicional.