Reindexar nuevos PDFs en Azure AI Search

Curso de RAG con Microsoft Azure

Contenido del curso

Introduccion a RAG

Etapas de RAG

Tecnicas de RAG

RAG avanzado

Fusionando RAG con un agente

Tomar examen

Reindexar nuevos PDFs en Azure AI Search

Resumen

En entornos productivos, los datos cambian constantemente y tu índice de búsqueda debe mantenerse al día. Aprender a reindexar nuevos documentos en Azure AI Search te permite incorporar información actualizada sin perder lo que ya tienes vectorizado, algo clave si trabajas con sistemas RAG o asistentes basados en IA.

¿Por qué necesitas actualizar tu índice con nuevos PDFs?

En un curso todo está controlado, pero en producción siempre llega alguien con un PDF nuevo y la petición de incluirlo. Si no actualizas tu índice, tu modelo responde con información incompleta o desactualizada.

Imagina que tu índice tenía documentos sobre planes de seguridad, salud y prestaciones laborales, y ahora necesitas sumar uno sobre arquitectura de software. Son temas distintos, pero el flujo de actualización funciona igual y no requiere empezar desde cero.

¿Qué es reindexar en Azure AI Search? Es volver a ejecutar el proceso de indexación para incorporar documentos nuevos al índice existente, conservando la información previa y agregando la nueva al mismo conjunto de búsqueda.

¿Cómo subir un nuevo PDF al contenedor RAG Documents?

Antes de tocar el servicio de search, el archivo debe vivir en el almacenamiento. El contenedor RAG Documents sigue siendo el mismo lugar donde ya tenías la información anterior, así que solo agregas el PDF nuevo encima.

Para este caso, el archivo se toma de la carpeta Data sample, dentro de Segunda ronda. Una vez subido, el documento queda disponible para que el indexador lo detecte en su próxima ejecución.

Abre el contenedor RAG Documents en tu cuenta de almacenamiento.
Sube el PDF nuevo sin eliminar los anteriores.
Verifica que el archivo aparezca listado antes de regresar a Search service.

Con eso queda lista la primera mitad del trabajo. Lo siguiente vive en otra sección del portal.

¿Dónde se ejecuta la reindexación dentro de Search service?

Aquí viene el detalle que confunde a muchos: no necesitas volver a importar ni vectorizar manualmente. Todo el flujo ya quedó configurado antes y solo falta dispararlo de nuevo desde el lugar correcto.

¿Indexes o Indexers?

La sección correcta es Indexers, no Indexes. Es un error común porque los nombres son casi idénticos, pero cumplen funciones distintas dentro de Azure AI Search.

Indexes contiene la estructura y los datos ya procesados que se consultan.
Indexers contiene los procesos automatizados que leen el origen y alimentan el índice.

¿Cuál es la diferencia entre Index e Indexer? El index es el contenedor de datos buscables; el indexer es el proceso que extrae documentos del origen, los procesa y los carga al index.

¿Cómo correr el indexer manualmente?

Dentro de Indexers aparecen los elementos creados previamente. Seleccionas el principal y presionas el botón Run para volver a ejecutar la indexación sobre los datos del contenedor.

Un punto clave: los datos anteriores se preservan automáticamente. La reindexación no borra lo viejo, solo suma lo nuevo al índice existente.

¿Por qué elegir el modelo manual de reindexación?

Cuando configuraste el indexer al inicio, el asistente te preguntó si querías reejecutar la operación de forma periódica. La opción manual existe por una razón muy concreta: el costo.

El modelo manual es el más barato porque evitas que Azure dispare tareas programadas que consumen recursos cuando quizá no hay documentos nuevos que procesar. Tú decides cuándo correrlo.

Manual: ejecutas el indexer solo cuando subes documentos nuevos.
Programado: Azure ejecuta el indexer cada cierto intervalo, haya o no cambios.
A demanda vía API: útil para integraciones automatizadas con otros sistemas.

Si tu volumen de actualizaciones es bajo, el modo manual te ahorra dinero sin sacrificar funcionalidad.

¿Cómo confirmar que la reindexación fue exitosa?

Después de presionar Run, dale clic a Refresh para ver el avance. El indexer reporta cuántos documentos procesó y cuántos se agregaron correctamente.

En este ejemplo, al terminar aparecieron seis documentos procesados y un documento nuevo agregado, con resultados de uno de uno y seis de seis exitosos. Esa señal confirma que el índice quedó listo para responder consultas con la información ampliada.

Si vuelves a Indexes y refrescas, en un par de minutos verás reflejado el nuevo PDF dentro del índice activo, listo para que tu aplicación lo consulte.

¿Has tenido problemas al actualizar índices en producción? Cuéntame en los comentarios cómo manejas la frecuencia de reindexación en tus proyectos.

Reindexar nuevos PDFs en Azure AI Search

Introduccion a RAG

Qué es RAG y por qué la IA lo necesita

Historia y futuro de RAG en los LLM

Arquitetura RAG: agente antes do LLM

Fragmentación de documentos en bases de datos vectoriales

Etapas de RAG

Embeddings y vectorización en RAG

RAG en Azure en lugar de local

Qué son las bases de datos vectoriales

Desplegando infraestructura RAG en Azure

Despliegue de modelos GPT-4 y embeddings en Azure OpenAI

Configuración de Jupyter Notebook y ambientes virtuales en Python

Tecnicas de RAG

Vectorización de documentos con Azure Search y OpenAI

Configuración de Azure OpenAI y AI Search en Jupyter Notebook

Integración de LLM para optimizar respuestas en Jupyter Notebook