Vectorización de documentos con Azure Search y OpenAI

Clase 10 de 21Curso de RAG

Resumen

¿Estás interesado en aprender cómo indexar documentos para su posterior consulta utilizando la tecnología Azure Search combinada con Azure OpenAI? Este proceso, conocido también como vectorización de datos, permite subir archivos, procesarlos y configurar un ambiente accesible de manera sencilla y efectiva desde cualquier entorno en la nube. En este contenido te explicaremos detalladamente cómo utilizar estas herramientas paso a paso y algunas consideraciones importantes durante la configuración.

¿Qué pasos seguir para subir y vectorizar documentos en Azure Blob Storage?

Para comenzar a trabajar con documentos vectorizados en Azure, es fundamental seguir un orden específico en la gestión y configuración:

  • Subida de archivos al contenedor: primero, se debe crear un nuevo contenedor dentro de Azure Blob Storage. Puedes nombrar este contenedor como prefieras, por ejemplo "Rug-Documents", asegurándote de configurar el acceso como anónimo.
  • Selección y subida de documentos: desde tu ordenador, subes los archivos (como PDFs) al contenedor previamente creado.
  • Configuración del acceso: es indispensable tener habilitado el acceso anónimo a blobs en la sección de configuración para evitar problemas posteriores.

¿Cómo configurar Azure Search para la vectorización de archivos?

Una vez subidos los documentos, el siguiente paso es configurar el servicio Azure Search:

  • Importación de datos: dentro de Azure Search, selecciona la opción “importar y vectorizar datos”, iniciando así un asistente que facilita el proceso.
  • Selección de herramientas y servicios: escoge Azure Blob Storage como herramienta, después la cuenta y contenedor previamente configurados.
  • Integración con Azure OpenAI: selecciona Azure OpenAI con tu suscripción y establece el modelo MVD (modelo de embedding) que hayas desplegado.
  • Método de autenticación recomendado: aunque utilizar llaves de API es una solución viable para comenzar rápidamente, lo ideal eventualmente será establecer una identidad asignada por usuario o por sistema para mejorar la seguridad.

¿Qué aspectos adicionales deben considerarse en la vectorización e indexado?

Al momento de configurar el indexado de documentos, existen algunos puntos esenciales:

  • Extracción de imágenes: esta opción debe habilitarse solo en caso necesario (si los archivos contienen imágenes), evitándose gastos extras.
  • Habilitación del semantic ranker: es recomendable activarlo ya que será fundamental en etapas más avanzadas del aprendizaje de Azure Search.
  • Frecuencia del indexado: aunque la actualización periódica automática es atractiva, puede resultar costosa. Una indexación inicial única suele ser suficiente y recomendada en la fase inicial de aprendizaje.

¿Cómo validar la correcta indexación de información?

Para asegurarte de que todo está correctamente configurado y listo para consultas:

  • Ingresa a la sección “índices” y verifica que el estado del índice muestre “exitoso”.
  • Realiza una consulta sencilla con ejemplo de pregunta incluida, por ejemplo: "¿Qué está incluido en mi plan de salud de Northwind y que no es estándar?"
  • Si recibes información en respuesta a esta consulta, puedes confiar en que los documentos están eficazmente indexados y operativos.