Arquitectura RAC para Asistentes Virtuales en Azure

Clase 13 de 21Curso de Desarrollo de Chatbots con AzureOpenAI

Contenido del curso

Resumen

Crear asistentes virtuales que respondan con base en información real de tu organización ya no es ciencia ficción. La arquitectura RAG permite fundamentar las respuestas de modelos de inteligencia artificial generativa en tus propias fuentes de datos, ya sean estructuradas o no estructuradas. A continuación, se explican los elementos esenciales de esta arquitectura y cómo llevarla a la práctica.

¿Qué significa RAG y por qué es importante?

RAG corresponde a Retrieval Augmented Generation [01:52], un patrón arquitectónico que combina la recuperación de información con la generación de texto. Su propósito central es enriquecer el prompt que recibe un modelo de IA generativa con datos reales provenientes de fuentes propias, de modo que las respuestas estén fundamentadas en hechos y no solo en el conocimiento general con el que el modelo fue entrenado.

Los modelos de lenguaje suelen estar entrenados con información pública disponible hasta cierta fecha, en muchos casos hasta 2021 [05:45]. Esto significa que no conocen los datos internos de tu empresa ni la información más reciente. RAG resuelve esta limitación sin necesidad de reentrenar el modelo.

¿Cuáles son los tres pasos genéricos para implementar RAG?

El flujo se resume en tres acciones claras [01:00]:

  • Identificar una fuente de verdad: seleccionar los datos que aportan valor real al modelo.
  • Entregar esa información de forma comprensible: transformar los datos para que el modelo pueda procesarlos.
  • Formular preguntas y validar respuestas: comprobar que el modelo responde con base en los datos proporcionados.

¿Cómo funciona el diagrama de flujo de RAG?

Cuando un usuario formula una consulta al asistente virtual, ocurre lo siguiente [02:06]:

  • La consulta se envía a un índice de búsqueda que representa los datos de la organización.
  • Los resultados relevantes se agregan al prompt original, creando un prompt enriquecido.
  • Este prompt enriquecido se envía al modelo de IA generativa, que calcula la respuesta.
  • El resultado se devuelve al usuario a través de la interfaz gráfica.

¿Qué elementos componen la arquitectura básica de RAG?

La implementación considera cuatro componentes principales [03:05]:

  • Interfaz gráfica: la aplicación donde el usuario envía sus preguntas.
  • Orquestador: recibe la petición del usuario y coordina todo el flujo.
  • Recuperador de la base de conocimiento: busca información relevante en las fuentes de datos indexadas.
  • Modelo de IA generativa: procesa el prompt enriquecido y genera la respuesta final.

El orquestador es la pieza clave porque se encarga de consultar la base de conocimiento, enriquecer el prompt y comunicarse con el modelo antes de devolver los resultados al usuario.

¿Cómo se implementa RAG en Microsoft Azure?

En Azure, la arquitectura utiliza servicios específicos [03:48]:

  • Azure AI Search (también mencionado como Azure Community Search) permite indexar documentos de fuentes estructuradas como bases de datos y no estructuradas como archivos PDF, Word o imágenes.
  • Azure OpenAI Service aloja los modelos de IA generativa, como ChatGPT, que reciben el prompt enriquecido y generan las respuestas.
  • Los conectores nativos de Azure AI Search facilitan la creación de índices hacia las fuentes de datos de manera sencilla [04:32].

¿Cómo funciona un asistente virtual empresarial con RAG?

Un caso práctico ilustra el funcionamiento completo [06:30]. Imagina un asistente diseñado para resolver preguntas sobre beneficios de tarjetas de crédito. El flujo sería:

  • Se define un prompt inicial con la descripción del comportamiento esperado: "Eres un asistente inteligente que ayuda a resolver preguntas sobre los beneficios de tus tarjetas de crédito".
  • Se configuran las fuentes de datos, como el contrato de la tarjeta, los beneficios publicados por el banco emisor y los beneficios de la franquicia.
  • El usuario pregunta: "¿Mi tarjeta tiene accesos gratuitos a salas VIP?" [07:24].
  • El modelo busca en los documentos indexados, enriquece el prompt y responde con información específica encontrada en esas fuentes.

Si la información existe en los documentos, el asistente confirma el beneficio. Si no la encuentra, informa al usuario que no dispone de esa cobertura. Este comportamiento depende de la configuración del asistente y garantiza respuestas honestas basadas en datos reales.

El proceso de fine tuning [06:05] es una alternativa para personalizar modelos, pero en muchos escenarios no es suficiente para que el modelo responda correctamente sobre datos internos cambiantes. RAG complementa esta limitación al proporcionar información actualizada en tiempo de consulta sin modificar el modelo base.

¿Ya has pensado en qué fuentes de datos de tu organización podrías integrar con esta arquitectura? Comparte tu caso de uso en los comentarios.