Arquitectura RAC para Asistentes Virtuales en Azure

Clase 13 de 21 • Curso de Desarrollo de Chatbots con AzureOpenAI

Contenido del curso

Introducción a Azure Open AI

Open AI Studio

Prompt Enginereering

Uso de los datos (Chat with your Data)

Monitoreo

Mejores prácticas

Conclusiones

21
Desarrollo de Asistentes Virtuales Empresariales con IA Responsable
02:33 min

Tomar examen

Resumen

Crear asistentes virtuales que respondan con base en información real de tu organización ya no es ciencia ficción. La arquitectura RAG permite fundamentar las respuestas de modelos de inteligencia artificial generativa en tus propias fuentes de datos, ya sean estructuradas o no estructuradas. A continuación, se explican los elementos esenciales de esta arquitectura y cómo llevarla a la práctica.

¿Qué significa RAG y por qué es importante?

RAG corresponde a Retrieval Augmented Generation [01:52], un patrón arquitectónico que combina la recuperación de información con la generación de texto. Su propósito central es enriquecer el prompt que recibe un modelo de IA generativa con datos reales provenientes de fuentes propias, de modo que las respuestas estén fundamentadas en hechos y no solo en el conocimiento general con el que el modelo fue entrenado.

Los modelos de lenguaje suelen estar entrenados con información pública disponible hasta cierta fecha, en muchos casos hasta 2021 [05:45]. Esto significa que no conocen los datos internos de tu empresa ni la información más reciente. RAG resuelve esta limitación sin necesidad de reentrenar el modelo.

¿Cuáles son los tres pasos genéricos para implementar RAG?

El flujo se resume en tres acciones claras [01:00]:

Identificar una fuente de verdad: seleccionar los datos que aportan valor real al modelo.
Entregar esa información de forma comprensible: transformar los datos para que el modelo pueda procesarlos.
Formular preguntas y validar respuestas: comprobar que el modelo responde con base en los datos proporcionados.

¿Cómo funciona el diagrama de flujo de RAG?

Cuando un usuario formula una consulta al asistente virtual, ocurre lo siguiente [02:06]:

La consulta se envía a un índice de búsqueda que representa los datos de la organización.
Los resultados relevantes se agregan al prompt original, creando un prompt enriquecido.
Este prompt enriquecido se envía al modelo de IA generativa, que calcula la respuesta.
El resultado se devuelve al usuario a través de la interfaz gráfica.

¿Qué elementos componen la arquitectura básica de RAG?

La implementación considera cuatro componentes principales [03:05]:

Interfaz gráfica: la aplicación donde el usuario envía sus preguntas.
Orquestador: recibe la petición del usuario y coordina todo el flujo.
Recuperador de la base de conocimiento: busca información relevante en las fuentes de datos indexadas.
Modelo de IA generativa: procesa el prompt enriquecido y genera la respuesta final.

El orquestador es la pieza clave porque se encarga de consultar la base de conocimiento, enriquecer el prompt y comunicarse con el modelo antes de devolver los resultados al usuario.

¿Cómo se implementa RAG en Microsoft Azure?

En Azure, la arquitectura utiliza servicios específicos [03:48]:

Azure AI Search (también mencionado como Azure Community Search) permite indexar documentos de fuentes estructuradas como bases de datos y no estructuradas como archivos PDF, Word o imágenes.
Azure OpenAI Service aloja los modelos de IA generativa, como ChatGPT, que reciben el prompt enriquecido y generan las respuestas.
Los conectores nativos de Azure AI Search facilitan la creación de índices hacia las fuentes de datos de manera sencilla [04:32].

¿Cómo funciona un asistente virtual empresarial con RAG?

Un caso práctico ilustra el funcionamiento completo [06:30]. Imagina un asistente diseñado para resolver preguntas sobre beneficios de tarjetas de crédito. El flujo sería:

Se define un prompt inicial con la descripción del comportamiento esperado: "Eres un asistente inteligente que ayuda a resolver preguntas sobre los beneficios de tus tarjetas de crédito".
Se configuran las fuentes de datos, como el contrato de la tarjeta, los beneficios publicados por el banco emisor y los beneficios de la franquicia.
El usuario pregunta: "¿Mi tarjeta tiene accesos gratuitos a salas VIP?" [07:24].
El modelo busca en los documentos indexados, enriquece el prompt y responde con información específica encontrada en esas fuentes.

Si la información existe en los documentos, el asistente confirma el beneficio. Si no la encuentra, informa al usuario que no dispone de esa cobertura. Este comportamiento depende de la configuración del asistente y garantiza respuestas honestas basadas en datos reales.

El proceso de fine tuning [06:05] es una alternativa para personalizar modelos, pero en muchos escenarios no es suficiente para que el modelo responda correctamente sobre datos internos cambiantes. RAG complementa esta limitación al proporcionar información actualizada en tiempo de consulta sin modificar el modelo base.

¿Ya has pensado en qué fuentes de datos de tu organización podrías integrar con esta arquitectura? Comparte tu caso de uso en los comentarios.

Comentarios

Michel Santiago Andreu Olarte Moyano

student•

Básicamente es entrenar una base de conocimiento al chatbot, luego se tunea con el promt para darle estilo a la respuesta. Claro, siempre las respuestas que el chatbot de estarán basadas en la información que se le cargó.

Mateo Montoya Henao

student•

¿Cómo Funciona la Arquitectura RAG?

La arquitectura RAG (Retrieval-Augmented Generation) es un marco que mejora la capacidad de los modelos de lenguaje grande (LLMs) para proporcionar respuestas precisas y actualizadas. Funciona mediante la combinación de dos fases principales: la recuperación de información relevante de fuentes externas y la generación de contenido basado en esa información.

Proceso de la Arquitectura RAG

Ingesta de Datos:
- Los datos empresariales, como documentos, tablas o medios, se procesan y se dividen en fragmentos más pequeños y manejables. Estos fragmentos se transforman en vectores utilizando un modelo de embeddings y se almacenan en una base de datos vectorial para una rápida recuperación.
Consulta y Recuperación:
- Cuando se recibe una consulta del usuario, el sistema convierte la consulta en un vector utilizando el mismo modelo de embeddings. Luego, se realiza una búsqueda semántica en la base de datos vectorial para recuperar los fragmentos de datos más relevantes que coinciden con la intención de la consulta.
Generación de Respuestas:
- Los fragmentos recuperados, junto con datos adicionales de otras fuentes (como bases de datos SQL, APIs u otros sistemas), se combinan con la consulta para crear un prompt aumentado. Este prompt se envía al LLM, que utiliza este contexto enriquecido para generar una respuesta.
Validación y Refinamiento:
- En algunas variantes de RAG, como la arquitectura Correctiva (Corrective RAG), se introduce un paso adicional de validación después de generar la respuesta inicial. El sistema verifica la coherencia factual de la respuesta con el contexto recuperado y, si es necesario, regenera o corrige la respuesta.

Ventajas de la Arquitectura RAG

Mejora la Precisión: Al utilizar información actualizada de fuentes externas, RAG puede proporcionar respuestas más precisas y pertinentes.
Reduce las Alucinaciones: Ayuda a reducir las respuestas incorrectas o sin sentido que pueden generar los modelos de lenguaje, proporcionando un contexto real y verificable.
Reduce Costos: Al evitar la necesidad de reentrenar continuamente el modelo con nuevos datos, RAG reduce los costos asociados con el mantenimiento de LLMs.
Mejora el Contexto: Permite a los modelos comprender mejor el contexto de las preguntas, lo que resulta en respuestas más coherentes y contextualizadas.

Variantes de la Arquitectura RAG

RAG Simple:
- La versión más básica que combina recuperación y generación sin validación adicional. Es adecuada para aplicaciones donde la velocidad y simplicidad son más importantes que la precisión.
RAG Correctivo:
- Introduce un paso de validación después de la generación inicial para asegurar la coherencia factual. Es ideal para escenarios que requieren alta precisión, como análisis de documentos legales o diagnósticos médicos.
RAG Especulativo:
- Genera respuestas de manera especulativa mientras se completa la recuperación de datos, lo que permite respuestas rápidas pero puede resultar en ocasional inexactitud.
RAG Auto-Reflexivo:
- Evalúa y critica la respuesta generada para asegurar su calidad. Si la respuesta no es satisfactoria, el sistema puede reformular la consulta y reiniciar el proceso.

Conclusión

La arquitectura RAG mejora significativamente la capacidad de los modelos de lenguaje para proporcionar respuestas precisas y contextualizadas, lo que la hace ideal para una amplia gama de aplicaciones, desde asistentes virtuales hasta sistemas de recomendación. La integración de RAG en la generación de lenguaje ofrece ventajas clave como mayor precisión, reducción de alucinaciones y costos, y una mejor comprensión del contexto.

Diego Bustos Kehdy

student•

Les recomindo usar pgvector que es una extensión de PostgreSQL. Es fácil de implementar y agregarlo a una aplicación ya funcional 🚀

Joaquín Alejandro Domínguez Lozano

student•

La clase se centró en la arquitectura Retrieval Augmented Generation (RAG), que permite a los asistentes virtuales interactuar con datos estructurados y no estructurados. Se describieron tres pasos básicos para implementar esta arquitectura: seleccionar una fuente de datos valiosa, procesar la información para que el modelo de IA la entienda y probar el sistema con consultas. Se explicó el flujo de trabajo que involucra la búsqueda en un índice de datos, el enriquecimiento del prompt y la entrega de respuestas generadas por el modelo de Azure OpenAI, destacando su aplicación en asistentes virtuales y bots empresariales.

Luis Alvarez

student•

Título: La Arquitectura RAG: Un Avance en la Inteligencia Artificial Generativa

Introducción: La arquitectura RAG (Retrieval Augmented Generation) es un avance significativo en la inteligencia artificial generativa que nos permite chatear con nuestros propios datos. En este texto, argumentaremos cómo la arquitectura RAG cambia la forma en que utilizamos los modelos de inteligencia artificial.

Definición de la Arquitectura RAG: La arquitectura RAG es un mecanismo que fundamenta las sugerencias que nos dan los modelos de inteligencia artificial generativa basadas en información real que le hemos dado a partir de nuestras diferentes fuentes de datos. Estas fuentes pueden ser estructuradas o no estructuradas. La arquitectura RAG nos permite crear asistentes virtuales o aplicaciones basadas en inteligencia artificial generativa que pueden chatear con esos datos y permitirnos tomar decisiones o realizar análisis sobre esos datos.

Implementación de la Arquitectura RAG: La implementación de la arquitectura RAG se realiza en tres pasos. El primer paso es buscar una fuente de verdad, una fuente de datos que consideremos que le puede agregar información valiosa al modelo. El segundo paso es darle esa información de una manera que el modelo de inteligencia artificial generativa lo pueda entender. El tercer paso es probar cómo a partir de esos datos que le hemos brindado al modelo, nosotros podamos formularle preguntas y el modelo nos pueda dar respuestas basados en nuestros propios datos.

Arquitectura RAG en Microsoft Azure: En el caso de una implementación de la arquitectura RAG en Microsoft Azure, se consideran varios elementos. Primero, tenemos una interfaz gráfica que permite al usuario enviar sus preguntas o peticiones. Luego, tenemos un elemento orquestador que se encarga de recibir la petición del usuario y enviarla a Azure Cognitive Search. Este servicio nos permite indexar los documentos de nuestras fuentes de datos. Luego, el orquestador enriquece la petición del usuario con la información obtenida de Azure Cognitive Search y se la envía al modelo de inteligencia artificial generativa en Azure Cognitive Services. Finalmente, el modelo procesa la petición en riquecida y devuelve los resultados al orquestador, quien los muestra al usuario final a través de la interfaz gráfica.

Implementación de RAG en un Bot Empresarial: En el contexto de un bot empresarial, la implementación de RAG incluiría elementos adicionales. Además del servicio Azure Cognitive Services y los modelos de inteligencia artificial generativa, necesitamos agregar fuentes de datos que proporcionen contexto e información para que los modelos puedan responder preguntas de manera efectiva. Estas fuentes de datos pueden ser estructuradas, como bases de datos, o no estructuradas, como documentos en PDF o Word.

RAG en la Vida Real: En la vida real, un asistente virtual que utiliza RAG puede interactuar con datos propios para responder preguntas de los usuarios. Por ejemplo, un usuario puede preguntar si su tarjeta de crédito incluye acceso a salas VIP en aeropuertos. El modelo de inteligencia artificial generativa toma esta pregunta, enriquece la consulta con información de las fuentes de datos y proporciona una respuesta basada en esta información.

Conclusión: La arquitectura RAG es una herramienta poderosa para la creación de asistentes virtuales y aplicaciones basadas en inteligencia artificial generativa. Al proporcionar a los modelos acceso a fuentes de datos propias, podemos enriquecer las respuestas de estos modelos y proporcionar información más precisa y relevante a los usuarios.

Arquitectura RAC para Asistentes Virtuales en Azure

Introducción a Azure Open AI

Desarrollo de Chatbots Empresariales con Azure OpenAI

Solicitud de Acceso a OpenAI Service en Microsoft Azure

Desarrollo de Asistentes Virtuales con Azure OpenAI

Despliegue de Azure OpenAI Service en Azure Portal

Open AI Studio

Gestión de modelos en Azure OpenAI Studio y uso de speech to text

Uso de Azure OpenAI Service con API REST y SDK Python/C#

Configuración de Asistentes Virtuales con GPT para Gestión de PQRs

Gestión de Azure OpenAI Studio y Modelos Generativos

Inteligencia Artificial Generativa Responsable: Principios y Prácticas

Prompt Enginereering

Capacidades del modelo GPT-4 Vision: uso en OpenAI Studio y API REST

Ajuste de modelos GPT 3.5 Turbo con OpenAI Studio en Azure

Búsqueda Vectorial con Embeddings en Azure OpenAI Service

Uso de los datos (Chat with your Data)