RAG con GPT-4 sin escribir código

Curso de RAG con Microsoft Azure

Contenido del curso

Introduccion a RAG

Etapas de RAG

Tecnicas de RAG

RAG avanzado

Fusionando RAG con un agente

Tomar examen

RAG con GPT-4 sin escribir código

Resumen

Conectar un motor de búsqueda con un modelo de lenguaje suele sonar complejo, pero con Azure AI Foundry puedes integrar tu sistema RAG con un LLM en cuestión de clics. Aquí verás cómo enlazar tu índice de Azure AI Search con un modelo gpt-4 desplegado, sin escribir código, y obtener respuestas respaldadas con citas reales de tus documentos.

Cómo conectar Azure AI Search con un modelo gpt-4 desplegado

Desde el grupo de recursos en Azure, abres Azure OpenAI y entras al portal de Azure AI Foundry. Ahí, la categoría Chat aparece como primera opción y te lleva directo al Chat Playground, donde ya está cargado el modelo gpt-4 desplegado dentro de Platzi2 [0:30].

Antes de mandar prompts o cargar contexto, tienes la opción de añadir tu propia información seleccionando una fuente de datos. Esa fuente puede ser Azure AI Search, aunque también funciona con endpoints de LangChain, Prompt Flow o Elasticsearch [1:05].

¿Qué es un sistema RAG? Es una arquitectura donde un LLM consulta una base de conocimiento externa, como un índice de búsqueda, antes de responder. Así genera respuestas basadas en tus documentos y no solo en su entrenamiento.

Por qué necesitas tener habilitada la búsqueda vectorial

Al seleccionar tu suscripción y el componente search-platzi-2, eliges el índice de Azure AI dentro de los que generaste en clases pasadas. El detalle crítico aquí es que el índice debe tener vector search habilitado para mejorar la calidad de los resultados [1:40].

Después, Foundry te pregunta cómo quieres manejar la recuperación de información. Las opciones replican lo que hiciste en Jupyter con métodos híbridos:

Vector: recupera por similitud semántica usando embeddings.
Keyword: búsqueda tradicional por coincidencia de términos.
Vector + Keyword: combinación híbrida, ideal cuando no quieres pagar por semantic search.
Semantic: más preciso, pero costoso y requiere habilitarlo en el servicio.

La elección recomendada es vector y keyword, porque la búsqueda semántica encarece la operación y muchas veces no está activada en el servicio de búsqueda [2:10].

Cómo autenticar y validar la conexión sin crear identidades

El siguiente paso pide definir el método de acceso. Si no creaste identidades administradas, seleccionas que todo se haga vía API. Foundry valida la conexión y, una vez aprobada, guardas y cierras los cambios [2:40].

A partir de ese momento aparece un bloque que indica que tu agente ya está usando ese índice como fuente de conocimiento. Puedes escribir directamente en el playground una consulta como what is Contoso y el modelo responde con información generada a partir de tus documentos.

¿Cómo sé que la respuesta viene de mis documentos y no del modelo base? Foundry muestra referencias numeradas (citation1, citation2) junto a cada respuesta, indicando el archivo fuente exacto del que se extrajo la información.

Qué tan específicas pueden ser las respuestas con tu RAG

Probando con una pregunta más concreta del plan de seguros Northwind, copiada desde un archivo en VS Code, la respuesta del agente se vuelve mucho más precisa. Las citas apuntan a archivos específicos:

citation1: benefits-options.pdf.
citation2: northwind-plus-benefit-details.pdf.

Estos dos PDFs viven dentro del sistema RAG y respaldan cada afirmación generada por el LLM [3:30]. Esa trazabilidad es lo que diferencia un chatbot genérico de un agente empresarial confiable.

Cómo exportar el agente a tu propia aplicación

Para llevar este agente fuera de Foundry, basta con hacer clic en View Code. Ahí eliges el lenguaje de programación que prefieras y obtienes el snippet listo para integrar.

Las opciones de autenticación que aparecen son:

Key-based authentication: la más rápida si no configuraste identidades.
Microsoft Entra ID: para entornos con identidades administradas.

Seleccionas la autenticación por llave, copias el código y lo pegas en tu aplicación. Con eso, tu agente replica exactamente el comportamiento que viste en el playground [4:15].

Qué ganas con esta integración sin código

El flujo completo te deja con un agente conversacional respaldado por tu propio conocimiento, listo para desplegar donde quieras. Pocos clics, cero líneas escritas desde cero, y un sistema que cita sus fuentes.

Esto es especialmente útil cuando trabajas con documentación interna, manuales técnicos o bases de conocimiento que el LLM base no conoce. La combinación de vector search, búsqueda híbrida y un modelo gpt-4 te da control sobre la calidad y la trazabilidad de cada respuesta.

¿Ya probaste conectar tu propio índice de Azure AI Search con un modelo en Foundry? Cuéntame en los comentarios qué tipo de documentos cargaste y qué método de recuperación te dio mejores resultados.

RAG con GPT-4 sin escribir código

Introduccion a RAG

Qué es RAG y por qué la IA lo necesita

Historia y futuro de RAG en los LLM

Arquitetura RAG: agente antes do LLM

Fragmentación de documentos en bases de datos vectoriales

Etapas de RAG

Embeddings y vectorización en RAG

RAG en Azure en lugar de local

Qué son las bases de datos vectoriales

Desplegando infraestructura RAG en Azure

Despliegue de modelos GPT-4 y embeddings en Azure OpenAI

Configuración de Jupyter Notebook y ambientes virtuales en Python

Tecnicas de RAG

Vectorización de documentos con Azure Search y OpenAI

Configuración de Azure OpenAI y AI Search en Jupyter Notebook

Integración de LLM para optimizar respuestas en Jupyter Notebook

Reindexar nuevos PDFs en Azure AI Search

Búsqueda tradicional, vectorial e híbrida en Azure AI Search

RAG avanzado

Creación de múltiples índices en Azure AI Search con Jupyter

Cómo guardar embeddings en Parquet para la nube

Subida automática de documentos fragmentados a Azure AI Search

Cómo comparar índices vectoriales en Azure AI Search

Demo app de Azure AI Search en minutos

Fusionando RAG con un agente

RAG con GPT-4 sin escribir código

Evolución acelerada de los sistemas de inteligencia artificial

Resumen