Qué es MCP y RAG (26 de enero)

Clase 15 de 19 • Cómo funciona el reto AI-Native: Live Classes, Cursos y Proyecto

Resumen

La manera más efectiva de hacer que un LLM responda con información actual y específica es conectar sus respuestas a tus propios documentos. Con RAG (retrieve, augment, generate) se logra justo eso: traer contexto relevante, enriquecerlo y generar salidas claras. Aquí verás el flujo completo con Ollama, ChromaDB y un PDF real, más decisiones técnicas clave y matices de producción.

¿Qué es RAG y por qué importa hoy?

RAG resuelve el límite de actualización de los modelos y prioriza el contexto sobre el prompt. En lugar de que el LLM responda solo con su conocimiento preentrenado, consulta primero una base vectorial con tus datos y luego genera la respuesta.

RAG = retrieve, augment, generate.
El contexto manda sobre el prompt. Se propone pensar en “context engineers”, no solo en “prompt engineers”.
Valor empresarial: permite priorizar fuentes internas sobre la web.
Relevancia actual: se afirmó que RAG es incluso más importante que el propio LLM para entregar respuestas útiles y confiables.

¿Cómo implementar RAG en local con Ollama y ChromaDB?

Se mostró un pipeline local, sin depender de la nube, usando un PDF como fuente. La idea es simple: extraer, fragmentar, vectorizar, indexar y consultar con un LLM.

¿Qué son los chunks y cómo afectan la búsqueda?

Se extrajo el texto del PDF y se dividió en chunks. De 61 páginas se obtuvieron 48 chunks.
Los chunks son “rebanadas” del documento que facilitan la búsqueda semántica.
Existen múltiples técnicas de chunking: pocas piezas grandes o miles de piezas pequeñas. Depende del algoritmo, hardware y objetivo.
El solapamiento de caracteres puede variar por calidad de fuente/escaneo; no se detalló una configuración específica.

¿Qué son los embeddings y para qué sirven?

Con Nomic Embed Text en Ollama se generaron los embeddings a partir de los chunks.
Los embeddings permiten “ubicar” cada fragmento en un espacio vectorial para luego recuperarlo por similitud.
El mismo modelo de embeddings se usó para la consulta semántica.

¿Cómo se indexa y consulta con ChromaDB?

Se usó ChromaDB como base de datos vectorial local. Por defecto guarda en RAM; se configuró persistencia en disco para no perder el índice.
Flujo técnico resumido:
- Extraer texto del PDF.
- Fragmentar en chunks.
- Generar embeddings con Nomic Embed Text en Ollama.
- Indexar en ChromaDB con persistencia.
- Consultar por similitud (retrieve) y pasar el contexto al LLM.
- Generar respuesta con LLaMA 3.2 en Ollama.
Observación práctica: la recuperación directa devuelve texto tal cual, p. ej., en inglés si así está el PDF. Al pasar por el LLM, la salida se vuelve más legible y en español.

¿Qué herramientas y decisiones técnicas conviene considerar?

La elección de stack depende del caso de uso, presupuesto y políticas de datos. A continuación, puntos clave surgidos en preguntas técnicas.

¿Qué base vectorial elegir y dónde alojarla?

ChromaDB: muy amigable para aprender, rápida de poner en marcha.
pgvector (PostgreSQL): opción sólida para producción si se cuenta con buen hardware.
Neo4j: valorado por su potencia y flexibilidad.
Faiss: ligero, acelera con GPU, viable para producción; alta compatibilidad con modelos de Meta.
Pinecone u opciones managed vs self-hosted: decisión guiada por presupuesto, sensibilidad de datos y compliance.
Enfatizado el concepto de trade-off: no hay “mejor” universal, sino elecciones según el contexto.

¿Cuándo nube (Gemini) y cuándo local?

Con Gemini se logró el mismo RAG subiendo el PDF y haciendo la pregunta, en segundos. La nube hace chunking, embeddings, indexado y consulta de forma automática.
Ventajas nube: velocidad e infraestructura masiva.
Ventajas local: control de datos y costo por consulta nulo.
La decisión es más de negocio que técnica: políticas de datos, presupuesto y tiempos de respuesta.

¿Cómo asegurar que responde desde tus datos y no del preentrenamiento?

Comparar respuestas con y sin contexto de RAG para ver diferencias claras.
Probar offline para evitar acceso a la web.
Restringir el comportamiento en el prompt: “responde solo con el contexto proporcionado”.

¿Qué tan amplio puede ser RAG?

Además de texto, existen variantes como Graph RAG y estrategias para imágenes, video, Excel, PowerPoint. Cada tipo requiere ajustes en extracción e indexado.
Caso de uso destacado: un repositorio de recetas históricas convertido a PDFs y consultado vía RAG para sugerir preparaciones según ingredientes comprados.

¿Qué buenas prácticas se mencionaron?

Separar scripts: uno para indexar y otro para consultar.
Persistir el índice de ChromaDB para no recalcular chunks/embeddings en cada ejecución.
Usar modelos específicos para cada tarea: Nomic Embed Text para embeddings y LLaMA 3.2 para generación.
Priorizar el contexto sobre el prompt. La calidad del contexto define la calidad de la respuesta.

¿Te gustaría probar un flujo similar o tienes dudas sobre tu stack actual de RAG? Escribe en los comentarios qué dataset usarías y qué herramientas estás considerando.

Comentarios

Tiago Lopes

student•

Platzi, por favor incluyan todo el video como en esta clase. Nos gusta ver la apertura de la clase con Majo y la introducción.

Leonardo Buezo

student•

¿Qué son los Chunks? (Fragmentación)

Un chunk es un fragmento manejable de un texto más grande. Debido a que los modelos de IA tienen un límite de memoria (ventana de contexto), no pueden procesar documentos de cientos de páginas de una sola vez de forma eficiente.

¿Para qué sirven? Permiten dividir un libro o PDF en partes pequeñas (párrafos o frases) para que la IA pueda analizarlos por separado sin perder el hilo conductor.

¿Qué son los Embeddings? (Representación Matemática)

Un embedding es la conversión de un texto (palabra, frase o chunk) en una lista de números (vectores). Esta representación numérica captura el significado semántico del texto.

¿Para qué sirven? Permiten que la computadora "entienda" conceptos. En lugar de buscar palabras exactas, la IA busca números cercanos en un espacio multidimensional. Por ejemplo, en forma de números, "perro" estará más cerca de "cachorro" que de "teléfono".

¿Cómo trabajan juntos?

Este proceso es la base de sistemas como el RAG (Generación Aumentada por Recuperación):

Chunking: Eliges un documento y lo cortas en pedazos pequeños (chunks).
Embedding: Pasas cada chunk por un modelo que lo convierte en un vector numérico.
Almacenamiento: Guardas esos números en una "Base de Datos de Vectores".
Búsqueda: Cuando haces una pregunta, la IA la convierte en un embedding, busca los chunks cuyos números se parezcan más a tu pregunta y usa esa información para responderte con precisión.

Tiago Lopes

student•

El eBook esta disponible para descarga gratuita y legal desde la biblioteca digital del "International Development Research Centre (IDRC)" [https://idl-bnc-idrc.dspacedirect.org/items/0fa50116-7f19-4480-a0be-8feedfa99859]

Javier Alexander Hurtado Guaca

student•

En el canal de platzi live no se ve nada

Gonzalo Blasco

student••

/notas — Clase 24 · Qué es MCP y RAG (26 de enero)

Idea central Si querés respuestas actuales, específicas y confiables, el truco no es “cambiar de modelo”: es conectar el LLM a tus datos. Eso es RAG: Retrieve → Augment → Generate.

Qué es RAG (sin humo)

Retrieve: buscás en tus documentos lo relevante (por similitud semántica).
Augment: le pasás esos fragmentos como contexto al LLM.
Generate: el modelo responde con ese contexto (idealmente sin inventar). 👉 Resultado: menos “alucinaciones” y más respuestas alineadas a fuentes internas.

Pipeline práctico que mostraron (local)

Tomás un PDF real
Extraés texto
Lo dividís en chunks (fragmentos)
- Ejemplo mencionado: de ~61 páginas salieron ~48 chunks (depende del PDF y del chunking)
Generás embeddings para cada chunk (ej: Nomic Embed Text en Ollama)
Indexás en una base vectorial (ej: ChromaDB)
Ante una pregunta: embedding de la query → búsqueda por similitud → top chunks → respuesta del LLM (ej: LLaMA 3.2 en Ollama.

Chunks y embeddings (por qué importan)

Chunking define qué tan “encontrable” es tu info:
- chunks muy grandes → traen ruido
- chunks muy chicos → perdés contexto / sube costo
Embeddings = convertir texto a vectores para buscar por “significado”, no por palabra exacta.

ChromaDB y persistencia (detalle de producción)

Chroma es muy amigable para aprender.
Ojo: si queda solo en RAM, perdés el índice. ✅ Buena práctica: persistir en disco para no recalcular chunks+embeddings cada vez.

¿Local vs nube? (decisión de negocio)

Nube (ej. Gemini/otros): rapidez, infraestructura, “magia” automática (chunking/indexado).
Local (Ollama + vector DB): control de datos, costo por consulta casi nulo, privacidad. 👉 No hay “mejor”: depende de políticas de datos, presupuesto, latencia y escala.

Opciones de bases vectoriales (para elegir con criterio)

ChromaDB: fácil, ideal para aprender y prototipar.
pgvector (Postgres): sólido para producción si ya vivís en Postgres.
Faiss: rápido y liviano, puede acelerar con GPU.
Neo4j: cuando querés combinar grafos/relaciones con recuperación.
Managed (Pinecone, etc.): menos ops, más costo.

Cómo forzar “responde SOLO con mis datos”

Comparar respuesta con y sin contexto (se nota muchísimo).
Prompt de sistema tipo: “Si no está en el contexto, decí ‘no lo sé’.”
(Opcional) Probar offline / sin acceso a web.

Buenas prácticas que me llevo

Separar scripts: indexar vs consultar.
Guardar el índice (persistencia).
Usar modelos distintos por tarea (embeddings vs generación).
Pensar “context engineering”: la calidad del contexto define la calidad del output.

Cierre RAG no es un “extra”: es la forma práctica de hacer que el LLM sea útil en el mundo real, con tus docs, tus políticas y tus decisiones.

Mario BENAVIDES JURADO

student•

No se puede ver el video., desde la app.

Carlos Andrés Vásquez

student•

Buen día

Boris Turcios

student•

Hola Mundo!

Brenda Iliana Gallegos López

student•

Buenas tardes!

Sara López

student•

Qué buen profe! Se le entiende súper fácil.

Diego Mauricio Zuluaga Rodríguez

student•

¿Quién tiene el GitHub de esta clase para clonar el proyecto? Muchas gracias.

Elias Pascual Ramirez Castillo

student••

Intente seguir al profe y me perdi en el camino, quise usar Shell en Windows :-(

Josue Aaron Guadarrama Hernández

student•

hacer flujos de trabajo

Tiago Lopes

student•

Sí, a Office ahora le han cambiado de nuevo el nombre; ahora se llama Microsoft 365 Copilot. Para mi sera siempre "Office" :)

Qué es MCP y RAG (26 de enero)

Reto AI-Native en Platzi

Cómo funciona el reto AI-Native de Platzi

Presenta tu proyecto aquí

Cómo elegir tu proyecto y el modelo de IA correctos (12 de enero)

Framework CREA para prompts efectivos (13 de enero)

Qué herramientas de AI existen y cuál usar (14 de enero)

Crear avatares con HeyGen desde cero (15 de enero)

Cómo construir más de cien apps con Lovable (16 de enero)

Automatización de procesos con N8N sin programar (17 de enero)

Cómo generar ingresos creando imágenes con IA (18 de enero)

Flujo completo para crear videos con IA (19 de enero)

Por qué contexto supera a modelo en IA (20 de enero)

Cómo usar AI en tu trabajo | Q&A con Aníbal Rojas (21 de enero)

Principios esenciales para entender la AI desde cero (22 de enero)

Herramientas de AI para dev (23 de enero)

Qué es MCP y RAG (26 de enero)

Construyendo asistente de AI con la API de OpenAI (27 de enero)

Cuál es el mejor editor de código de AI (28 de enero)

Crea agentes con Copilot Studio (30 de enero)

Anatomía de un Deep Agent en LangGraph (29 de enero)