Contenido del curso
Herramientas y Búsqueda Vectorial
Orquestación y Construcción con LangGraph
Criterios de Uso y Finalización
Tools y memory en agentes de IA
Resumen
Los agentes de IA no resuelven problemas solos: necesitan tools y memory para conectarse con el mundo y recordar lo que pasó. Si estás construyendo aplicaciones con LLMs, entender cómo un agente usa herramientas externas y memoria es la diferencia entre un chatbot básico y un sistema que realmente ejecuta soluciones.
Qué son las tools en un agente de IA
Las tools son las interfaces que un agente usa para interactuar con el mundo exterior y resolver el problema que le planteas. Piensa en ellas como las manos del agente: el modelo es el cerebro, pero sin manos no puede tocar nada.
Dentro de las herramientas más comunes encontrarás:
- APIs externas, como una API del clima.
- Buscadores conectados a Google u otros motores.
- Otros modelos especializados.
- Bases de datos vectoriales para búsqueda semántica.
Desde el código, estas tools se definen como funciones. Los modelos recientes están entrenados para identificar cuándo llamar una función y qué argumentos pasarle. Tú defines el schema de la herramienta y el modelo entiende: "ya tengo esta tool disponible, sé cuándo usarla y sé cómo interactuar con ella".
¿Quién ejecuta la tool, el modelo o el agente? El agente. El modelo solo decide qué herramienta usar y con qué argumentos. La llamada real, el fetch de la información y el procesamiento los hace tu aplicación.
Por qué LangGraph se volvió estándar para orquestar agentes
Para conectar todas estas piezas vamos a usar LangGraph, un framework que se ha vuelto prácticamente estándar en el desarrollo de aplicaciones de inteligencia artificial. Su utilidad se nota en detalles como este: cuando tienes una función que quieres exponer como herramienta, basta con agregar un decorador tool y LangGraph la registra dentro del orquestador para que el modelo pueda usarla.
Cómo usa la memory un agente para mantener contexto
La memory permite a los agentes recordar, razonar y aprender de interacciones pasadas para enriquecer la ejecución de sus soluciones. Hay dos tipos y conviene distinguirlos bien.
La short term memory mantiene la continuidad dentro de una conversación. Si ya preguntaste por el clima en San Francisco y luego dices "¿cuál era la ciudad que te pedí?", el agente responde "San Francisco" casi sin llamar a ninguna tool, porque esa interacción ya está guardada.
La long term memory entra en juego mientras más atrás vas en el tiempo. Te da más contexto sobre quién interactúa con el agente y cuáles son sus preguntas más frecuentes. El trade off es real: mientras más larga sea la memoria de largo plazo, más compleja y costosa se vuelve la búsqueda de soluciones.
¿Qué diferencia hay entre short term y long term memory? La de corto plazo guarda la conversación actual para mantener continuidad inmediata. La de largo plazo acumula historial entre sesiones para dar contexto sobre el usuario y sus patrones.
Cómo funciona un agente paso a paso con un ejemplo real
Imagina un agente que responde sobre el clima. Le preguntas: what is the weather in San Francisco today. Esto es lo que pasa por dentro.
- La consulta llega al agente y este la envía al modelo de IA.
- El modelo revisa las tools disponibles: una weather API, una search API conectada a Google, datos en base de datos.
- El modelo razona: "necesitas información actual, no voy a buscar en memoria lo de hace tres días ni a googlear, ya tengo una weather API tool".
- El modelo define la llamada a esa herramienta y se la entrega al agente.
- El agente ejecuta la llamada REST a la API y recibe la respuesta: 72 grados Fahrenheit.
- El agente devuelve esa respuesta al modelo, que decide si la información es suficiente.
- El modelo prepara una respuesta en lenguaje natural y se la entrega al usuario.
La respuesta final se ve así: "San Francisco está muy bien, soleado, 72 grados, no necesitas paraguas". Por eso sientes que conversas con una persona, aunque detrás hubo una llamada API, una decisión del modelo y un agente coordinando todo.
Qué pasa cuando una tool falla
Este es el punto donde se nota la inteligencia del agente. Si la weather API responde con un 404, el agente le devuelve ese error al modelo y el modelo decide: "esto no resuelve el problema del usuario, voy a llamar a la search API y pedirle a Google la temperatura en San Francisco".
Esa capacidad de encadenar herramientas y reaccionar a fallos es lo que convierte a un agente en algo más que un wrapper de un LLM.
¿Qué tipo de APIs puedo convertir en tools? Casi cualquier API con interfaces bien definidas se puede configurar fácilmente como herramienta para tus agentes, siempre que tengas un schema claro de inputs y outputs.
Conceptos clave que aparecen en la clase
Para que tengas un mapa rápido de lo que vas a encontrar al implementar esto:
- Tool [00:08]: interfaz que el agente usa para interactuar con el mundo exterior, definida como función con un schema.
- Schema de la tool [00:50]: descripción que recibe el modelo para saber qué hace la herramienta y cuándo usarla.
- LangGraph [01:25]: framework estándar para orquestar agentes; usa un decorador tool para registrar funciones.
- Short term memory [04:48]: memoria de la conversación actual para mantener continuidad inmediata.
- Long term memory [05:20]: historial extendido que da contexto sobre el usuario y sus preguntas frecuentes.
- Agente vs modelo [04:15]: el modelo razona y decide; el agente ejecuta llamadas y procesa respuestas.
¿Ya tienes claro qué tool sería la primera que conectarías a tu agente? Cuéntame en los comentarios qué API quieres integrar primero.