Anatomía y arquitectura de un agente IA

Resumen

Detrás de cualquier agente conversacional existe una arquitectura clara que orquesta experiencia de usuario, conocimiento, habilidades y autonomía. Entender la anatomía de un agente de IA te permite diseñar asistentes más robustos en plataformas como Copilot Studio, sobre todo si construyes flujos para equipos de negocio o automatizaciones internas.

¿Cómo funciona la arquitectura de un agente de IA?

Todo agente parte de la experiencia del usuario, ya sea texto, voz o una capacidad de orquestación, y esa interacción llega a un orquestador que actúa como director de orquesta decidiendo qué componente responde en cada momento [1:30].

Desde ahí, el agente conecta con cuatro bloques principales:

  • Conocimiento (grounding): la cimentación de datos que permite respuestas inteligentes y contextualizadas.
  • Habilidades: acciones como enviar un correo, triggers, eventos o flujos de trabajo con aprobaciones y firmas.
  • Autonomía: planificación inicial, manejo de excepciones y ejecución del plan completo.
  • Modelos de IA: la base que sostiene todo el razonamiento del agente.

¿Qué es el grounding en un agente? Es la conexión del agente con fuentes de datos confiables para fundamentar sus respuestas. Sin grounding, el agente responde sin contexto real de tu organización.

¿Cómo se escriben buenas instrucciones para un agente?

Las instrucciones funcionan como el manual del becario nuevo: necesitan detalle suficiente para ejecutar sin ambigüedad [3:45]. Una instrucción sólida combina tres piezas.

Propósito, directrices y habilidades

  • Propósito: el objetivo del prompt, equivalente a la meta del agente.
  • Directrices: contexto general, tono, restricciones, terminología y ejemplos.
  • Habilidades conectadas: cada una con un campo descripción que la orquestación lee para decidir cuándo usarla.

Puedes tener N habilidades, y la orquestación arma el plan de ejecución leyendo esas descripciones.

Buenas prácticas al instruir

  • Define límites claros sobre hasta dónde puede generar la IA.
  • Usa aprendizaje one shot o few shots según la complejidad.
  • Encadena prompts cuando un solo paso no alcanza.
  • Numera condiciones con incisos (1.1, 1.2) para mayor claridad.
  • Divide el paso a paso en subsegmentos, aplicando pensamiento computacional.

¿Qué hay detrás de una herramienta dentro del agente?

Una herramienta como Outlook, que resume y envía correos, en realidad envuelve un API, un servicio que vive en la web [6:20]. Ese envoltorio incluye varios componentes.

  • Conectores: comunican con el servicio y manejan autenticación y prevención de pérdida de datos.
  • Flujos de Power Automate: orquestan trabajo entre múltiples servicios.
  • Conectores personalizados: cuando el catálogo predefinido no tiene lo que necesitas.
  • Gateway de datos: para conectar servidores on-premise con la nube.
  • AI Builder: capacidades de OCR, lectura de tarjetas y llenado de formularios.

¿Cómo se autentica un usuario en Copilot Studio?

Existen dos modos principales que conviene distinguir antes de publicar tu agente.

  • Autenticación de usuario final: ideal cuando quieres restringir acceso, por ejemplo, que solo finanzas vea ciertos datos.
  • Autenticación de copilot author: pensada para casos de bajo riesgo, como consultar el clima, sin exponer datos sensibles.

¿Cuándo uso autenticación de usuario final? Cuando los datos del agente son sensibles o segmentados por rol. Si el caso es público o informativo, usa la del copilot author.

La moderación de contenido también juega aquí: a menor precisión, más lenguaje y párrafos; a mayor precisión, respuestas más enfocadas al contenido.

¿Qué tipos de mensajes puede enviar el agente?

Los mensajes son la salida visible del agente y tienen varias formas [10:15].

  • Mensaje de texto: la respuesta más simple.
  • Variación de mensaje: defines varios y el agente elige uno aleatoriamente.
  • Imagen y video: pasas un URL público; los archivos no se cargan desde la app.
  • Tarjeta básica: estructura imagen y texto sin la interactividad de una tarjeta adaptativa.
  • Respuesta rápida: sugiere opciones para que el usuario elija con un clic.

¿Cómo capturas datos del usuario con preguntas?

Una pregunta no solo dialoga, también guarda la respuesta en una variable. Puedes pedir opción múltiple o usar entidades, que son tipos de dato como correo, dirección o nombre, ya disponibles en el catálogo o creadas por ti para conceptos propios de tu organización.

Las preguntas admiten comportamientos por omisión: qué pasa si el usuario no contesta, si la entidad no valida o si necesitas manejar interrupciones y errores [13:40].

¿Cómo se gestionan las variables dentro del agente?

Las variables son la memoria del agente y tienen tres alcances principales.

  • Variable de tema: vive solo dentro de ese tema.
  • Variable global: accesible desde cualquier tema e incluso entre agentes orquestados.
  • Variable de sistema: catálogo predefinido con datos como inicio o fin de sesión.

Puedes crearlas desde una pregunta, establecer su valor manualmente con la acción set, o asignar un valor inicial al arrancar un tema. También puedes pasar variables entre temas, igual que argumentos y retornos en una función de programación.

Parseo y funciones con Power Fx

Cuando recibes un JSON o un HTML, el parseo de variables lo convierte en algo legible, útil por ejemplo al enviar correos sin que se vea el markdown crudo. Y con Power Fx, un lenguaje tipo fórmula, concatenas variables, eliminas espacios y aplicas lógica más avanzada directo en la plataforma.

¿Qué parte de esta arquitectura vas a aplicar primero en tu agente? Cuéntalo en los comentarios.