Contenido del curso
Trazabilidad
Evaluación y Monitoreo
- 6

Qué hace LangSmith más allá del tracing
03:51 min - 7

Crea tu primer dataset de evaluación en LangSmith
08:02 min - 8

Evaluación automática vs LLM as a Judge
04:40 min - 9

Evaluación de Agentes con Python en PlatziStore Agent
12:26 min - 10

Evaluación y Mejora de Agentes Virtuales en Langsmith
12:00 min - 11

Evaluación de trayectoria en agentes de IA
11:36 min - 12

Evaluación de Feedback en Agentes Conversacionales
07:09 min - 13

Técnicas de Observabilidad para Optimizar Inventarios en eCommerce
08:28 min
Optimización
Cómo crear un dashboard en LangSmith
Resumen
Visualizar el desempeño de un agente conversacional sin un dashboard interactivo es como volar a ciegas. En LangSmith puedes crear un dashboard para monitorear agentes con métricas de latencia, costo, errores y tokens, y entender en segundos qué está pasando en producción.
Aquí verás qué significa cada métrica que LangSmith ofrece por defecto, cómo provocar un error para probar el sistema y cómo armar un dashboard con gráficas personalizadas.
¿Qué métricas trae LangSmith por defecto?
Antes de armar cualquier gráfica, conviene entender qué está midiendo la plataforma. En la lista de proyectos aparecen varias columnas que muchas veces se pasan por alto, pero contienen la información clave para optimizar tu agente.
¿Qué significan run count, latencia y streaming rate?
El run count es el número de veces que el agente se ha ejecutado. La latencia se reporta en dos cortes que vale la pena distinguir.
- P50: si marca 200 milisegundos, la mitad de las ejecuciones tardaron hasta ese tiempo.
- P99: el mismo principio, pero para el 99% de las ejecuciones.
- Streaming rate: porcentaje de ejecuciones que usaron streaming. Si no lo usas, va a aparecer en 0%.
¿Qué es la latencia P99? Es el tiempo máximo que tardaron el 99% de las ejecuciones de tu agente. Te ayuda a detectar los casos más lentos, no solo el promedio.
¿Cómo se miden los tokens y los costos?
LangSmith separa el consumo en tres métricas de tokens y tres de costo, lo cual te permite saber dónde se va el dinero.
- Prompt tokens: los que se insertan al modelo para generar la respuesta.
- Completion tokens: los que el modelo genera como output.
- Total tokens: la suma de ambos.
Lo mismo aplica para el costo: tienes total cost, prompt cost y completion cost. El costo del completion casi siempre es más bajo, porque el output suele ser más corto que el input.
¿Cómo se visualiza el error rate de un agente?
El error rate es el porcentaje de ejecuciones que fallaron. Si tu agente nunca ha fallado dentro de la conversación, esta métrica se queda en cero y no podrás verla en acción. La forma de probarla es generar un error a propósito.
En el archivo de funciones del agente, dentro de la función que busca productos, puedes lanzar manualmente una excepción con raise Exception("error en la instrucción de productos"). Cuando vuelves a ejecutar el agente y le pides buscar un iPhone, la traza aparece marcada como error en LangSmith, con el mensaje exacto y la función donde ocurrió.
python def buscar_productos(query): raise Exception("error en la instrucción de productos")
Esto es útil porque diferencia errores del system prompt o scripts externos de los errores que ocurren dentro del flujo conversacional, que son los que más afectan al usuario final.
¿Qué es el error rate en LangSmith? Es el porcentaje de ejecuciones de tu agente que terminaron en error. La plataforma te muestra el mensaje y la función exacta donde falló cada traza.
¿Cómo crear un dashboard en LangSmith paso a paso?
En el sidebar, debajo de Trace and Projects, encuentras la opción de Dashboard. Desde ahí puedes crear uno nuevo, ponerle un nombre, por ejemplo Monitoreo del agente, y empezar a agregar gráficas.
Un dashboard puede contener más de una gráfica, así que la idea es combinar las métricas que te importan en una sola vista.
¿Cómo armar una gráfica de monitoreo de fallos?
La primera gráfica útil es la de errores. Estos son los pasos.
- Da clic en crear gráfica y nómbrala Monitoreo de fallos.
- Selecciona el proyecto, en este caso Parcel Store Agent.
- Elige la métrica error rate.
- Aplica filtros si lo necesitas, son los mismos que usas en reglas automáticas.
- Guarda y luego edítala para cambiar el tipo de visualización, por ejemplo de línea a barras.
En el panel derecho verás el valor actual. Si has probado el agente varias veces forzando errores, podrías ver un error rate del 15% en el día.
¿Cómo crear una gráfica de costo de tokens por día?
La segunda gráfica recomendada mide cuánto te está costando el agente. Repites el flujo, pero esta vez seleccionas la métrica total cost.
Lo interesante es que puedes comparar el total cost contra el prompt cost o el completion cost dentro de la misma gráfica. El prompt cost siempre será inferior al total porque el total es la suma, y el completion cost normalmente es mucho más bajo porque el output del modelo suele ser más corto que el input.
Al cambiarla a barras, queda mucho más fácil identificar picos de gasto por día y detectar si una conversación específica está disparando los costos.
Con estas dos gráficas, monitoreo de fallos y costo de tokens por día, ya tienes un dashboard funcional que cubre las dos preocupaciones más comunes en producción: estabilidad y dinero.
Ahora te toca a ti. Arma tu propio dashboard con las métricas que más te interesen de tu agente y compártelo en los comentarios.