Contenido del curso
Trazabilidad
Evaluación y Monitoreo
- 6

Qué hace LangSmith más allá del tracing
Viendo ahora - 7

Crea tu primer dataset de evaluación en LangSmith
08:02 min - 8

Evaluación automática vs LLM as a Judge
04:40 min - 9

Evaluación de Agentes con Python en PlatziStore Agent
12:26 min - 10

Evaluación y Mejora de Agentes Virtuales en Langsmith
12:00 min - 11

Evaluación de trayectoria en agentes de IA
11:36 min - 12

Evaluación de Feedback en Agentes Conversacionales
07:09 min - 13

Técnicas de Observabilidad para Optimizar Inventarios en eCommerce
08:28 min
Optimización
Qué hace LangSmith más allá del tracing
Resumen
LangSmith no se queda en la trazabilidad. La plataforma incluye herramientas para evaluar, iterar y observar agentes de IA con datasets, experimentos, prompts y dashboards. Si trabajas con agentes y quieres llevarlos a producción con calidad, aquí está el mapa de lo que puedes usar.
¿Qué ofrece LangSmith más allá de la trazabilidad?
La observabilidad es solo la puerta de entrada. Dentro del workspace encuentras tracing projects, evaluación, prompt engineering, dashboards, annotation queues y despliegues. Cada sección cumple un rol distinto en el ciclo de vida del agente.
- Tracing projects: rastrea cada ejecución del agente, como Platzi Store Agent.
- Dashboards: visualiza métricas por agente de forma rápida y agradable.
- Datasets and experiments: prueba al agente con inputs y outputs esperados.
- Annotation queues: deja notas tipo mano arriba o mano abajo para revisar respuestas [03:10].
- Prompts y playground: ajusta y compara prompts con distintos modelos.
Después de revisar el menú, conviene entender por qué cada bloque importa al iterar un agente real.
¿Cómo funcionan los datasets y experimentos en LangSmith?
Un dataset es una lista de inputs con sus outputs esperados. Un experimento ocurre cuando corres al agente sobre ese dataset con un prompt específico para verificar si cumple lo que pides [01:05].
Imagina que un usuario escribe "Hola, quiero un iPhone". El agente responde, pero quizá tú esperabas que recomendara alternativas si el precio supera los $50 o $100. Ese tipo de comportamiento lo defines en el dataset: respuestas con emojis, tono técnico, tono efusivo, recomendaciones cruzadas. Luego ejecutas el experimento y mides.
¿Para qué sirve un dataset en LangSmith? Sirve para definir entradas y respuestas esperadas, de modo que puedas comparar el output real del agente contra lo que tú consideras una buena respuesta.
Iterar es el verbo clave. Cambias el prompt, vuelves a correr el experimento y observas si el agente se acerca al resultado deseado.
¿Qué herramientas de prompt engineering trae LangSmith?
La sección de prompt engineering es una suite para gestionar y modificar prompts [01:55]. Al crear uno nuevo encuentras una interfaz parecida al playground de OpenAI: un mensaje del sistema tipo You are a chatbot y curly braces para insertar variables.
Es un playground simple, pero útil cuando quieres versionar prompts antes de llevarlos al agente en producción. Luego puedes conectarlo con un dataset y medir el impacto de cada cambio.
¿Qué son los annotation queues?
Son colas de anotación donde marcas respuestas del agente con feedback positivo o negativo y explicas por qué. Algunos sistemas usan mano arriba o mano abajo, y aquí guardas ese juicio humano para mejorar futuras versiones.
¿Qué planes de LangSmith puedes usar para colaborar?
LangSmith trabaja por workspaces. Tu plan define cuántas personas pueden colaborar contigo dentro del mismo espacio [03:50].
- Plan developer: gratuito, individual, suficiente para trabajar y mejorar agentes.
- Plan plus: permite agregar hasta 10 personas al workspace.
- LangGraph Platform: herramienta avanzada para desplegar agentes, fuera del alcance de este recorrido.
¿Necesito pagar LangSmith para mejorar mis agentes? No. El plan developer es gratuito y te da acceso a trazabilidad, datasets, experimentos, prompts y annotation queues. El plan plus solo agrega colaboración en equipo.
Con este panorama claro, el siguiente paso es entrar de lleno a datasets and experiments y ver cómo construir evaluaciones que conviertan a tu agente en uno verdaderamente confiable. ¿Qué métrica vas a medir primero en tu agente?