Evaluación y validación de respuestas de LLM con criterios precisos
Clase 17 de 18 • Curso de Prompt Engineering
Resumen
Evaluar de forma fiable las respuestas de un LLM es clave para automatizar sin sorpresas. Aquí verás cómo medir consistencia, precisión, relevancia y claridad en tus prompts, cuándo usar validación cruzada entre Gemini y ChatGPT, y cómo mantener automatizaciones estables aunque los modelos cambien.
¿Cómo decidir el tipo de evaluación de un LLM?
Primero, define el tipo de evaluación. Hay dos enfoques: nuestra evaluación con criterios propios y un LLM que evalúa a otro LLM. El segundo solo funciona si ya fijaste un criterio claro de lo que esperas.
Luego, pregúntate si tu prompt resuelve una tarea única o una tarea recurrente. No es lo mismo consultar una ley una sola vez que crear un prompt para redactar el asunto de correos semanales a clientes. En tareas recurrentes, la estabilidad del prompt es prioritaria.
- Para tareas únicas: validación puntual y criterio humano claro.
- Para tareas recurrentes: diseño del prompt, pruebas repetidas y monitoreo continuo.
¿Qué criterios usar para evaluar un prompt recurrente?
Para transformar un prompt de uso ocasional en una automatización confiable, evalúalo con cuatro criterios: consistencia, precisión, relevancia y claridad.
¿Por qué la consistencia importa?
- Prueba el prompt con contenidos distintos unas diez veces y revisa si cubre todos los casos de uso.
- 8/10 o 9/10 puede estar bien durante la iteración, pero persigue el 10/10 antes de automatizar.
- No confíes a ciegas: valida el resultado, por ejemplo, el asunto del correo antes de enviarlo.
- Con 10/10, dejas lista la automatización y reduces retrabajo.
¿Cuándo priorizar la precisión?
- Si generas un cuento o haces brainstorming, la precisión es secundaria.
- Si haces análisis de contenido, análisis de archivos, reportes o extraes accionables de una reunión, la precisión es crítica.
- Cada cambio al prompt se prueba con diez reuniones distintas y se valida consistencia antes de automatizar.
¿Cómo medir la relevancia y la claridad?
- Relevancia: el modelo debe enfocarse en las partes clave solicitadas y evitar divagar.
- Repite las pruebas diez veces y confirma que responde a lo pedido.
- Claridad: respeta límite de caracteres, lenguaje, tono y voz definidos en el prompt.
- Verifica que formato y estilo se mantengan como se indicó.
Además, revisa el prompt cada semana. Los modelos cambian sin avisar: aunque el nombre sea el mismo (GPT-4, GPT-5, Opus 4.1, Sonnet), pueden variar su comportamiento. Tu trabajo evoluciona: ahora debes verificar lo que la inteligencia artificial hace y ajustar el prompt cuando sea necesario.
¿Cómo validar con un LLM la respuesta de otro LLM?
La validación cruzada reduce riesgos de errores y alucinaciones. Un caso útil: búsqueda legal sobre custodia de la información en la ley de instituciones de crédito, con documentos como el Diario de la Federación y el anexo 63 cargados en el chat.
¿Cuál es el flujo de validación cruzada?
- En Gemini: carga los archivos, pide que actúe como asistente legal, que responda solo con base en los documentos adjuntos y que diga cuando no tiene información.
- Consulta sobre custodia de la información. Gemini inicialmente responde que no encuentra.
- En ChatGPT: sube la misma ley y formula la pregunta evitando ambigüedad (por ejemplo, pregunta si hay alguna ley sobre custodia de la información). Usa el modelo en modo auto.
- ChatGPT responde que sí hay normativa sobre custodia y conservación de la información y señala que está en el archivo adjunto. Ofrece extraer la parte puntual.
- De vuelta en Gemini: pega la información y pide validar contra la ley, incluyendo artículos citados como el 124 y el 79. Gemini confirma que la información es correcta.
¿Qué problemas resuelve este enfoque?
- Evita depender de términos literales: un modelo puede no captar la sutileza del concepto, aunque exista en el texto.
- Permite detectar si hubo alucinación o si la referencia es real.
- Ahorra tiempo: no necesitas leer toda la ley para verificar.
- Complementa, pero no sustituye, las técnicas de prompting restrictivas.
Buenas prácticas para tu flujo de trabajo: - Crea variaciones de prompts y prueba sistemáticamente antes de automatizar. - Elige la herramienta según el problema y el tipo de tarea. - Antes de automatizar, pregúntate: ¿ese problema realmente necesita AI?
¿Te gustaría compartir cómo evalúas tus prompts o qué flujos de validación cruzada te han funcionado? Deja un comentario con tu caso y las mejoras que lograstes.