Evaluación y validación de respuestas de LLM con criterios precisos

Clase 17 de 18Curso de Prompt Engineering

Resumen

Evaluar de forma fiable las respuestas de un LLM es clave para automatizar sin sorpresas. Aquí verás cómo medir consistencia, precisión, relevancia y claridad en tus prompts, cuándo usar validación cruzada entre Gemini y ChatGPT, y cómo mantener automatizaciones estables aunque los modelos cambien.

¿Cómo decidir el tipo de evaluación de un LLM?

Primero, define el tipo de evaluación. Hay dos enfoques: nuestra evaluación con criterios propios y un LLM que evalúa a otro LLM. El segundo solo funciona si ya fijaste un criterio claro de lo que esperas.

Luego, pregúntate si tu prompt resuelve una tarea única o una tarea recurrente. No es lo mismo consultar una ley una sola vez que crear un prompt para redactar el asunto de correos semanales a clientes. En tareas recurrentes, la estabilidad del prompt es prioritaria.

  • Para tareas únicas: validación puntual y criterio humano claro.
  • Para tareas recurrentes: diseño del prompt, pruebas repetidas y monitoreo continuo.

¿Qué criterios usar para evaluar un prompt recurrente?

Para transformar un prompt de uso ocasional en una automatización confiable, evalúalo con cuatro criterios: consistencia, precisión, relevancia y claridad.

¿Por qué la consistencia importa?

  • Prueba el prompt con contenidos distintos unas diez veces y revisa si cubre todos los casos de uso.
  • 8/10 o 9/10 puede estar bien durante la iteración, pero persigue el 10/10 antes de automatizar.
  • No confíes a ciegas: valida el resultado, por ejemplo, el asunto del correo antes de enviarlo.
  • Con 10/10, dejas lista la automatización y reduces retrabajo.

¿Cuándo priorizar la precisión?

  • Si generas un cuento o haces brainstorming, la precisión es secundaria.
  • Si haces análisis de contenido, análisis de archivos, reportes o extraes accionables de una reunión, la precisión es crítica.
  • Cada cambio al prompt se prueba con diez reuniones distintas y se valida consistencia antes de automatizar.

¿Cómo medir la relevancia y la claridad?

  • Relevancia: el modelo debe enfocarse en las partes clave solicitadas y evitar divagar.
  • Repite las pruebas diez veces y confirma que responde a lo pedido.
  • Claridad: respeta límite de caracteres, lenguaje, tono y voz definidos en el prompt.
  • Verifica que formato y estilo se mantengan como se indicó.

Además, revisa el prompt cada semana. Los modelos cambian sin avisar: aunque el nombre sea el mismo (GPT-4, GPT-5, Opus 4.1, Sonnet), pueden variar su comportamiento. Tu trabajo evoluciona: ahora debes verificar lo que la inteligencia artificial hace y ajustar el prompt cuando sea necesario.

¿Cómo validar con un LLM la respuesta de otro LLM?

La validación cruzada reduce riesgos de errores y alucinaciones. Un caso útil: búsqueda legal sobre custodia de la información en la ley de instituciones de crédito, con documentos como el Diario de la Federación y el anexo 63 cargados en el chat.

¿Cuál es el flujo de validación cruzada?

  • En Gemini: carga los archivos, pide que actúe como asistente legal, que responda solo con base en los documentos adjuntos y que diga cuando no tiene información.
  • Consulta sobre custodia de la información. Gemini inicialmente responde que no encuentra.
  • En ChatGPT: sube la misma ley y formula la pregunta evitando ambigüedad (por ejemplo, pregunta si hay alguna ley sobre custodia de la información). Usa el modelo en modo auto.
  • ChatGPT responde que hay normativa sobre custodia y conservación de la información y señala que está en el archivo adjunto. Ofrece extraer la parte puntual.
  • De vuelta en Gemini: pega la información y pide validar contra la ley, incluyendo artículos citados como el 124 y el 79. Gemini confirma que la información es correcta.

¿Qué problemas resuelve este enfoque?

  • Evita depender de términos literales: un modelo puede no captar la sutileza del concepto, aunque exista en el texto.
  • Permite detectar si hubo alucinación o si la referencia es real.
  • Ahorra tiempo: no necesitas leer toda la ley para verificar.
  • Complementa, pero no sustituye, las técnicas de prompting restrictivas.

Buenas prácticas para tu flujo de trabajo: - Crea variaciones de prompts y prueba sistemáticamente antes de automatizar. - Elige la herramienta según el problema y el tipo de tarea. - Antes de automatizar, pregúntate: ¿ese problema realmente necesita AI?

¿Te gustaría compartir cómo evalúas tus prompts o qué flujos de validación cruzada te han funcionado? Deja un comentario con tu caso y las mejoras que lograstes.