Resumen

Evaluar de forma fiable las respuestas de un LLM es clave para automatizar sin sorpresas. Aquí verás cómo medir consistencia, precisión, relevancia y claridad en tus prompts, cuándo usar validación cruzada entre Gemini y ChatGPT, y cómo mantener automatizaciones estables aunque los modelos cambien.

¿Cómo decidir el tipo de evaluación de un LLM?

Primero, define el tipo de evaluación. Hay dos enfoques: nuestra evaluación con criterios propios y un LLM que evalúa a otro LLM. El segundo solo funciona si ya fijaste un criterio claro de lo que esperas.

Luego, pregúntate si tu prompt resuelve una tarea única o una tarea recurrente. No es lo mismo consultar una ley una sola vez que crear un prompt para redactar el asunto de correos semanales a clientes. En tareas recurrentes, la estabilidad del prompt es prioritaria.

  • Para tareas únicas: validación puntual y criterio humano claro.
  • Para tareas recurrentes: diseño del prompt, pruebas repetidas y monitoreo continuo.

¿Qué criterios usar para evaluar un prompt recurrente?

Para transformar un prompt de uso ocasional en una automatización confiable, evalúalo con cuatro criterios: consistencia, precisión, relevancia y claridad.

¿Por qué la consistencia importa?

  • Prueba el prompt con contenidos distintos unas diez veces y revisa si cubre todos los casos de uso.
  • 8/10 o 9/10 puede estar bien durante la iteración, pero persigue el 10/10 antes de automatizar.
  • No confíes a ciegas: valida el resultado, por ejemplo, el asunto del correo antes de enviarlo.
  • Con 10/10, dejas lista la automatización y reduces retrabajo.

¿Cuándo priorizar la precisión?

  • Si generas un cuento o haces brainstorming, la precisión es secundaria.
  • Si haces análisis de contenido, análisis de archivos, reportes o extraes accionables de una reunión, la precisión es crítica.
  • Cada cambio al prompt se prueba con diez reuniones distintas y se valida consistencia antes de automatizar.

¿Cómo medir la relevancia y la claridad?

  • Relevancia: el modelo debe enfocarse en las partes clave solicitadas y evitar divagar.
  • Repite las pruebas diez veces y confirma que responde a lo pedido.
  • Claridad: respeta límite de caracteres, lenguaje, tono y voz definidos en el prompt.
  • Verifica que formato y estilo se mantengan como se indicó.

Además, revisa el prompt cada semana. Los modelos cambian sin avisar: aunque el nombre sea el mismo (GPT-4, GPT-5, Opus 4.1, Sonnet), pueden variar su comportamiento. Tu trabajo evoluciona: ahora debes verificar lo que la inteligencia artificial hace y ajustar el prompt cuando sea necesario.

¿Cómo validar con un LLM la respuesta de otro LLM?

La validación cruzada reduce riesgos de errores y alucinaciones. Un caso útil: búsqueda legal sobre custodia de la información en la ley de instituciones de crédito, con documentos como el Diario de la Federación y el anexo 63 cargados en el chat.

¿Cuál es el flujo de validación cruzada?

  • En Gemini: carga los archivos, pide que actúe como asistente legal, que responda solo con base en los documentos adjuntos y que diga cuando no tiene información.
  • Consulta sobre custodia de la información. Gemini inicialmente responde que no encuentra.
  • En ChatGPT: sube la misma ley y formula la pregunta evitando ambigüedad (por ejemplo, pregunta si hay alguna ley sobre custodia de la información). Usa el modelo en modo auto.
  • ChatGPT responde que hay normativa sobre custodia y conservación de la información y señala que está en el archivo adjunto. Ofrece extraer la parte puntual.
  • De vuelta en Gemini: pega la información y pide validar contra la ley, incluyendo artículos citados como el 124 y el 79. Gemini confirma que la información es correcta.

¿Qué problemas resuelve este enfoque?

  • Evita depender de términos literales: un modelo puede no captar la sutileza del concepto, aunque exista en el texto.
  • Permite detectar si hubo alucinación o si la referencia es real.
  • Ahorra tiempo: no necesitas leer toda la ley para verificar.
  • Complementa, pero no sustituye, las técnicas de prompting restrictivas.

Buenas prácticas para tu flujo de trabajo: - Crea variaciones de prompts y prueba sistemáticamente antes de automatizar. - Elige la herramienta según el problema y el tipo de tarea. - Antes de automatizar, pregúntate: ¿ese problema realmente necesita AI?

¿Te gustaría compartir cómo evalúas tus prompts o qué flujos de validación cruzada te han funcionado? Deja un comentario con tu caso y las mejoras que lograstes.