Resumen

Confiar ciegamente en la respuesta de un modelo de lenguaje es uno de los errores más comunes al trabajar con inteligencia artificial. Saber evaluar las respuestas de un LLM marca la diferencia entre una automatización confiable y una que puede generar problemas serios, desde un correo mal redactado hasta un análisis legal incorrecto.

¿Qué tipos de evaluación existen para las respuestas de un LLM?

Existen dos formas fundamentales de evaluar lo que produce un modelo. La primera es la evaluación humana, donde tú aplicas tu propio criterio sobre lo que esperas recibir. La segunda es cuando un LLM evalúa la respuesta de otro LLM [10:18], una técnica poderosa pero que solo funciona cuando ya tienes claro qué resultado buscas.

Antes de evaluar, hay una pregunta esencial: ¿es una tarea que vas a resolver una sola vez o tiene recurrencia? [0:41] No es lo mismo hacer una consulta puntual a una ley que diseñar un prompt para redactar el asunto de correos semanales a clientes. Para tareas recurrentes, la evaluación se vuelve crítica porque ese prompt alimentará una automatización.

¿Cuáles son los cuatro criterios para evaluar un prompt recurrente?

¿Por qué la consistencia es el primer criterio a validar?

La consistencia [1:17] significa que tu prompt debe producir resultados confiables cada vez que lo ejecutas. La recomendación es probarlo 10 veces con contenidos diferentes y verificar que en todas esas ejecuciones el resultado cumple con lo que necesitas. Puede que logres 9 de 10 u 8 de 10, pero debes perseguir el 10 de 10 para poder confiar en la automatización sin supervisión constante.

¿Cómo afectan la precisión, relevancia y claridad al resultado?

  • Precisión [2:30]: importa cuando trabajas con análisis de archivos, reportes o resúmenes de reuniones. Si estás haciendo brainstorming o creando ficción, la precisión pasa a segundo plano.
  • Relevancia [3:17]: evalúa si el contenido generado se enfoca en lo que realmente pediste. Un informe que divaga en temas secundarios no es relevante, aunque sea preciso.
  • Claridad [3:53]: verifica que el formato del resultado respeta los límites que definiste en tu prompt: cantidad de caracteres, tono, voz y estructura.

Cada vez que modifiques tu prompt, repite las 10 pruebas evaluando estos criterios. Solo así puedes pasar de un chat informal a algo más sofisticado como un GPT personalizado, un agente o una automatización en herramientas como n8n [4:27].

Un punto importante: los modelos cambian constantemente [4:39]. Las empresas que los construyen ajustan características sin avisar a los usuarios. Un modelo que se sigue llamando igual puede comportarse diferente de una semana a otra. Tu trabajo ya no es ejecutar la tarea, sino verificar que la automatización sigue funcionando correctamente y corregir el prompt cuando sea necesario.

¿Cómo usar un LLM para validar la respuesta de otro?

Esta técnica se llama validación cruzada entre modelos y es especialmente útil cuando trabajas con documentos extensos como leyes o normativas [5:25]. El ejemplo práctico parte de un ejercicio previo con la ley de instituciones de crédito.

En Gemini, se había configurado un asistente legal que solo respondiera con base en los documentos adjuntos. Al preguntarle sobre custodia de la información, Gemini respondió que la ley no contenía nada al respecto [6:10]. El siguiente paso fue llevar la misma pregunta a ChatGPT con el mismo documento.

  • ChatGPT identificó que sí existía normativa sobre custodia y conservación de la información, citando artículos específicos como el 124 y el 79 [7:11].
  • Esa respuesta se llevó de vuelta a Gemini para validar si era correcta contra los documentos originales [7:55].
  • Gemini confirmó que la información proporcionada por ChatGPT era correcta [8:28].

Lo que ocurrió fue que Gemini buscó los términos literales y no detectó las sutilezas semánticas: la información existía pero bajo términos diferentes. Esta validación cruzada evita tener que leer documentos completos para detectar alucinaciones del modelo.

La próxima vez que trabajes con un prompt, no te quedes con la primera respuesta. Crea variaciones, valídalas con diferentes herramientas y prueba de forma sistemática [9:16]. Y antes de automatizar cualquier problema, hazte la pregunta más importante: ¿ese problema realmente necesita inteligencia artificial? [9:36] Porque el proceso de evaluación y ajuste no es sencillo, y a veces la solución más eficiente no involucra AI en absoluto.