Contenido del curso
Estructurando instrucciones claras y efectivas
Manejo de contexto extenso y datos
Tecnicas de razonamiento para tareas complejas
Aplicaciones y automatización profesional
Cómo evaluar respuestas de un LLM
Resumen
Evaluar respuestas de un LLM es el paso que separa un prompt improvisado de una automatización confiable. Si trabajas con inteligencia artificial generativa y quieres dejar de revisar cada output a mano, necesitas un método claro para medir consistencia, precisión, relevancia y claridad, además de saber cuándo usar un segundo modelo como verificador.
¿Por qué evaluar un prompt antes de automatizar?
La primera pregunta que debes hacerte es si la tarea es puntual o recurrente. No es lo mismo consultar una ley una vez que redactar cada semana el asunto de los correos a tus clientes. Cuando la tarea se repite, evaluar el prompt deja de ser opcional.
¿Cuántas veces debo probar un prompt antes de automatizarlo? En promedio, diez veces con contenidos distintos. Si en las diez ejecuciones el resultado cubre tu caso de uso, puedes confiar en la automatización. Si llegas a ocho o nueve, sigue ajustando.
¿Cuáles son los criterios para evaluar la respuesta de un LLM?
Hay cuatro criterios que funcionan como filtro antes de mover un prompt a un GPT, un agente o un flujo en n8n [4:00].
Consistencia, precisión, relevancia y claridad
Cada criterio responde a un problema distinto y no todos aplican siempre con el mismo peso.
- Consistencia: el prompt entrega el mismo tipo de resultado en las diez pruebas. Si vas a automatizar el asunto de un correo semanal, sin consistencia no puedes desentenderte de la tarea [1:30].
- Precisión: importa cuando analizas archivos, generas reportes o extraes accionables de una reunión. En cambio, si haces brainstorming o escribes un cuento, la precisión pasa a segundo plano [2:30].
- Relevancia: el contenido se enfoca en lo que pediste y no divaga hacia secciones que no deberían entrar en el informe [3:10].
- Claridad: el resultado respeta los límites del prompt, como cantidad de caracteres, tono y voz del mensaje [3:40].
Cada vez que modifiques el prompt, vuelve a probarlo con diez casos. Solo así sabes si la modificación mejoró o rompió algo.
¿Cómo usar un LLM para evaluar la respuesta de otro LLM?
La validación cruzada entre modelos es útil cuando un LLM dice que no encuentra información, pero tú sospechas que sí está en el documento. Es una forma de detectar alucinaciones sin tener que leer la ley completa [5:20].
Caso práctico con Gemini y ChatGPT
En una clase previa trabajamos en Gemini con la ley de instituciones de crédito, el anexo 63 y el Diario Oficial de la Federación. Le pedimos que se comportara como asistente legal, que basara las respuestas únicamente en los documentos adjuntos y que respondiera "no tengo esa información" cuando no encontrara algo.
Al preguntarle por custodia de la información, Gemini dijo que la ley no mencionaba nada. Para validarlo, llevamos la misma consulta a ChatGPT [6:30].
- Subimos la ley de instituciones de crédito en ChatGPT.
- Reformulamos la pregunta para evitar ambigüedad: en lugar de repetir "custodia de la información", preguntamos si existía alguna ley sobre custodia de la información.
- Usamos el modelo en auto para que el modelo decida la complejidad.
ChatGPT respondió que sí existía normativa sobre custodia y conservación de la información dentro del marco de la ley, citando los artículos 124 y 79 [7:50].
Cómo cerrar la validación cruzada
Con esa información volvimos a Gemini y le pedimos que validara si los artículos 124 y 79 efectivamente contenían lo que ChatGPT afirmaba. Gemini confirmó que la información era correcta. La diferencia inicial vino de que Gemini buscó los términos literales y no captó las sutilezas, mientras que ChatGPT entendió la intención detrás de la pregunta.
¿Qué hago si dos LLM me dan respuestas distintas? Reformula la pregunta en cada uno, pídeles que citen el fragmento exacto del documento y luego cruza esa cita en el otro modelo. Si ninguno puede mostrarte la fuente literal, probablemente hay alucinación.
¿Por qué debo reevaluar mis prompts cada semana?
Los modelos cambian sin avisar. Aunque sigan llamándose GPT-4, GPT-5, Opus 4.1 o Sonnet, las empresas detrás ajustan características internas que afectan el comportamiento de un día para otro. Tu trabajo ya no es enviar el correo cada semana, sino verificar que la inteligencia artificial lo siga haciendo bien y corregir el prompt cuando deje de cumplir [9:30].
Antes de automatizar cualquier tarea, hazte una pregunta más básica: ¿este problema realmente necesita inteligencia artificial? Porque construir, evaluar y mantener un prompt confiable lleva tiempo, y a veces el problema se resuelve con una plantilla, una macro o un proceso manual bien definido.
La próxima vez que escribas un prompt, no te quedes con la primera respuesta. Crea variaciones, pruébalas con consistencia, precisión, relevancia y claridad, y usa la validación cruzada entre modelos cuando la información sea crítica. ¿Qué tarea de tu semana automatizarías primero con este método?