Contenido del curso

Fundamentos prácticos de la IA generativa

Estructurando instrucciones claras y efectivas

Manejo de contexto extenso y datos

Tecnicas de razonamiento para tareas complejas

Aplicaciones y automatización profesional

Cómo evaluar respuestas de un LLM

Resumen

Confiar ciegamente en la respuesta de un modelo de lenguaje es uno de los errores más comunes al trabajar con inteligencia artificial. Saber evaluar las respuestas de un LLM marca la diferencia entre una automatización confiable y una que puede generar problemas serios, desde un correo mal redactado hasta un análisis legal incorrecto.

¿Qué tipos de evaluación existen para las respuestas de un LLM?

Existen dos formas fundamentales de evaluar lo que produce un modelo. La primera es la evaluación humana, donde tú aplicas tu propio criterio sobre lo que esperas recibir. La segunda es cuando un LLM evalúa la respuesta de otro LLM [10:18], una técnica poderosa pero que solo funciona cuando ya tienes claro qué resultado buscas.

Antes de evaluar, hay una pregunta esencial: ¿es una tarea que vas a resolver una sola vez o tiene recurrencia? [0:41] No es lo mismo hacer una consulta puntual a una ley que diseñar un prompt para redactar el asunto de correos semanales a clientes. Para tareas recurrentes, la evaluación se vuelve crítica porque ese prompt alimentará una automatización.

¿Cuáles son los cuatro criterios para evaluar un prompt recurrente?

¿Por qué la consistencia es el primer criterio a validar?

La consistencia [1:17] significa que tu prompt debe producir resultados confiables cada vez que lo ejecutas. La recomendación es probarlo 10 veces con contenidos diferentes y verificar que en todas esas ejecuciones el resultado cumple con lo que necesitas. Puede que logres 9 de 10 u 8 de 10, pero debes perseguir el 10 de 10 para poder confiar en la automatización sin supervisión constante.

¿Cómo afectan la precisión, relevancia y claridad al resultado?

Precisión [2:30]: importa cuando trabajas con análisis de archivos, reportes o resúmenes de reuniones. Si estás haciendo brainstorming o creando ficción, la precisión pasa a segundo plano.
Relevancia [3:17]: evalúa si el contenido generado se enfoca en lo que realmente pediste. Un informe que divaga en temas secundarios no es relevante, aunque sea preciso.
Claridad [3:53]: verifica que el formato del resultado respeta los límites que definiste en tu prompt: cantidad de caracteres, tono, voz y estructura.

Cada vez que modifiques tu prompt, repite las 10 pruebas evaluando estos criterios. Solo así puedes pasar de un chat informal a algo más sofisticado como un GPT personalizado, un agente o una automatización en herramientas como n8n [4:27].

Un punto importante: los modelos cambian constantemente [4:39]. Las empresas que los construyen ajustan características sin avisar a los usuarios. Un modelo que se sigue llamando igual puede comportarse diferente de una semana a otra. Tu trabajo ya no es ejecutar la tarea, sino verificar que la automatización sigue funcionando correctamente y corregir el prompt cuando sea necesario.

¿Cómo usar un LLM para validar la respuesta de otro?

Esta técnica se llama validación cruzada entre modelos y es especialmente útil cuando trabajas con documentos extensos como leyes o normativas [5:25]. El ejemplo práctico parte de un ejercicio previo con la ley de instituciones de crédito.

En Gemini, se había configurado un asistente legal que solo respondiera con base en los documentos adjuntos. Al preguntarle sobre custodia de la información, Gemini respondió que la ley no contenía nada al respecto [6:10]. El siguiente paso fue llevar la misma pregunta a ChatGPT con el mismo documento.

ChatGPT identificó que sí existía normativa sobre custodia y conservación de la información, citando artículos específicos como el 124 y el 79 [7:11].
Esa respuesta se llevó de vuelta a Gemini para validar si era correcta contra los documentos originales [7:55].
Gemini confirmó que la información proporcionada por ChatGPT era correcta [8:28].

Lo que ocurrió fue que Gemini buscó los términos literales y no detectó las sutilezas semánticas: la información existía pero bajo términos diferentes. Esta validación cruzada evita tener que leer documentos completos para detectar alucinaciones del modelo.

La próxima vez que trabajes con un prompt, no te quedes con la primera respuesta. Crea variaciones, valídalas con diferentes herramientas y prueba de forma sistemática [9:16]. Y antes de automatizar cualquier problema, hazte la pregunta más importante: ¿ese problema realmente necesita inteligencia artificial? [9:36] Porque el proceso de evaluación y ajuste no es sencillo, y a veces la solución más eficiente no involucra AI en absoluto.

Gonzalo Blasco

student•

Guía de estudio — Clase 17: Evaluación y validación de respuestas de LLM con criterios precisos

1) Idea central

Para automatizar sin sorpresas, no basta con “que responda bien una vez”: necesitas evaluar de forma repetible y validar (idealmente con verificación cruzada) para reducir errores y alucinaciones.

2) Antes de evaluar: define el tipo de tarea

A) Tarea única (one-off)

Ej.: “¿Qué dice esta ley sobre X?”

Validación puntual + criterio humano.
Menos foco en estabilidad, más en exactitud del caso.

B) Tarea recurrente (automatización)

Ej.: “Genera asuntos de correo semanales”

Estabilidad del prompt es prioridad.
Requiere pruebas repetidas + monitoreo continuo.

3) Los 4 criterios clave (la rúbrica)

CriterioQué significaCómo se pruebaSeñales de falla

Consistencia

Se comporta igual en casos distintos

Ejecuta el prompt ~10 veces con inputs variados

2/10 respuestas “se salen” o cambian el formato

Precisión

Correcto y verificable (especialmente en análisis/reportes)

Pide evidencia / citas / cálculo por código

Inventar datos, confundir métricas, errores de cálculo

Relevancia

Va al punto: responde lo solicitado

Revisa si cubre lo pedido sin divagar

Relleno, consejos genéricos, info no pedida

Claridad

Cumple formato, tono, límites (caracteres, bullets, etc.)

Valida longitud, estructura y estilo

Se pasa de palabras, tono incorrecto, desorden

Regla práctica:

En iteración, 8/10 o 9/10 puede servir para aprender.
Para automatizar: apunta a 10/10 (o define tolerancias muy explícitas).

4) Método simple de evaluación (paso a paso)

Define “qué es éxito” (criterios + formato + límites).
Crea 10 casos de prueba (inputs distintos y “difíciles”).
Ejecuta el prompt y califica 1–5 cada criterio.
Detecta el patrón de fallas (¿se va de largo? ¿alucina? ¿pierde formato?).
Ajusta el prompt con cambios mínimos.
Repite hasta lograr consistencia (idealmente 10/10).

5) Validación cruzada (LLM vs LLM) — flujo recomendado

Útil para: legal, cumplimiento, reportes, resúmenes críticos, extracción de info de documentos.

Flujo:

Modelo A (ej. Gemini): “Responde solo con base en los documentos. Si no hay info, dilo.”
Si A no encuentra o dudas del resultado:
Modelo B (ej. ChatGPT): reformula la pregunta evitando ambigüedad y pide ubicación exacta (sección/artículo/cita).
Vuelve a A y pide: “Valida lo dicho por B contra el documento y confirma si es correcto, citando dónde aparece.”

Qué resuelve:

Reduce alucinaciones.
Evita depender de palabras literales (un modelo puede “no detectar” el concepto).
Ahorra lectura completa: hace “control de calidad” más rápido.

6) Checklist para automatizar (anti-sorpresas)

Prompt probado con 10 inputs distintos.
Formato y límites estables (claridad).
Respuestas verificables (precisión): citas, pasos, o código cuando aplique.
Se mantiene enfocado (relevancia).
Tienes plan de monitoreo semanal (porque los modelos cambian).

7) Prompts útiles (plantillas)

A) Prompt de evaluación (rúbrica)

“Actúa como auditor. Evalúa la respuesta según: Consistencia, Precisión, Relevancia y Claridad. Califica 1–5 y explica brevemente por qué. Luego sugiere 2 mejoras puntuales al prompt original.”

B) Prompt de validación estricta con documentos

“Responde únicamente con base en los documentos adjuntos. Si la información no aparece, responde: ‘No está en el documento’. Incluye citas textuales cortas o referencia exacta (sección/artículo/página).”

C) Prompt de “prueba de estrés”

“Ejecuta este mismo prompt 10 veces con variaciones del input (cambia tono, longitud, ambigüedad). Reporta en una tabla qué se rompe (formato, longitud, precisión, relevancia).”

8) Preguntas de repaso (tipo examen)

¿Qué criterio priorizas para tareas recurrentes?
¿Por qué un LLM evaluando a otro LLM solo funciona si ya definiste criterios?
Da un ejemplo de cuándo la precisión es secundaria vs crítica.
¿Qué ganamos con la validación cruzada entre modelos?
¿Por qué se recomienda revisar semanalmente prompts automatizados?

9) Mini ejercicio (10–15 min)

Elige una tarea recurrente (p. ej., “resumen semanal de 50 palabras”):

define límites (50 palabras, tono formal, 3 bullets),
crea 10 entradas distintas,
corre y califica con la rúbrica,
ajusta el prompt para que cumpla 10/10.

Gabriel Obregón

David Santiago González Ramos

Paola Sánchez

Juan Daniel Salgado Reyes

ANDREA CANARIA PEÑA

Miguel Andrés Ramírez Marinez

Mateo Montoya Henao

Edgar Villatoro Pérez

Andres Zapata T.

Gonzalo Peñaranda

Kevin Fiorentino

Catherine Argüello Castro

Gerson Antonio Cabrera

student••

Maribel Barrera Tabares

Daniel Carvajal Correa

Oscar Saul Martinez Rivas

Juan Camilo Mejía Rodríguez

Carlos Vasquez

Roberto Carlos Henriquez Medrano

Aprendiz Ada

Elias Echeverri

Marlon Alberto Melendez Tejada

Massiel A. Nieto C.

Fundamentos prácticos de la IA generativa

Estructura de prompts que eliminan respuestas genéricas

Cómo crear el prompt perfecto con ChatGPT

Qué son los embeddings en los LLMs

Rol en prompts: cómo mejorar respuestas de IA

Estructurando instrucciones claras y efectivas

ChatGPT vs Claude vs Gemini cuál elegir

Zero-shot vs few-shot en prompts

Etiquetas XML para estructurar prompts

Manejo de contexto extenso y datos

Ventana de contexto y tokens en LLMs

Grounding para evitar que la IA invente leyes

Chain of thought y self-consistency en LLMs

Tecnicas de razonamiento para tareas complejas

Modelos de razonamiento de ChatGPT y cadenas de pensamiento

Prompt chaining como línea de ensamblaje

Playgrounds de IA para escalar tus prompts

Temperatura y Top P en Google AI Studio

Aplicaciones y automatización profesional

Cómo crear prompts de imagen en ChatGPT

Análisis de ventas con ChatGPT y Excel