Evaluación y validación de respuestas de LLM con criterios precisos

Clase 17 de 18 • Curso de Prompt Engineering

Resumen

Evaluar de forma fiable las respuestas de un LLM es clave para automatizar sin sorpresas. Aquí verás cómo medir consistencia, precisión, relevancia y claridad en tus prompts, cuándo usar validación cruzada entre Gemini y ChatGPT, y cómo mantener automatizaciones estables aunque los modelos cambien.

¿Cómo decidir el tipo de evaluación de un LLM?

Primero, define el tipo de evaluación. Hay dos enfoques: nuestra evaluación con criterios propios y un LLM que evalúa a otro LLM. El segundo solo funciona si ya fijaste un criterio claro de lo que esperas.

Luego, pregúntate si tu prompt resuelve una tarea única o una tarea recurrente. No es lo mismo consultar una ley una sola vez que crear un prompt para redactar el asunto de correos semanales a clientes. En tareas recurrentes, la estabilidad del prompt es prioritaria.

Para tareas únicas: validación puntual y criterio humano claro.
Para tareas recurrentes: diseño del prompt, pruebas repetidas y monitoreo continuo.

¿Qué criterios usar para evaluar un prompt recurrente?

Para transformar un prompt de uso ocasional en una automatización confiable, evalúalo con cuatro criterios: consistencia, precisión, relevancia y claridad.

¿Por qué la consistencia importa?

Prueba el prompt con contenidos distintos unas diez veces y revisa si cubre todos los casos de uso.
8/10 o 9/10 puede estar bien durante la iteración, pero persigue el 10/10 antes de automatizar.
No confíes a ciegas: valida el resultado, por ejemplo, el asunto del correo antes de enviarlo.
Con 10/10, dejas lista la automatización y reduces retrabajo.

¿Cuándo priorizar la precisión?

Si generas un cuento o haces brainstorming, la precisión es secundaria.
Si haces análisis de contenido, análisis de archivos, reportes o extraes accionables de una reunión, la precisión es crítica.
Cada cambio al prompt se prueba con diez reuniones distintas y se valida consistencia antes de automatizar.

¿Cómo medir la relevancia y la claridad?

Relevancia: el modelo debe enfocarse en las partes clave solicitadas y evitar divagar.
Repite las pruebas diez veces y confirma que responde a lo pedido.
Claridad: respeta límite de caracteres, lenguaje, tono y voz definidos en el prompt.
Verifica que formato y estilo se mantengan como se indicó.

Además, revisa el prompt cada semana. Los modelos cambian sin avisar: aunque el nombre sea el mismo (GPT-4, GPT-5, Opus 4.1, Sonnet), pueden variar su comportamiento. Tu trabajo evoluciona: ahora debes verificar lo que la inteligencia artificial hace y ajustar el prompt cuando sea necesario.

¿Cómo validar con un LLM la respuesta de otro LLM?

La validación cruzada reduce riesgos de errores y alucinaciones. Un caso útil: búsqueda legal sobre custodia de la información en la ley de instituciones de crédito, con documentos como el Diario de la Federación y el anexo 63 cargados en el chat.

¿Cuál es el flujo de validación cruzada?

En Gemini: carga los archivos, pide que actúe como asistente legal, que responda solo con base en los documentos adjuntos y que diga cuando no tiene información.
Consulta sobre custodia de la información. Gemini inicialmente responde que no encuentra.
En ChatGPT: sube la misma ley y formula la pregunta evitando ambigüedad (por ejemplo, pregunta si hay alguna ley sobre custodia de la información). Usa el modelo en modo auto.
ChatGPT responde que sí hay normativa sobre custodia y conservación de la información y señala que está en el archivo adjunto. Ofrece extraer la parte puntual.
De vuelta en Gemini: pega la información y pide validar contra la ley, incluyendo artículos citados como el 124 y el 79. Gemini confirma que la información es correcta.

¿Qué problemas resuelve este enfoque?

Evita depender de términos literales: un modelo puede no captar la sutileza del concepto, aunque exista en el texto.
Permite detectar si hubo alucinación o si la referencia es real.
Ahorra tiempo: no necesitas leer toda la ley para verificar.
Complementa, pero no sustituye, las técnicas de prompting restrictivas.

Buenas prácticas para tu flujo de trabajo: - Crea variaciones de prompts y prueba sistemáticamente antes de automatizar. - Elige la herramienta según el problema y el tipo de tarea. - Antes de automatizar, pregúntate: ¿ese problema realmente necesita AI?

¿Te gustaría compartir cómo evalúas tus prompts o qué flujos de validación cruzada te han funcionado? Deja un comentario con tu caso y las mejoras que lograstes.

Gabriel Obregón

student•

🧠Evaluar de Forma Fiable las Respuestas de un LLM

🎯 Objetivo

Automatizar sin errores midiendo la calidad de las respuestas de un modelo de lenguaje (LLM) con 4 criterios clave:

🔹 Consistencia

🔹 Precisión

🔹 Relevancia

🔹 Claridad

🧩 1. Decide el Tipo de Evaluación

⚖️ Dos enfoques principales:

1️⃣ Criterios propios → tú defines cómo medir la calidad.

2️⃣ Un LLM evalúa a otro LLM → solo si tienes criterios claros y objetivos definidos.

🧠 ¿Qué tipo de tarea tienes?

🔸 Tarea única → Ejemplo: consultar una ley.

🔸 Tarea recurrente → Ejemplo: redactar asuntos de correos semanales.

👉 En tareas recurrentes, la estabilidad del prompt es lo más importante.

✅ Recomendaciones

🕵️ Tareas únicas: validación puntual + revisión humana.
🔁 Tareas recurrentes: diseño sólido + pruebas repetidas + monitoreo continuo.

⚙️ 2. Los 4 Criterios para Evaluar un Prompt

🧭 A. CONSISTENCIA

📌 Prueba el prompt 10 veces con distintos contenidos.

📊 Evalúa si cubre todos los casos de uso.

🎯 Meta: alcanzar 10/10 antes de automatizar.

⚠️ Valida manualmente los resultados.

💡 Más consistencia = menos retrabajo.

🎯 B. PRECISIÓN

🔹 Secundaria en tareas creativas (cuentos, ideas).

🔹 Crítica en análisis de contenido, reportes o extracción de datos. 🧪 Cada modificación del prompt → probar con 10 ejemplos diferentes. 🔄 Confirmar consistencia antes de automatizar.

💡 La precisión define la confiabilidad.

🔍 C. RELEVANCIA

📌 El modelo debe enfocarse solo en lo pedido. 🚫 Evitar información irrelevante o divagaciones. 🔁 Repite la prueba 10 veces y revisa que responda al punto exacto.

💡 Evalúa si el modelo “va al grano”.

🗣️ D. CLARIDAD

📏 Respeta límites: longitud, tono, estilo y formato. 🧾 Comprueba que mantenga coherencia visual y textual. 🕒 Revisa el prompt cada semana.

⚠️ Los modelos cambian sin avisar (GPT-4, GPT-5, Opus, Sonnet…) 👀 Tu tarea: vigilar, ajustar y mantener el control.

🔄 3. Validación Cruzada entre Modelos (Gemini + ChatGPT)

💡 Objetivo: Reducir errores y alucinaciones comparando respuestas entre LLMs.

🧱 Ejemplo práctico: búsqueda legal

Tema: Custodia de la información en la Ley de Instituciones de Crédito.

🔹 Paso 1: En Gemini

📂 Carga los documentos.

⚖️ Indica que actúe como asistente legal.

📜 Pide que responda solo con base en los archivos adjuntos.

❌ Si no tiene datos, debe avisar. → Gemini responde: “No encuentra información”.

🔹 Paso 2: En ChatGPT

📥 Sube los mismos documentos.

✍️ Reformula sin ambigüedad:

“¿Existe alguna ley sobre custodia de la información?” ✅ ChatGPT confirma que sí y ubica la normativa. 📑 Ofrece extraer los artículos relevantes.

🔹 Paso 3: Vuelta a Gemini

📋 Pega la respuesta de ChatGPT.

📖 Pide que verifique la información comparándola con los artículos 124 y 79.

🔍 Gemini confirma que la información es correcta.

💬 Beneficios de la Validación Cruzada

✨ No depende de palabras literales.

🚨 Detecta alucinaciones o errores.

⏱️ Ahorra tiempo de lectura.

🧰 Complementa (no reemplaza) técnicas de prompting restrictivas.

David Santiago González Ramos

student•

Hace poco encontré una herramienta para evaluar y comparar dos llms. Da la opción de elegir varios modelos y compararlos uno al lado del otro. Lo comparto para que lo prueben:

Paola Sánchez

student•

gracias, muy buena herramienta

Mateo Montoya Henao

student•

✨ Resumen Visual de la Clase: Evaluación y Validación de Respuestas de LLM ✨

1. La Idea Central (El Core 💡): Evaluar respuestas de LLMs es crucial para garantizar la precisión y relevancia de la información generada.

2. Puntos Clave (En viñetas 📌):

Consistencia: Probar un prompt 10 veces para asegurar resultados fiables y repetibles.
Precisión: La exactitud es esencial, especialmente en análisis y reportes.
Relevancia: Verificar que el contenido generado se mantenga alineado con la solicitud.
Claridad: Asegurar que el formato y tono del resultado cumplan con las expectativas.

3. El Ejemplo o Dato Crucial 🚀: La evaluación sistemática de prompts permite automatizar tareas, asegurando la calidad de las salidas generadas por la IA.

4. Conexión o Siguiente Paso 🔗: Este conocimiento es fundamental para implementar flujos de trabajo automatizados, mejorando la eficiencia en proyectos profesionales.

ANDREA CANARIA PEÑA

student•

Modelos prompts desde un enfoque analítico lo subdivido en:

Consistencia: si ambos coinciden en los hechos y la interpretación de la pregunta.
Estilo y claridad: qué tan bien cada modelo organiza la información, estructura la argumentación y facilita la comprensión.
Cobertura y relevancia: si uno agrega detalles útiles que el otro omite, o si alguno se desvía del enfoque central.
Sesgos y limitaciones: cada modelo puede priorizar diferentes perspectivas, así que compararlos ayuda a detectar posibles omisiones o distorsiones.

Además, este contraste funciona como un mini “control de calidad cognitivo”, donde la comparación entre modelos te da un nivel extra de confianza antes de usar la información en decisiones o presentaciones.

Si quieres, puedo explicarte una forma práctica de estructurar este contraste para que saque el máximo provecho en el trabajo.

Miguel Andrés Ramírez Marinez

student•

Hola, ¿Podrías explicarme?

ANDREA CANARIA PEÑA

student•

Puedes enlistar todo el criterio inicial

Criterio
Consistencia
Estilo y claridad
Cobertura y relevancia
Sesgos y limitaciones

sacando un modelo por lista de cada criterio y por qué cual es el objetivo en mi caso una norma y cual es el alcance para que con esos modelo se apliquen en la empresa el mejor

Kevin Fiorentino

student•

Es muy buena práctica hacer una análisis con dos LLM distintos, con distintos contextos, usar uno para analizar y el segundo para evaluar. Nos aseguramos un poco más de que sus respuestas sean acertadas.

Catherine Argüello Castro

student•

Buen punto, además que podemos tener dos perspectivas diferentes.

Gonzalo Peñaranda

student•

Es una mecánica muy interesante: contrastar la información entre dos LLMs distintos.

Dependiendo de cómo esté configurado cada uno, en el modelo que tengan seleccionado, además de las instrucciones del prompt, rol, limitaciones y formato, vale la pena ver cómo lo analiza y cómo elabora la respuesta para ver qué tan consistente, relevante y claro es.

Excelente ejemplo!

Daniel Carvajal Correa

student•

Hola, en el examen hay una pregunta: Un equipo de marketing usa un LLM para generar resúmenes de 50 palabras para sus informes semanales de redes sociales, pero las respuestas a menudo superan las 100 palabras y usan un tono demasiado informal. Según los criterios de evaluación presentados, ¿cuál es el principal criterio que no se está cumpliendo?

Quisiera saber cual es la respuesta correcta porque me marco dos veces erronea y en mi caso yo creo que la respuesta correcta es consistencia y/o despues seria us precision. Porque segun el contexto entiendo que en algunos casos si ha dado respuestas correctas el LLM

Oscar Saul Martinez Rivas

student•

tengo exactamente la misma pregunta.

Evaluación y validación de respuestas de LLM con criterios precisos

Fundamentos prácticos de la IA generativa

Cómo estructurar prompts efectivos con rol, enfoque, límites y contexto

Creación de prompts efectivos para análisis de documentos con IA

Cómo interpretan los LLM el significado de las palabras

Cómo definir roles efectivos en prompts de IA

Estructurando instrucciones claras y efectivas

Comparación práctica de ChatGPT, Claude, Gemini y Microsoft Copilot

Técnicas zero shot y few shot para prompts efectivos

Estructura de prompts con etiquetas XML para IA

Manejo de contexto extenso y datos

Ventana de contexto y modelo de atención en LLMs

Técnicas de grounding para consultas legales con LLMs

Cadena de pensamiento y verificación con múltiples métodos en LLMs

Tecnicas de razonamiento para tareas complejas

Modelos de razonamiento de ChatGPT y cadenas de pensamiento

Prompt chaining: dividir tareas complejas en pasos independientes

Creación de agentes personalizados con IA para empresas

Configuración de temperatura y Top-P en Google AI Studio

Aplicaciones y automatización profesional

Creación de prompts detallados para generación de imágenes con IA

Análisis de datos de e-commerce con ChatGPT