Cadena de pensamiento y verificación con múltiples métodos en LLMs

Clase 10 de 18Curso de Prompt Engineering

Resumen

Domina cómo obtener respuestas claras y fiables de LLMs usando la cadena de pensamiento y la técnica self consistency. Con prompts simples en Microsoft Copilot, puedes pedir el paso a paso, comparar varios métodos y elegir el resultado más consistente, reduciendo alucinaciones.

¿Qué es la cadena de pensamiento en LLMs?

La cadena de pensamiento (en inglés, chain of thought) es el paso a paso que sigue un modelo para resolver un problema. Puedes pedirla explícitamente y el modelo te mostrará su razonamiento.

  • Ejemplo práctico: tres camisas de 25 dólares con 20 % de descuento.
  • Cálculo unitario: 20 % de 25 es 5; 25 − 5 = 20; 3 × 20 = 60 dólares.
  • El modelo puede describir esta secuencia si le pides: Piensa paso a paso.
  • Diferencia entre modelos: los modelos “rápidos” y los “pro” se distinguen por cuánto tiempo tienen para razonar, no por si razonan o no.

¿Cómo se activa con “piensa paso a paso”?

Incluye en el prompt la instrucción: Piensa paso a paso. El LLM primero listará los pasos y luego ejecutará el cálculo. A veces lo hará sin pedirlo; otras, tendrás que solicitarlo para ver la lógica intermedia.

¿Por qué el mismo problema admite varios caminos?

Un LLM puede llegar al mismo resultado usando distintas cadenas de pensamiento. Esto enriquece la verificación: si los métodos convergen, aumentas la confianza en la respuesta.

¿Cómo aplicar self consistency para respuestas confiables?

La técnica self consistency pide al LLM múltiples métodos para resolver el mismo problema y compara sus resultados. Si divergen, revisas los pasos; si coinciden, eliges el resultado más común.

  • Beneficios clave: detectar errores, disminuir alucinaciones, aumentar fiabilidad.
  • Estrategia: solicitar 3 métodos, revisar el paso a paso, seleccionar el resultado consistente.

¿Qué prompt usar en Microsoft Copilot?

  • Pregunta base: ¿Cuánto pagarías por tres camisas de veinticinco dólares cada una con un 20 % de descuento?
  • Para ver el razonamiento: Piensa paso a paso.
  • Para consistencia: Dame tres métodos para calcular esto.

¿Qué métodos ilustran la consistencia?

  • Método 1: total sin descuento. 3 × 25 = 75; 20 % de 75 = 15; 75 − 15 = 60 dólares.
  • Método 2: precio unitario con descuento. 20 % de 25 = 5; 25 − 5 = 20; 3 × 20 = 60 dólares.
  • Método 3: porcentaje restante. 100 % − 20 % = 80 % = 0.8; 75 × 0.8 = 60 dólares.

¿Cómo practicar y qué seguir?

Aplica estas dos técnicas combinadas: 1) pide el paso a paso y 2) solicita múltiples métodos. Úsalas también fuera de matemáticas, especialmente cuando necesites verificar que el razonamiento no “se inventa” nada irrelevante.

¿Qué ejercicio puedes probar ahora?

Retoma el tema de las leyes del sistema bancario del ejemplo anterior y formula una pregunta pidiendo tres métodos para llegar a la respuesta. Observa las diferencias de razonamiento y qué resultado predomina.

¿Ya probaste estos prompts en Microsoft Copilot? Comenta qué métodos obtuviste y cuál fue el más consistente.