Chain of Thought y Self-Consistency en LLMs

Resumen

¿Cuánto pagarías por tres camisetas de $25 con un 20% de descuento? Esa pregunta sencilla abre la puerta a dos técnicas clave de prompt engineering: chain of thought y self-consistency, dos formas de guiar el razonamiento de un LLM para reducir alucinaciones y obtener respuestas más confiables.

¿Qué es chain of thought en un LLM?

Cuando resuelves un problema en voz alta, dices el paso a paso que ocurre en tu cabeza. Eso mismo es chain of thought o cadena de pensamiento aplicado a modelos de lenguaje: pedirle al LLM que verbalice cada paso antes de dar el resultado.

Si yo calculo las camisetas, mi cadena suena así: el 20% de 25 son 5 dólares, 25 menos 5 son 20, y 20 por 3 da 60 dólares. Cada operación queda visible y auditable.

¿Qué es chain of thought? Es una técnica que pide al LLM mostrar el paso a paso de su razonamiento antes de entregar la respuesta final, lo que permite detectar errores y mejorar la precisión.

Hace un par de años, para activar este comportamiento había que escribir literalmente piensa paso a paso dentro del prompt. Hoy los modelos lo hacen casi por defecto, y los llamados modelos de razonamiento son simplemente versiones que dedican más tiempo a esa cadena interna antes de responder.

¿Cómo aplico chain of thought en Copilot?

Abre un nuevo chat en Microsoft Copilot y escribe: ¿Cuánto pagarías por tres camisas de $25 cada una con un 20% de descuento? [01:55].

A veces el modelo responde directo 60 dólares. Si pasa eso, agrega piensa paso a paso y forzarás la verbalización. En la prueba, Copilot devolvió este camino: precio sin descuento $75, descuento del 20% igual a $15, precio final $60. Un camino distinto al mío, mismo resultado.

¿Cómo funciona self-consistency en prompts?

La segunda técnica se llama self-consistency y consiste en pedirle al LLM que resuelva el mismo problema por varios caminos distintos, para luego comparar los resultados y elegir el más común o validar que todos coincidan [02:48].

En un nuevo chat, modifica el prompt así: ¿Cuánto pagarías por tres camisas de $25 cada una con 20% de descuento? Dame tres métodos para calcular esto.

Copilot devuelve tres cadenas de pensamiento distintas:

  • Método 1, descuento sobre el precio final: 3 por 25 da $75, el 20% de 75 son $15, resultado $60.
  • Método 2, precio unitario con descuento: 25 menos el 20% de 25 da $20, por 3 igual a $60.
  • Método 3, multiplicación por el porcentaje restante: 100% menos 20% es 0.8, entonces 75 por 0.8 da $60.

Los tres caminos llegan al mismo número. Y aquí viene lo interesante: si uno de los métodos hubiera arrojado un resultado distinto, tendrías una señal clara de que algo se alucinó, y podrías revisar cuál cadena tiene el error o quedarte con la respuesta mayoritaria.

¿Para qué sirve self-consistency? Sirve para validar respuestas pidiendo varios métodos de solución; si todos coinciden, ganas confianza, y si difieren, detectas alucinaciones o errores de cálculo.

¿Cuándo conviene pedir varios métodos?

No todos los problemas necesitan tres caminos. Pero hay escenarios donde vale la pena:

  • Cálculos matemáticos o financieros donde un error de coma cambia todo.
  • Interpretaciones legales o normativas con múltiples ángulos válidos.
  • Decisiones donde quieres ver el razonamiento desde distintas perspectivas.

En problemas matemáticos como el de las camisetas, el resultado debería ser idéntico en todos los métodos. En temas más interpretativos, la diversidad de caminos te da matices en vez de una sola respuesta.

¿Cómo evito alucinaciones con estas dos técnicas?

Combinar chain of thought y self-consistency te da una defensa doble. Primero, obligas al modelo a mostrar su trabajo. Segundo, lo obligas a contrastarse a sí mismo con caminos alternativos.

Esto no elimina del todo las alucinaciones, pero las hace mucho más fáciles de detectar, porque cualquier inconsistencia entre métodos salta a la vista. En lugar de confiar ciegamente en una salida, tienes evidencia auditada por el propio modelo.

Ahora te toca a ti: retoma el ejemplo de la clase anterior sobre las leyes del sistema bancario, formula una pregunta y pídele al LLM tres métodos para llegar a la respuesta usando self-consistency. Cuéntame en los comentarios qué caminos te entregó y si todos llegaron a la misma conclusión.