Resolver un problema de matemáticas básico puede parecer trivial, pero la forma en que verbalizas cada paso revela algo poderoso sobre cómo funcionan los modelos de lenguaje. Entender la cadena de pensamiento y la autoconsistencia te da herramientas concretas para obtener mejores respuestas y detectar errores cuando trabajas con cualquier LLM.
¿Qué es la cadena de pensamiento en un LLM?
Imagina que alguien te pregunta cuánto cuestan tres camisetas de $25 con un 20 % de descuento. Tu mente ejecuta pasos: calculas el descuento, lo restas al precio y multiplicas por la cantidad. Cuando expresas con palabras ese proceso, estás verbalizando tu cadena de pensamiento [0:12].
Esto mismo aplica a los modelos de lenguaje. El concepto de chain of thought [1:02] consiste en que el LLM no solo entregue un resultado final, sino que muestre el paso a paso que siguió para llegar a él. Hace algunos años era necesario incluir la instrucción explícita "piensa paso a paso" en el prompt para activar este comportamiento [1:15]. Hoy en día, prácticamente todos los modelos razonan de forma nativa; la diferencia entre un modelo rápido y uno más sofisticado radica en cuánto tiempo dedican a razonar antes de responder [1:35].
¿Cómo se ve en la práctica?
Al enviar el prompt "¿cuánto pagarías por tres camisas de $25 cada una con un 20 % de descuento?" en Microsoft Copilot, el modelo puede responder directamente $60 o desglosar su proceso [2:19]:
- Multiplica el precio unitario por la cantidad: $25 × 3 = $75.
- Calcula el 20 % de descuento sobre $75: $15.
- Resta el descuento al total: $75 − $15 = $60.
Este camino es distinto al que podrías seguir tú —calcular primero el descuento por unidad y luego multiplicar— pero ambos llegan al mismo resultado. Esa transparencia es lo valioso: puedes verificar cada paso en lugar de confiar ciegamente en la respuesta.
¿Qué es self-consistency y por qué reduce alucinaciones?
La técnica de self-consistency [1:55] lleva la cadena de pensamiento un paso más allá. En lugar de pedir una sola ruta de solución, le solicitas al modelo múltiples métodos para resolver el mismo problema y luego comparas los resultados.
¿Cómo aplicar self-consistency con un prompt simple?
Basta con agregar una instrucción al final del prompt: "Dame tres métodos para calcular esto" [3:08]. El modelo responde con tres cadenas de pensamiento independientes:
- Método 1: descuento sobre el precio total. $25 × 3 = $75, descuento de $15, total $60.
- Método 2: precio unitario con descuento. $25 − $5 = $20, luego $20 × 3 = $60.
- Método 3: multiplicación por el porcentaje restante. 100 % − 20 % = 80 % → $75 × 0.8 = $60 [3:30].
Cuando los tres métodos convergen en el mismo número, la confianza en la respuesta aumenta considerablemente. Si uno de ellos arrojara un resultado diferente, tendrías una señal clara para investigar dónde ocurrió el error [4:10]. También podrías optar por quedarte con la respuesta más frecuente entre todos los caminos.
¿Cómo aplicar estas técnicas más allá de las matemáticas?
Aunque el ejemplo usa una operación aritmética, estas estrategias funcionan en cualquier dominio. Pedir que el modelo explique su razonamiento y que ofrezca varias rutas de solución es especialmente útil en contextos donde las alucinaciones representan un riesgo real, como preguntas legales, normativas o técnicas [4:30].
Dos acciones concretas que puedes incorporar desde ahora:
- Solicita siempre que el modelo verbalice su proceso antes de dar una respuesta final.
- Pide múltiples métodos y compara resultados para validar la coherencia.
Prueba aplicar self-consistency con un tema que te interese —por ejemplo, una consulta sobre regulación bancaria— y comparte en los comentarios los distintos métodos que obtuvo el modelo y si todos llegaron al mismo resultado.