Ventana de contexto y modelo de atención en LLMs

Clase 8 de 18 • Curso de Prompt Engineering

Resumen

¿Te ha pasado que lees un informe largo y olvidas datos clave del inicio? A los modelos de lenguaje les ocurre algo similar. La ventana de contexto limita cuánta información puede procesar un LLM a la vez, y el modelo de atención decide a qué partes darle prioridad. Entender estos dos conceptos es clave para reducir alucinaciones, evitar que olviden instrucciones y mejorar la calidad de sus respuestas.

¿Qué es la ventana de contexto y por qué importa en un LLM?

La ventana de contexto es toda la información que el modelo tiene “sobre la mesa” al responder: tu prompt inicial, cada mensaje posterior y los archivos que subes. Todo suma. Por eso, un chat largo o muchos documentos pueden saturarla.

Toda la conversación forma parte del prompt. No es un mensaje aislado, es el historial completo.
Subir archivos amplía el contexto. Reportes largos suman miles de unidades de información.
Token es la unidad con la que el LLM “corta” el texto. No equivale exacto a palabras: depende del idioma y signos (por ejemplo, «¿ ?» en español puede contar distinto).
Las ventanas tienen límites. Ejemplo: ChatGPT ~128 000 tokens (aprox. trescientas páginas). Con más datos, aparece el reto de la aguja en un pajar: encontrar lo relevante entre muchísimo contenido.
Cuando el contexto se desborda, aumenta el riesgo de alucinaciones u olvidos de detalles importantes.

¿Cómo funciona la atención y qué pasa con contextos gigantes?

El modelo de atención asigna peso a partes del prompt para entender intención y significado. Por eso puede redactar, resumir o seguir instrucciones mejor que un teclado predictivo; no busca solo la “siguiente palabra probable”, sino el sentido general.

Lo más reciente pesa más: el modelo prioriza lo último del prompt.
Ventanas masivas ayudan, pero no son bala de plata. Gemini tiene ~un millón de tokens (más de ciento veinte mil páginas) y puede indexar documentos muy grandes.
Desde ~128 000 tokens, la eficiencia se degrada: crecen los errores, confusiones y olvidos.
Cambios de rol en un mismo chat pueden confundir la atención: de researcher a social media manager, el modelo podría mezclar instrucciones o responder con el “rol anterior”.
Instrucciones largas tienden a diluirse: aunque pidas “resúmenes de 500 palabras, concisos y accionables”, el modelo puede volver a estilos largos o poéticos.

En la práctica, esto implica desarrollar habilidades como priorizar contexto, diseñar prompts claros, mantener consistencia de rol y detectar contradicciones cuando el modelo pierde el hilo.

¿Cómo optimizar la ventana de contexto y reducir errores?

Para mantener precisión y consistencia, conviene “ordenar la mesa” del modelo. Imagina que los tokens son páginas visibles en tu escritorio: si solo caben diez y metes veinte, algo importante quedará fuera.

Repite lo esencial al final del prompt. Coloca objetivos, criterios y formato deseado justo antes de la nueva tarea.
Resalta instrucciones críticas con recursos del idioma: mayúsculas, repetición estratégica y signos de exclamación. El modelo los interpreta como señales de prioridad.
Formula preguntas y busca contradicciones. Si pides un reporte por departamentos y solo aparecen tres, señala la omisión para forzar reatención.
Reinicia en un chat limpio cuando notes confusión. Copia lo que sí sirve y empieza con instrucciones claras y acotadas.
Limita el contexto a lo necesario. Evita caer en la aguja en un pajar por incluir datos irrelevantes.
Mantén un solo rol por conversación o recuerda explícitamente el rol actual antes de cada tarea.
Estandariza formatos de salida: longitud, tono, puntos clave y criterios de evaluación en cada prompt.

Así fortaleces habilidades de curaduría de información, diseño de prompts, control de roles, verificación y evaluación, logrando respuestas más fiables con ventanas de contexto grandes o pequeñas.

¿Tienes técnicas para mantener al modelo enfocado y sin alucinar en contextos largos? Comparte tu experiencia y ejemplos en los comentarios.