Ventana de contexto y modelo de atención en LLMs

Clase 8 de 18Curso de Prompt Engineering

Resumen

¿Te ha pasado que lees un informe largo y olvidas datos clave del inicio? A los modelos de lenguaje les ocurre algo similar. La ventana de contexto limita cuánta información puede procesar un LLM a la vez, y el modelo de atención decide a qué partes darle prioridad. Entender estos dos conceptos es clave para reducir alucinaciones, evitar que olviden instrucciones y mejorar la calidad de sus respuestas.

¿Qué es la ventana de contexto y por qué importa en un LLM?

La ventana de contexto es toda la información que el modelo tiene “sobre la mesa” al responder: tu prompt inicial, cada mensaje posterior y los archivos que subes. Todo suma. Por eso, un chat largo o muchos documentos pueden saturarla.

  • Toda la conversación forma parte del prompt. No es un mensaje aislado, es el historial completo.
  • Subir archivos amplía el contexto. Reportes largos suman miles de unidades de información.
  • Token es la unidad con la que el LLM “corta” el texto. No equivale exacto a palabras: depende del idioma y signos (por ejemplo, «¿ ?» en español puede contar distinto).
  • Las ventanas tienen límites. Ejemplo: ChatGPT ~128 000 tokens (aprox. trescientas páginas). Con más datos, aparece el reto de la aguja en un pajar: encontrar lo relevante entre muchísimo contenido.
  • Cuando el contexto se desborda, aumenta el riesgo de alucinaciones u olvidos de detalles importantes.

¿Cómo funciona la atención y qué pasa con contextos gigantes?

El modelo de atención asigna peso a partes del prompt para entender intención y significado. Por eso puede redactar, resumir o seguir instrucciones mejor que un teclado predictivo; no busca solo la “siguiente palabra probable”, sino el sentido general.

  • Lo más reciente pesa más: el modelo prioriza lo último del prompt.
  • Ventanas masivas ayudan, pero no son bala de plata. Gemini tiene ~un millón de tokens (más de ciento veinte mil páginas) y puede indexar documentos muy grandes.
  • Desde ~128 000 tokens, la eficiencia se degrada: crecen los errores, confusiones y olvidos.
  • Cambios de rol en un mismo chat pueden confundir la atención: de researcher a social media manager, el modelo podría mezclar instrucciones o responder con el “rol anterior”.
  • Instrucciones largas tienden a diluirse: aunque pidas “resúmenes de 500 palabras, concisos y accionables”, el modelo puede volver a estilos largos o poéticos.

En la práctica, esto implica desarrollar habilidades como priorizar contexto, diseñar prompts claros, mantener consistencia de rol y detectar contradicciones cuando el modelo pierde el hilo.

¿Cómo optimizar la ventana de contexto y reducir errores?

Para mantener precisión y consistencia, conviene “ordenar la mesa” del modelo. Imagina que los tokens son páginas visibles en tu escritorio: si solo caben diez y metes veinte, algo importante quedará fuera.

  • Repite lo esencial al final del prompt. Coloca objetivos, criterios y formato deseado justo antes de la nueva tarea.
  • Resalta instrucciones críticas con recursos del idioma: mayúsculas, repetición estratégica y signos de exclamación. El modelo los interpreta como señales de prioridad.
  • Formula preguntas y busca contradicciones. Si pides un reporte por departamentos y solo aparecen tres, señala la omisión para forzar reatención.
  • Reinicia en un chat limpio cuando notes confusión. Copia lo que sí sirve y empieza con instrucciones claras y acotadas.
  • Limita el contexto a lo necesario. Evita caer en la aguja en un pajar por incluir datos irrelevantes.
  • Mantén un solo rol por conversación o recuerda explícitamente el rol actual antes de cada tarea.
  • Estandariza formatos de salida: longitud, tono, puntos clave y criterios de evaluación en cada prompt.

Así fortaleces habilidades de curaduría de información, diseño de prompts, control de roles, verificación y evaluación, logrando respuestas más fiables con ventanas de contexto grandes o pequeñas.

¿Tienes técnicas para mantener al modelo enfocado y sin alucinar en contextos largos? Comparte tu experiencia y ejemplos en los comentarios.