Ventana de contexto en LLMs y sus límites

Resumen

Cuando un modelo de lenguaje recibe demasiada información, le pasa lo mismo que a ti leyendo un informe de 50 páginas: olvida lo que estaba al inicio. Ese límite se llama ventana de contexto y entender cómo funciona te ayuda a obtener mejores respuestas de ChatGPT, Gemini o Claude sin caer en alucinaciones.

Qué es la ventana de contexto en un LLM

La ventana de contexto define cuánta información puede procesar un modelo de lenguaje en una sola interacción [01:05]. No es solo el último mensaje que escribes: es toda la conversación acumulada más cualquier archivo que hayas subido.

Aquí entra en juego el modelo de atención, el mecanismo que diferencia a un LLM del teclado predictivo de WhatsApp. Mientras el teclado solo predice la siguiente palabra después de “hola”, el modelo de atención pondera la importancia de cada palabra del prompt para entender intención y significado [01:30].

Eso significa que cuando inicias un chat, envías un mensaje, recibes respuesta y escribes uno nuevo, ese segundo mensaje no es independiente. Toda la conversación es el prompt, y crece con cada turno.

¿Qué es la ventana de contexto? Es la cantidad total de información (mensajes, archivos, instrucciones) que un LLM puede procesar al mismo tiempo. Se mide en tokens y se llena tanto al alargar un chat como al subir documentos.

Cómo se miden los tokens y por qué importan

Los tokens son la unidad con la que el LLM interpreta tu prompt [03:20]. No equivalen exactamente a palabras. El modelo funciona como un cocinero que sabe dónde cortar cada ingrediente: durante su entrenamiento aprende a segmentar el lenguaje capturando sutilezas.

Un ejemplo claro: en español, los signos de apertura (¿) y cierre (?) marcan dónde empieza y termina una pregunta, y el modelo los toma como tokens distintos porque cargan significado.

Los límites concretos varían entre modelos:

  • ChatGPT: 128.000 tokens, aproximadamente 300 páginas de un libro.
  • Gemini: 1.000.000 de tokens, equivalente a más de 120.000 páginas [04:50].
  • Documentos largos: pueden subirse aunque excedan la ventana, pero aparece el problema de la aguja en el pajar.

Tener más capacidad ayuda, pero no resuelve todo.

Por qué falla un LLM con contextos muy largos

El problema de la aguja en el pajar ocurre cuando hay tanta información que el modelo debe rastrear un dato puntual entre miles de páginas [04:20]. La probabilidad de alucinaciones sube y la atención se diluye.

Qué pasa cuando la ventana de contexto se llena

Incluso modelos con ventanas enormes degradan su eficiencia después de los 128.000 tokens. Estos son los tres errores más comunes:

  • Alucinar u olvidar información del documento que estás analizando.
  • Confundir tareas o roles: si primero le pides actuar como researcher sobre calentamiento global y luego como social media manager, puede mezclar ambos roles [06:10].
  • Olvidar instrucciones iniciales: pediste resúmenes de 500 palabras, pragmáticos y accionables, y de repente vuelve a respuestas largas y poéticas.

¿Por qué un LLM olvida instrucciones en chats largos? Porque el modelo de atención prioriza lo último del prompt. A medida que la conversación crece, las instrucciones iniciales pierden peso frente a los mensajes recientes.

Cómo afecta esto a tus resultados

La consecuencia práctica es que pides un reporte sobre cinco departamentos y solo recibes tres. Esa contradicción es la señal de que la ventana de contexto ya no se está controlando bien.

Cómo optimizar la ventana de contexto y evitar alucinaciones

Hay tres técnicas concretas para mitigar estos problemas, todas basadas en cómo funciona el modelo de atención.

Recordar lo importante al final del prompt

El LLM siempre da más peso a lo último que aparece en el prompt [07:30]. Si tu chat ya es largo, repite los factores clave justo antes de pedir la nueva tarea. Eso los coloca al final de la ventana de contexto y los prioriza.

Usar señales que tu idioma reconoce

Si algo significa algo en tu idioma, también significa algo para el LLM. Estas son las señales más útiles:

  • Mayúsculas para enfatizar instrucciones críticas.
  • Repetición de información clave en distintos puntos.
  • Signos de exclamación para marcar urgencia o relevancia.

Después de aplicar estas señales, el modelo de atención asigna más cuidado a esas instrucciones.

Detectar contradicciones y empezar un chat limpio

Haz preguntas de verificación. Si pediste un análisis por departamento y faltan algunos, es momento de actuar. Lleva la información útil hasta ese punto a un nuevo chat con una ventana de contexto limpia y retoma la tarea desde ahí [08:40].

Cómo decidir qué información subir a un LLM

La regla es simple: ingresa solo lo necesario para resolver el problema. Información de más activa el problema de la aguja en el pajar y aumenta la probabilidad de alucinaciones.

Piensa en la ventana de contexto como un escritorio y en los tokens como las páginas visibles encima [09:30]. Si tu escritorio cabe 10 hojas y pones 20, ¿cómo priorizas cuáles ver? Lo mismo le pasa al modelo.

Tu trabajo es elegir las páginas correctas, mantener el escritorio ordenado y reconocer cuándo conviene reorganizarlo en una ventana nueva. ¿Has notado en qué punto tus chats empiezan a perder precisión? Cuéntalo en los comentarios.