Ventana de contexto en LLMs y sus límites

Curso de Prompt Engineering

Contenido del curso

Fundamentos prácticos de la IA generativa

Estructurando instrucciones claras y efectivas

Manejo de contexto extenso y datos

Tecnicas de razonamiento para tareas complejas

Aplicaciones y automatización profesional

Tomar examen

Ventana de contexto en LLMs y sus límites

Resumen

Cuando un modelo de lenguaje recibe demasiada información, le pasa lo mismo que a ti leyendo un informe de 50 páginas: olvida lo que estaba al inicio. Ese límite se llama ventana de contexto y entender cómo funciona te ayuda a obtener mejores respuestas de ChatGPT, Gemini o Claude sin caer en alucinaciones.

Qué es la ventana de contexto en un LLM

La ventana de contexto define cuánta información puede procesar un modelo de lenguaje en una sola interacción [01:05]. No es solo el último mensaje que escribes: es toda la conversación acumulada más cualquier archivo que hayas subido.

Aquí entra en juego el modelo de atención, el mecanismo que diferencia a un LLM del teclado predictivo de WhatsApp. Mientras el teclado solo predice la siguiente palabra después de “hola”, el modelo de atención pondera la importancia de cada palabra del prompt para entender intención y significado [01:30].

Eso significa que cuando inicias un chat, envías un mensaje, recibes respuesta y escribes uno nuevo, ese segundo mensaje no es independiente. Toda la conversación es el prompt, y crece con cada turno.

¿Qué es la ventana de contexto? Es la cantidad total de información (mensajes, archivos, instrucciones) que un LLM puede procesar al mismo tiempo. Se mide en tokens y se llena tanto al alargar un chat como al subir documentos.

Cómo se miden los tokens y por qué importan

Los tokens son la unidad con la que el LLM interpreta tu prompt [03:20]. No equivalen exactamente a palabras. El modelo funciona como un cocinero que sabe dónde cortar cada ingrediente: durante su entrenamiento aprende a segmentar el lenguaje capturando sutilezas.

Un ejemplo claro: en español, los signos de apertura (¿) y cierre (?) marcan dónde empieza y termina una pregunta, y el modelo los toma como tokens distintos porque cargan significado.

Los límites concretos varían entre modelos:

ChatGPT: 128.000 tokens, aproximadamente 300 páginas de un libro.
Gemini: 1.000.000 de tokens, equivalente a más de 120.000 páginas [04:50].
Documentos largos: pueden subirse aunque excedan la ventana, pero aparece el problema de la aguja en el pajar.

Tener más capacidad ayuda, pero no resuelve todo.

Por qué falla un LLM con contextos muy largos

El problema de la aguja en el pajar ocurre cuando hay tanta información que el modelo debe rastrear un dato puntual entre miles de páginas [04:20]. La probabilidad de alucinaciones sube y la atención se diluye.

Qué pasa cuando la ventana de contexto se llena

Incluso modelos con ventanas enormes degradan su eficiencia después de los 128.000 tokens. Estos son los tres errores más comunes:

Alucinar u olvidar información del documento que estás analizando.
Confundir tareas o roles: si primero le pides actuar como researcher sobre calentamiento global y luego como social media manager, puede mezclar ambos roles [06:10].
Olvidar instrucciones iniciales: pediste resúmenes de 500 palabras, pragmáticos y accionables, y de repente vuelve a respuestas largas y poéticas.

¿Por qué un LLM olvida instrucciones en chats largos? Porque el modelo de atención prioriza lo último del prompt. A medida que la conversación crece, las instrucciones iniciales pierden peso frente a los mensajes recientes.

Cómo afecta esto a tus resultados

La consecuencia práctica es que pides un reporte sobre cinco departamentos y solo recibes tres. Esa contradicción es la señal de que la ventana de contexto ya no se está controlando bien.

Cómo optimizar la ventana de contexto y evitar alucinaciones

Hay tres técnicas concretas para mitigar estos problemas, todas basadas en cómo funciona el modelo de atención.

Recordar lo importante al final del prompt

El LLM siempre da más peso a lo último que aparece en el prompt [07:30]. Si tu chat ya es largo, repite los factores clave justo antes de pedir la nueva tarea. Eso los coloca al final de la ventana de contexto y los prioriza.

Usar señales que tu idioma reconoce

Si algo significa algo en tu idioma, también significa algo para el LLM. Estas son las señales más útiles:

Mayúsculas para enfatizar instrucciones críticas.
Repetición de información clave en distintos puntos.
Signos de exclamación para marcar urgencia o relevancia.

Después de aplicar estas señales, el modelo de atención asigna más cuidado a esas instrucciones.

Detectar contradicciones y empezar un chat limpio

Haz preguntas de verificación. Si pediste un análisis por departamento y faltan algunos, es momento de actuar. Lleva la información útil hasta ese punto a un nuevo chat con una ventana de contexto limpia y retoma la tarea desde ahí [08:40].

Cómo decidir qué información subir a un LLM

La regla es simple: ingresa solo lo necesario para resolver el problema. Información de más activa el problema de la aguja en el pajar y aumenta la probabilidad de alucinaciones.

Piensa en la ventana de contexto como un escritorio y en los tokens como las páginas visibles encima [09:30]. Si tu escritorio cabe 10 hojas y pones 20, ¿cómo priorizas cuáles ver? Lo mismo le pasa al modelo.

Tu trabajo es elegir las páginas correctas, mantener el escritorio ordenado y reconocer cuándo conviene reorganizarlo en una ventana nueva. ¿Has notado en qué punto tus chats empiezan a perder precisión? Cuéntalo en los comentarios.

Daniel Alfredo García Serna

Estudiante

📚 CLASE: Ventana de contexto y tokens en LLMs

━━━━━━━━━━━━━━━━━━

🎯 IDEA PRINCIPAL

El modelo no recuerda todo igual. Tiene un límite de lo que puede "ver" a la vez y prioriza lo más reciente. Cuando ese espacio se satura, aparecen olvidos, confusiones y alucinaciones, aunque tú hayas dado toda la información necesaria. Entender este mecanismo te permite gestionar tus conversaciones con IA de forma más inteligente y obtener resultados más confiables.

━━━━━━━━━━━━━━━━━━

⚡ RESUMEN ULTRA RÁPIDO

La ventana de contexto es todo lo que el modelo "tiene sobre la mesa": prompt + historial + archivos
Se mide en tokens, no en palabras exactas
Más contexto no siempre es mejor → puede generar el efecto "aguja en un pajar"
El modelo prioriza lo más reciente → repetir instrucciones clave al final funciona
Tres síntomas de contexto saturado: olvidos, confusión de roles, ignorar instrucciones previas
Solución práctica: iniciar un nuevo chat con solo lo necesario

━━━━━━━━━━━━━━━━━━

🔑 LO VERDADERAMENTE IMPORTANTE

QUÉ ES LA VENTANA DE CONTEXTO:

Todo lo que el modelo procesa en un momento dado: tu mensaje inicial, cada respuesta, el historial completo y los archivos que subiste
No son "mensajes sueltos" → es una sola entrada acumulada que crece con cada turno
Cuando sube un archivo grande → consume miles de tokens de ese espacio

CAPACIDADES ACTUALES:

ChatGPT → 128,000 tokens ≈ 300 páginas
Gemini → hasta 1,000,000 tokens ≈ 120,000 páginas
Más capacidad alivia el problema pero no lo elimina

LOS 3 ERRORES QUE APARECEN CUANDO EL CONTEXTO SE SATURA:

1️⃣ Olvido o alucinación de datos → el modelo deja fuera información que sí le diste o inventa datos que no existen en el documento

2️⃣ Confusión entre roles → si primero fue researcher y luego social media manager, puede mezclar ambos roles en la misma respuesta

3️⃣ Pérdida de instrucciones → le pediste resúmenes de 500 palabras concisos, pero de pronto vuelve a generar textos largos y genéricos

EL EFECTO "AGUJA EN UN PAJAR":

Con demasiada información en el contexto, el modelo debe buscar lo relevante entre todo el ruido
Esto eleva la probabilidad de que ignore exactamente lo que más importa

━━━━━━━━━━━━━━━━━━

🧠 CONCEPTOS QUE DEBO ENTENDER

Ventana de contexto: el "escritorio" del modelo. Todo lo que cabe en él es lo que puede considerar al responder. Lo que no cabe, no existe para él.
Token: unidad mínima con la que el modelo procesa texto. No equivale exactamente a una palabra. Los signos de puntuación, espacios y caracteres especiales también consumen tokens. En español, signos como "¿" cuentan como token separado porque aportan información semántica que no existe en inglés.
Modelo de atención: mecanismo que asigna importancia relativa a distintas partes del contexto para entender intención y significado. Da más peso a lo más reciente.
Degradación de eficiencia: aunque el contexto no esté lleno al 100%, a partir de cierto volumen la calidad de las respuestas empieza a decaer → más olvidos, más confusión, más alucinaciones.
Tokenizer de OpenAI: herramienta oficial en platform.openai.com/tokenizer que permite ver cómo un texto se divide en tokens y cuántos consume → útil para estimar el peso real de tus prompts.

━━━━━━━━━━━━━━━━━━

🧩 MODELO MENTAL

Contexto = escritorio físico Tokens = páginas que caben sobre él

Si metes 20 páginas en un espacio para 10 → pierdes visibilidad sobre lo importante

Solución: seleccionar qué páginas importan realmente → mantener el escritorio ordenado → reorganizarlo cuando detectes que algo se está perdiendo

Lo más reciente en el escritorio = lo que el modelo mira primero

━━━━━━━━━━━━━━━━━━

🚀 ACCIONES INMEDIATAS

Revisa tu próximo chat largo: ¿hay múltiples roles o tareas mezcladas? → divídelo en chats separados
Antes de tu próxima tarea compleja, repite al final del prompt: "RECUERDA: [instrucción más importante]. Formato: [especificación exacta]."
Si detectas que el modelo alucina o ignora instrucciones: pídele que resuma los puntos clave del chat → abre un chat nuevo → pega ese resumen + tus instrucciones frescas
Experimenta con el Tokenizer de OpenAI → pega tu prompt y observa cuántos tokens consume realmente

━━━━━━━━━━━━━━━━━━

💼 APLICACIÓN PROFESIONAL

Análisis de documentos largos: no subas el PDF completo si solo necesitas una sección → recorta el contexto al mínimo útil
Proyectos de múltiples sesiones: guarda un "resumen ejecutivo del chat" al terminar cada sesión → úsalo como punto de partida del siguiente chat
Equipos que comparten prompts: los prompts con instrucciones largas se degradan en chats largos → refuerza las instrucciones clave al final de cada petición
Automatización con API: el costo se mide en tokens → contextos más pequeños = menos costo y respuestas más precisas
Instrucciones de proyecto (Claude): configura un recordatorio de sesión que le indique al modelo cuándo sugerir iniciar un chat nuevo para evitar degradación

━━━━━━━━━━━━━━━━━━

🔥 HACKS Y RECOMENDACIONES REALES

El hack más subestimado: repetir las instrucciones críticas AL FINAL del prompt, justo antes de la nueva tarea. El modelo presta más atención a lo más reciente → ponlo donde más importa
MAYÚSCULAS, signos de exclamación y repetición estratégica dentro del prompt funcionan como señales de prioridad para el modelo de atención → úsalos con intención
El hack de la comunidad: cuando el chat empieza a alucinar, pide "resume los puntos clave de esta conversación" → copia ese resumen → ábrelo en un chat nuevo con el contexto limpio
Un rol por chat: mezclar roles en el mismo chat es la causa más común de respuestas inconsistentes. Cada objetivo importante merece su propio espacio
Más contexto ≠ mejores respuestas. La clave es curar, no acumular. 5 minutos filtrando lo que subes evitan 20 minutos corrigiendo errores

━━━━━━━━━━━━━━━━━━

📝 REFLEXIÓN ESTRATÉGICA

La ventana de contexto no es un detalle técnico. Es la razón por la que dos personas con el mismo modelo obtienen resultados completamente distintos. Quien entiende sus límites no los combate: los gestiona. Curando el contexto, manteniendo un rol por chat y reforzando instrucciones al final, conviertes un modelo que "olvida" en uno que mantiene el foco. Esa disciplina es lo que separa usar la IA de verdad de solo abrirla y esperar resultados.

Alfredo Olmedo

Kenneth Angulo L

Bryan Castano

Gabriel Obregón

Jefrey Roman Perez

Nicole Contreras

Mateo Montoya Henao

Douglas Alexander Hernández Carpio

•

Jesus David Posada Escobar

Cesar David Ramírez Dimaté

Santiago García Rincón

Héctor Alonso Padilla Ramírez

Yuliana Mallorga

Pedro Jesus Hincapie Garcia

Charles Castillo Rosas

Gonzalo Senabre

Daniel Cardenas

Gonzalo Blasco

Henry Norberto Arias Salgado

Yimy Renzo Dávila Urteaga

Marcos Mesias

Alex Paguada

Kevin Fiorentino

Pablo Herrera

Ventana de contexto en LLMs y sus límites

Fundamentos prácticos de la IA generativa

Estructura de prompt que mejora respuestas en ChatGPT

Cómo crear el prompt perfecto con ChatGPT

Qué son los embeddings en los LLMs

Rol en prompts: cómo mejorar respuestas de IA

Estructurando instrucciones claras y efectivas

ChatGPT vs Claude vs Gemini: cuál elegir

Zero-shot vs few-shot en prompts

Etiquetas XML para estructurar tus prompts

Manejo de contexto extenso y datos