Contenido del curso

Fundamentos prácticos de la IA generativa

Estructurando instrucciones claras y efectivas

Manejo de contexto extenso y datos

Tecnicas de razonamiento para tareas complejas

Aplicaciones y automatización profesional

Ventana de contexto y tokens en LLMs

Resumen

Cuando lees un informe extenso de 50 páginas y al llegar a la página 40 ya no recuerdas con claridad lo que decía al inicio, estás experimentando exactamente el mismo problema que enfrenta un modelo de lenguaje al procesar grandes cantidades de texto. Entender cómo funciona este mecanismo y cuáles son sus límites te permitirá usar la inteligencia artificial de forma más eficiente y evitar errores costosos en tus resultados.

¿Qué es la ventana de contexto y por qué define los límites de un LLM?

La ventana de contexto es la cantidad total de información que un LLM puede procesar en un momento dado [0:43]. No se trata solo del último mensaje que envías: incluye toda la conversación acumulada, los archivos adjuntos y cualquier instrucción previa. Cada vez que continúas un chat o subes un documento, esa ventana crece.

Este concepto está directamente ligado al modelo de atención [1:02]. A diferencia de un teclado predictivo que solo busca la siguiente palabra más probable, un LLM analiza las relaciones entre todas las palabras del prompt para comprender la intención y el significado completo. El modelo de atención asigna importancia a distintas partes del texto, y eso es lo que le permite redactar emails, responder preguntas complejas o actuar en diferentes roles.

La ventana de contexto se mide en tokens [3:08]. Un token no equivale exactamente a una palabra. Funciona más como un cocinero que sabe exactamente dónde cortar cada ingrediente: el LLM segmenta el texto capturando las sutilezas de cada idioma. Por ejemplo, en español el signo de interrogación de apertura se convierte en un token independiente porque aporta información semántica que no existe en inglés.

¿Cuántos tokens manejan los modelos actuales?

ChatGPT tiene una ventana de 128 000 tokens, equivalente a unas 300 páginas [3:50].
Gemini alcanza un millón de tokens, más de 120 000 páginas [4:42].
Una ventana más grande alivia el problema, pero no lo elimina por completo.

¿Qué sucede cuando se excede la ventana de contexto?

Cuando la información supera la capacidad de la ventana, aparece el problema conocido como la aguja en un pajar [4:07]: el modelo tiene tanta información que debe recurrir a métodos alternativos para localizar el dato preciso, lo cual incrementa la probabilidad de alucinaciones o pérdida de atención sobre detalles relevantes.

¿Qué errores provoca una ventana de contexto saturada?

Incluso modelos con ventanas enormes sufren una degradación de eficiencia cuando se superan ciertos umbrales [5:10]. Esto se manifiesta en tres errores concretos:

Olvido o alucinación de datos: el modelo deja fuera información que sí le proporcionaste o inventa datos que no existen en el documento [5:22].
Confusión entre tareas: si primero le pides actuar como researcher sobre calentamiento global y luego como social media manager, el modelo de atención puede mezclar ambos roles y producir resultados inconsistentes [5:48].
Pérdida de instrucciones: le indicaste resúmenes de 500 palabras, concisos y accionables, pero de pronto vuelve a generar textos largos y genéricos, como si hubiera olvidado tus reglas [6:28].

¿Cómo optimizar la ventana de contexto para obtener mejores resultados?

Existen estrategias prácticas para mitigar estos problemas y mantener la calidad de las respuestas.

¿Por qué repetir instrucciones al final del chat funciona?

El modelo siempre da más atención a lo último que aparece en el prompt [6:52]. Si tu conversación se ha extendido mucho, reescribe los factores importantes justo antes de la nueva tarea. Esto reposiciona la información clave al final de la ventana de contexto, donde el modelo de atención le asigna mayor prioridad.

¿Qué técnicas de formato mejoran la atención del modelo?

Usa mayúsculas para destacar instrucciones críticas.
Repite información importante en distintos puntos del prompt.
Emplea signos de exclamación cuando necesites énfasis.

Si algo significa algo en nuestro idioma, significa algo para el LLM [7:15]. Estas señales lingüísticas ayudan al modelo de atención a priorizar lo que realmente importa.

¿Cuándo conviene iniciar un nuevo chat?

Si detectas que el modelo omite departamentos en un informe, contradice datos previos o ignora instrucciones que ya le diste, es momento de actuar [7:40]. Toma la información útil generada hasta ese punto, ábrela en un chat nuevo con una ventana de contexto limpia y carga solo lo necesario para la siguiente tarea.

Piensa en la ventana de contexto como un escritorio físico y en los tokens como las páginas que caben sobre él [8:14]. Si intentas colocar 20 páginas en un espacio diseñado para 10, inevitablemente perderás visibilidad. La clave está en seleccionar la información correcta, mantener el escritorio ordenado y reorganizarlo cada vez que detectes que algo se está perdiendo.

¿Has experimentado alguno de estos problemas al trabajar con chats largos? Comparte tu experiencia y las técnicas que te han funcionado.

Daniel Alfredo García Serna

student•

📚 CLASE: Ventana de contexto y tokens en LLMs

━━━━━━━━━━━━━━━━━━

🎯 IDEA PRINCIPAL

El modelo no recuerda todo igual. Tiene un límite de lo que puede "ver" a la vez y prioriza lo más reciente. Cuando ese espacio se satura, aparecen olvidos, confusiones y alucinaciones, aunque tú hayas dado toda la información necesaria. Entender este mecanismo te permite gestionar tus conversaciones con IA de forma más inteligente y obtener resultados más confiables.

━━━━━━━━━━━━━━━━━━

⚡ RESUMEN ULTRA RÁPIDO

La ventana de contexto es todo lo que el modelo "tiene sobre la mesa": prompt + historial + archivos
Se mide en tokens, no en palabras exactas
Más contexto no siempre es mejor → puede generar el efecto "aguja en un pajar"
El modelo prioriza lo más reciente → repetir instrucciones clave al final funciona
Tres síntomas de contexto saturado: olvidos, confusión de roles, ignorar instrucciones previas
Solución práctica: iniciar un nuevo chat con solo lo necesario

━━━━━━━━━━━━━━━━━━

🔑 LO VERDADERAMENTE IMPORTANTE

QUÉ ES LA VENTANA DE CONTEXTO:

Todo lo que el modelo procesa en un momento dado: tu mensaje inicial, cada respuesta, el historial completo y los archivos que subiste
No son "mensajes sueltos" → es una sola entrada acumulada que crece con cada turno
Cuando sube un archivo grande → consume miles de tokens de ese espacio

CAPACIDADES ACTUALES:

ChatGPT → 128,000 tokens ≈ 300 páginas
Gemini → hasta 1,000,000 tokens ≈ 120,000 páginas
Más capacidad alivia el problema pero no lo elimina

LOS 3 ERRORES QUE APARECEN CUANDO EL CONTEXTO SE SATURA:

1️⃣ Olvido o alucinación de datos → el modelo deja fuera información que sí le diste o inventa datos que no existen en el documento

2️⃣ Confusión entre roles → si primero fue researcher y luego social media manager, puede mezclar ambos roles en la misma respuesta

3️⃣ Pérdida de instrucciones → le pediste resúmenes de 500 palabras concisos, pero de pronto vuelve a generar textos largos y genéricos

EL EFECTO "AGUJA EN UN PAJAR":

Con demasiada información en el contexto, el modelo debe buscar lo relevante entre todo el ruido
Esto eleva la probabilidad de que ignore exactamente lo que más importa

━━━━━━━━━━━━━━━━━━

🧠 CONCEPTOS QUE DEBO ENTENDER

Ventana de contexto: el "escritorio" del modelo. Todo lo que cabe en él es lo que puede considerar al responder. Lo que no cabe, no existe para él.
Token: unidad mínima con la que el modelo procesa texto. No equivale exactamente a una palabra. Los signos de puntuación, espacios y caracteres especiales también consumen tokens. En español, signos como "¿" cuentan como token separado porque aportan información semántica que no existe en inglés.
Modelo de atención: mecanismo que asigna importancia relativa a distintas partes del contexto para entender intención y significado. Da más peso a lo más reciente.
Degradación de eficiencia: aunque el contexto no esté lleno al 100%, a partir de cierto volumen la calidad de las respuestas empieza a decaer → más olvidos, más confusión, más alucinaciones.
Tokenizer de OpenAI: herramienta oficial en platform.openai.com/tokenizer que permite ver cómo un texto se divide en tokens y cuántos consume → útil para estimar el peso real de tus prompts.

━━━━━━━━━━━━━━━━━━

🧩 MODELO MENTAL

Contexto = escritorio físico Tokens = páginas que caben sobre él

Si metes 20 páginas en un espacio para 10 → pierdes visibilidad sobre lo importante

Solución: seleccionar qué páginas importan realmente → mantener el escritorio ordenado → reorganizarlo cuando detectes que algo se está perdiendo

Lo más reciente en el escritorio = lo que el modelo mira primero

━━━━━━━━━━━━━━━━━━

🚀 ACCIONES INMEDIATAS

Revisa tu próximo chat largo: ¿hay múltiples roles o tareas mezcladas? → divídelo en chats separados
Antes de tu próxima tarea compleja, repite al final del prompt: "RECUERDA: [instrucción más importante]. Formato: [especificación exacta]."
Si detectas que el modelo alucina o ignora instrucciones: pídele que resuma los puntos clave del chat → abre un chat nuevo → pega ese resumen + tus instrucciones frescas
Experimenta con el Tokenizer de OpenAI → pega tu prompt y observa cuántos tokens consume realmente

━━━━━━━━━━━━━━━━━━

💼 APLICACIÓN PROFESIONAL

Análisis de documentos largos: no subas el PDF completo si solo necesitas una sección → recorta el contexto al mínimo útil
Proyectos de múltiples sesiones: guarda un "resumen ejecutivo del chat" al terminar cada sesión → úsalo como punto de partida del siguiente chat
Equipos que comparten prompts: los prompts con instrucciones largas se degradan en chats largos → refuerza las instrucciones clave al final de cada petición
Automatización con API: el costo se mide en tokens → contextos más pequeños = menos costo y respuestas más precisas
Instrucciones de proyecto (Claude): configura un recordatorio de sesión que le indique al modelo cuándo sugerir iniciar un chat nuevo para evitar degradación

━━━━━━━━━━━━━━━━━━

🔥 HACKS Y RECOMENDACIONES REALES

El hack más subestimado: repetir las instrucciones críticas AL FINAL del prompt, justo antes de la nueva tarea. El modelo presta más atención a lo más reciente → ponlo donde más importa
MAYÚSCULAS, signos de exclamación y repetición estratégica dentro del prompt funcionan como señales de prioridad para el modelo de atención → úsalos con intención
El hack de la comunidad: cuando el chat empieza a alucinar, pide "resume los puntos clave de esta conversación" → copia ese resumen → ábrelo en un chat nuevo con el contexto limpio
Un rol por chat: mezclar roles en el mismo chat es la causa más común de respuestas inconsistentes. Cada objetivo importante merece su propio espacio
Más contexto ≠ mejores respuestas. La clave es curar, no acumular. 5 minutos filtrando lo que subes evitan 20 minutos corrigiendo errores

━━━━━━━━━━━━━━━━━━

📝 REFLEXIÓN ESTRATÉGICA

La ventana de contexto no es un detalle técnico. Es la razón por la que dos personas con el mismo modelo obtienen resultados completamente distintos. Quien entiende sus límites no los combate: los gestiona. Curando el contexto, manteniendo un rol por chat y reforzando instrucciones al final, conviertes un modelo que "olvida" en uno que mantiene el foco. Esa disciplina es lo que separa usar la IA de verdad de solo abrirla y esperar resultados.

Alfredo Olmedo

Kenneth Angulo L

Bryan Castano

Gabriel Obregón

Jefrey Roman Perez

Nicole Contreras

Mateo Montoya Henao

Douglas Alexander Hernández Carpio

student••

Jesus David Posada Escobar

Cesar David Ramírez Dimaté

Héctor Alonso Padilla Ramírez

Santiago García Rincón

Yuliana Mallorga

Pedro Jesus Hincapie Garcia

Charles Castillo Rosas

Gonzalo Senabre

Daniel Cardenas

Gonzalo Blasco

Henry Norberto Arias Salgado

Yimy Renzo Dávila Urteaga

Marcos Mesias

Alex Paguada

Kevin Fiorentino

Pablo Herrera

Fundamentos prácticos de la IA generativa

Estructura de prompts que eliminan respuestas genéricas

Cómo crear el prompt perfecto con ChatGPT

Qué son los embeddings en los LLMs

Rol en prompts: cómo mejorar respuestas de IA

Estructurando instrucciones claras y efectivas

ChatGPT vs Claude vs Gemini cuál elegir

Zero-shot vs few-shot en prompts

Etiquetas XML para estructurar prompts

Manejo de contexto extenso y datos