Cómo funciona la atención en GPT-2

Curso de Fundamentos de LLMs

Contenido del curso

Fundamentos de los LLMs

Componentes Avanzandos de los LLMs

Personalización y Optimización

Evaluación de Modelos

20
Benchmarks para evaluar y comparar modelos LLM
12:53 min

Tomar examen

Cómo funciona la atención en GPT-2

Resumen

La arquitectura de GPT-2 se sostiene sobre un mecanismo llamado atención, el corazón de los modelos de lenguaje modernos. Aquí entenderás qué es un transformer, cómo operan las matrices Q, K y V, y por qué este diseño revolucionó el procesamiento de lenguaje natural. Útil si estás dando tus primeros pasos en LLMs o quieres construir tu propio modelo.

¿Cómo está estructurada la arquitectura de GPT-2?

GPT-2 se compone de 12 transformadores apilados, y cada uno tiene la misma receta interna. Esa repetición es lo que le da profundidad al modelo y le permite capturar relaciones cada vez más complejas entre palabras.

Dentro de cada transformer encuentras cuatro componentes:

Una multi-head attention, donde ocurre la magia del contexto.
Una layer norm, que estabiliza los valores.
Una feed forward, una red neuronal clásica.
Otra layer norm al final del bloque.

El componente más importante, y donde vale la pena detenerse, es la atención [1:00].

¿Qué es un transformer en GPT-2? Es un bloque de procesamiento que combina atención, normalización y una red feed forward. GPT-2 apila 12 de estos bloques para entender el lenguaje.

¿Qué hace el mecanismo de atención y por qué importa?

La fórmula de la atención se ve así: softmax(Q · Kᵀ / √dk) · V. Suena intimidante, pero la lógica detrás es bastante intuitiva cuando la aterrizas a una frase real.

Imagina la oración: "Me encanta el color negro. Espero algún día tener un gato así". Para cualquier humano es obvio que el gato deseado es negro, pero el modelo necesita un mecanismo que conecte esa palabra anterior con el sustantivo. Eso es exactamente lo que hace la atención: identifica qué palabras previas afectan el significado de la palabra actual [1:30].

Para lograrlo, el modelo construye una matriz con los embeddings de cada palabra y cruza la frase consigo misma para medir relaciones.

¿Qué representan Q, K y V en la atención?

Cada letra cumple un rol específico, y cada una nace de multiplicar el embedding de una palabra por una matriz de pesos que el modelo aprende durante el entrenamiento.

Q (query): las preguntas que hace cada palabra. Si la palabra es gato, su query podría ser "¿qué adjetivos me modifican?" [2:30].
K (keys): las respuestas aproximadas que cada palabra puede ofrecer. Negro responde "yo soy un adjetivo" [3:30].
V (values): cuánto debe moverse el embedding de la palabra para incorporar ese contexto nuevo [5:00].

Cuando multiplicas Q por K usando el producto punto, obtienes una medida de cercanía entre vectores. Si el resultado tiende a infinito, las palabras están muy relacionadas; si tiende a menos infinito, no tienen nada que ver. En el caso de gato y negro, el valor es enorme porque la pregunta y la respuesta encajan perfecto [4:30].

¿Cómo se modifica el embedding final de una palabra?

Esta parte conecta con un ejemplo clásico de los embeddings: rey menos hombre más mujer es igual a reina. La atención hace algo equivalente.

Después de calcular Q, K y V para todas las palabras, el modelo suma los vectores resultantes en cada posición. Esa suma le indica al embedding de gato cómo desplazarse para convertirse en gato negro, manteniendo el contexto dentro del propio vector [5:50]. Es la misma operación matemática que mueve un punto en el espacio semántico hacia otro significado más específico.

¿Para qué sirven softmax y la división por raíz de dk?

Dos piezas más completan la fórmula y vale la pena entenderlas sin entrar en pánico matemático.

La función softmax comprime los valores de la atención, que pueden ir de menos infinito a infinito, en un rango entre -1 y 1. Esto facilita el cálculo y hace que el hardware procese la información de forma estable [6:30].

La división por √dk, donde dk son las dimensiones de la atención, existe por estabilidad numérica. Los computadores tienen límites de precisión, y este ajuste evita que los números se desborden. No cambia el comportamiento conceptual de la atención, solo la hace numéricamente confiable [7:00].

¿Qué es softmax en un transformer? Es una función matemática que normaliza los valores de atención a un rango entre -1 y 1, haciendo el cálculo más eficiente para el hardware.

¿Qué viene después de los transformers en GPT-2?

Una vez que la información pasa por los 12 transformadores, GPT-2 puede conectarse con un text classifier o un task classifier. Estos son modelos clásicos de NLP que la comunidad de machine learning lleva años usando, y se encargan de tareas específicas como clasificar texto o predecir la siguiente palabra [7:50].

El paper original de GPT-2 publicado por OpenAI documenta el proceso lógico que llevó al equipo hasta esta arquitectura, y leerlo te da contexto sobre cómo llegamos a los LLMs actuales. Con lo que ya entiendes sobre self-attention, tienes la base para empezar a construir tu propio modelo tipo GPT o sumarte a la comunidad de Latinoamérica que está trabajando en esto.

¿Qué parte del mecanismo de atención te gustaría explorar más a fondo? Cuéntalo en los comentarios.

Comentarios45

David Stiwen Rugeles Cano

Estudiante

investigando un poco en internet, algo que me parece fundamental mencionar es que antes del mecanismo de atención, se usaban redes neuronales recurrentes, donde la salida de una capa se usaba como entrada de otra y el fallo que tenían estas redes era que después de cierta cantidad de tokens "no recordaban" los anteriores, al solucionarlo con el mecanismo de atención, hacían que el modelo tuviera contexto y eran redes neuronales recurrentes + atención, luego se dieron cuenta que podían eliminar las redes recurrentes y por eso el articulo se titula "la atención es todo lo que necesitas", y generaron una nueva arquitectura teniendo como centro el mecanismo de atención

Alejandro Picado Brenes

Estudiante

Esta explicación de la importancia de la atención me parece muy valiosa y aclara por qué fue un game changer

Christian Mahonry Colorado Bulbarela

Estudiante

Encontre este video que explica de manera mas explicita el mecanismo de atencion.

Gerardo Miguel Pérez Solis

Estudiante

Dato extra. El Dr Cantoral da clases en el TEC de Monterrey. Gran clase.

Mauricio Moo Aguilar

Estudiante

Gracias por compartir. Cuenta con videos que explican el funcionamiento de las redes neuronales de una manera básica. Ideal para principiantes. Me ayudaron a entender mejor las clases de esta sección.

Lisandro Oyer

Estudiante

En el contexto del mecanismo de atención, los modelos de lenguaje como GPT-2 no almacenan explícitamente todos los tokens categorizados como adjetivos, sustantivos o verbos. En su lugar, utilizan embeddings para representar palabras en un espacio continuo. Durante el proceso de atención, el modelo aprende a relacionar palabras entre sí y a entender su contexto. Así, aunque no haya un almacenamiento directo de las categorías gramaticales, el modelo puede inferir la función de una palabra en base a su relación con otras palabras en la frase.

Javier Ramos

Estudiante

Entonces eso explicaría por que puede entender el sarcasmo ?

Tadeo Juarez

Estudiante

Échale un vistazo a mi apunte, de seguro te puede aclarar o ayudar en algo

La arquitectura de GPT-2 esta conformada de 12 transformadores

Pero que es un transformador?

Un transformer es un tipo de red neuronal.

Previo a esta red se usaban las redes recurrentes para predecir palabras siguientes a una oración.

Esta red analiza una oración viendo que tanta relación tiene una palabra con todas las demás, palabra por palabra

Una palabra esta representada por un vector, vector que obtiene su valor de las coordenadas de la palabra en el embedding.

Ahora cada palabra (un vector) pasa por tres transformaciones de matrices, una para obtener palabras que lo representan (key), otra para buscar palabras similares con las palabras que lo representan (query) y finalmente otra para sacar el contenido de cada palabra (Value).

Usamos ahora el mecanismo de atención para ver la similitud entre palabras basándonos en las palabras que lo representan con las palabras que encontró parecidas.

Con estas puntuaciones de similitud haremos una suma ponderada del Value de cada palabra, palabras mas relevantes tendran un value mas alto, este nuevo value ya esta contextualizado con las demás palabras de la oración

Este proceso de analizar la similitud de una palabra con todas las demás de la oración se llama el mecanismo de atención

Esto se sigue usando hoy en día y es perfecto para predecir palabras en textos cortos.

El problema es la atención ya que no podían mantener el contexto de largos párrafos porque en redes neuronales de una capa, multicapa o recurrentes se analiza la relación de una palabra con todas las demás palabra por palabra,

y como con cada palabra va pasando el resultado de la palabra pasada, se va acumulando muchísima información lo que en textos largos hacia que se perdiera información, esto se conoce como perdida del gradiente

En 2017 Google lanza el Articulo ‘Attention is all you need’ donde presenta los transformadores,

un tipo de red neuronal que obtiene mejores resultados solo usando la atención y sustituyendo la recurrencia (analizar relación palabra por palabra) por autoatención.

Con autoatención se sigue analizando la relación de una palabra con todas las demás pero ahora simultáneamente con todas las palabras de la oración, no palabra por palabra.

Esto hace que de una sola vez obtenga el contexto de cada palabra con todas las demás, sin acumular información y permitiendo procesar largos textos

Cristian David Quiroz Salas

Estudiante

Super bien ! Me quedo mas claro con tu resumen

Dirley Arias Muñoz

Estudiante

Muy bien, verdaderamente me ayudo a entender un poco más y a darle sentido a la tabla que mostro Jhenner en su presentación. Gracias por el aporte!!!

Jhon Maldonado

Estudiante

En la clase se abordaron los siguientes puntos clave sobre la arquitectura de GPT-2 y el mecanismo de atención:

Transformadores en GPT-2: Se compone de 12 transformadores, cada uno con multi-head attention, feed forward, y normalización.
Mecanismo de Atención: Utiliza tres conceptos:
- Query (q): Preguntas sobre la palabra actual.
- Key (k): Respuestas a las preguntas, relacionadas con las palabras anteriores.
- Value (v): Valores que ajustan el embedding de la palabra.
Softmax: Función utilizada para normalizar los valores, facilitando el procesamiento.
Estabilidad Numérica: Se incluye una división por la raíz cuadrada de la dimensión k para asegurar precisión en cálculos.
Auto-atención: Permite entender la relación entre palabras en un contexto.

Estos conceptos son fundamentales para comprender cómo funcionan los LLMs modernos.

JUAN CAMILO CAMPO TANGARIFE

Estudiante

Mis respetos para todos ustedes que entienden a la perfección lo que explica el profe... siento que aún no me siento preparado para este curso, entendí de forma muy superficial, entonces creo que me retiro y volveré después con mayores bases conextos.

Julio Téllez

Estudiante

Definitivamente sin AI no podría entender este tema, si bien la clase es clara, para mi no lo fue tanto. Me apoye con ChatGPT para entender la formula de atención y me exploto la cabeza. Demasiado interesante esta clase.

Miguel Angel Reyes Moreno

Estudiante

Deberías compartir la conversación que tuviste con Chat GPT :)

José Luis Mendez Marcano

Estudiante

Uff. Creo que me metí en algo profundo!!

Juan Diego

Estudiante

Leyendo el paper de GPT-2 obeservo que ahí se dieron cuenta de que al pasarle mucho contexto al modelo del mundo real (internet), el modelo prodría aprender sin ejemplos (zero-shot) o datos supervisados de manera equiparable al de un modelo entrenado a punta de fine-tuning. Y al ver este potencial --supongo yo-- es que con el GPT-3 causaron un gran impacto al aplicar una estrategia similar pero a gran escala y ¿como? pues aumentando enormemente el numero de parametros, aproximadente mas de 100 veces respecto al GPT-2 (1500 millones de parametros vs 175000 millones de parámetros)

Miguel Angel Otero Otero

Estudiante

La operación Q·K^T se vuelve computacionalmente costosa a medida que aumenta la longitud de la secuencia. Para 2048 tokens, el costo en memoria y tiempo es O(n^2), donde n es el número de tokens. Esto significa que para 100,000 tokens, el costo se eleva a 10,000,000,000, lo que es inviable en términos de recursos. Estas limitaciones llevaron al desarrollo de "attention sparse", que optimiza el cálculo de atención, permitiendo que solo se procesen partes relevantes de la secuencia, reduciendo significativamente el consumo de recursos computacionales.

Carlos Irving Gómez Quiroz

Estudiante

Ayudándome de Chat GPT para realizar un planteamiento más conciso:

Cada palabra (o token) se convierte primero en un embedding, es decir, en un vector de números que representa su significado inicial.

A partir de ese vector se generan tres nuevos vectores: Q (Query), K (Key) y V (Value).

El mecanismo de Attention responde a la pregunta: "¿De qué otras palabras necesito información para comprender mejor esta palabra?". Para ello compara las Q con las K de todas las palabras de la oración y determina cuáles son las más relevantes.

Con esa información utiliza los V para actualizar el embedding original, creando una nueva versión del vector que ahora contiene tanto el significado de la palabra como el contexto que aportan las demás.

Después, el MLP toma estos embeddings enriquecidos y realiza nuevas transformaciones para extraer patrones más complejos.

Este proceso se repite varias veces (12 bloques en GPT-2 y muchas más capas en modelos actuales) hasta que el modelo dispone de suficiente contexto para predecir el siguiente token.

Embedding inicial = significado de la palabra por sí sola.
Embedding después de Attention = significado de la palabra dentro de esa oración.

Visualmente:

Palabra ↓ Embedding (significado inicial)

↓ Q, K y V

↓ Attention (busca qué otras palabras aportan contexto)

↓ Nuevo embedding (significado + contexto)

↓ MLP (refina esa información)

↓ Siguiente Transformer

↓ Predicción del siguiente token

¿Qué es exactamente lo que va cambiando capa tras capa?

No cambian las palabras, cambian sus embeddings.

Los tokens permanecen iguales; evoluciona la representación numérica de cada uno conforme incorpora más contexto.

Alan Jesús López Jacinto

Estudiante

Imagina que vas rodando en una Pulsar N160 por una avenida con bastante tráfico.

1. ¿Qué es GPT-2? (El conductor predictivo)

GPT-2 es, en esencia, el auto-completar de tu celular, pero con esteroides. Su único trabajo en la vida es adivinar cuál es la siguiente palabra. No lee todo el texto de golpe para luego analizarlo; va leyendo palabra por palabra y prediciendo lo que sigue hacia adelante.

Es igual que cuando vas en la moto: no ves toda la ruta de tu viaje desde arriba. Vas avanzando y prediciendo lo que va a pasar en los próximos metros basándote estrictamente en lo que ya tienes enfrente y lo que acabas de pasar.

2. El Mecanismo de Atención (El radar de supervivencia)

Aquí es donde ocurre la magia real. Cuando vas manejando, hay muchísima información a tu alrededor: una camioneta frenando adelante, un bache profundo, un anuncio espectacular brillante y un perro caminando por la banqueta.

Obviamente, no le dedicas el 100% de tu capacidad mental a todas esas cosas al mismo tiempo. Tu cerebro hace un cálculo rapidísimo y reparte porcentajes de atención para entender tu contexto:

80% a la camioneta que está frenando (peligro inminente).
15% al bache (hay que esquivarlo).
5% al perro (por si se cruza).
0% al anuncio espectacular (no aporta nada a tu rodada).

Así exactamente funciona la "Auto-Atención" entre las palabras.

Cuando el modelo lee la frase: "El casco absorbió el golpe en la pista", y se enfoca en la palabra "absorbió", lanza su "radar" a las demás palabras para ver cuáles son importantes para darle sentido:

Le asigna mucha atención a "golpe" (porque es lo que se absorbe).
Le asigna mucha atención a "casco" (porque es el objeto que hace la acción).
Ignora casi por completo palabras de relleno como "el" o "la".

3. Query, Key y Value (La interacción en la calle)

Para que el modelo decida a qué prestarle atención, las palabras hacen este proceso en milisegundos:

Query (La pregunta): La palabra en turno, por ejemplo "absorbió", lanza una pregunta al aire: "Oigan, ¿alguien aquí es un impacto o equipo de protección?"
Key (La etiqueta): Las demás palabras tienen "letreros" que dicen qué son. La palabra "casco" tiene un letrero que dice: "Yo soy protección". La palabra "golpe" tiene uno que dice: "Yo soy un impacto".
Value (El resultado): Como las etiquetas (Keys) encajan perfecto con lo que la palabra estaba buscando (Query), "absorbió" jala el significado de esas palabras (Value) hacia sí misma.

En resumen: GPT-2 es un motor que avanza adivinando la siguiente palabra, y el mecanismo de Atención es simplemente el "radar" que le dice a la palabra actual a qué otras cosas a su alrededor debe prestarle atención para no perder el hilo de la conversación.

Raul Guzman

Estudiante

•

Para los que quieren profundizar un poco, hay un paper relacionado con esto

El famoso "Attention Is All You Need"

Wilbertson Mojica Cifuentes

Estudiante

Imagina esto:

Tienes una oración:

“El gato se subió al árbol porque tenía miedo del perro.”

Si le preguntamos a una red vieja tipo “RNN” o “LSTM”:

“¿Quién tenía miedo del perro?”

La red tenía que leer palabra por palabra, en orden, y recordar cosas del pasado, lo que era lento y difícil.

Pero el Transformer hace algo distinto:

Él mira todas las palabras al mismo tiempo, y aprende a prestar atención solo a las partes importantes.

Por ejemplo:

Cuando lee “tenía miedo”, el Transformer pone más atención en “gato”, porque aprende que el gato era el que tenía miedo, no el perro.

Nicolas Cordoba

Estudiante

Como aclaración, para la función softmax el dominio es de menos infinito a infinito y el rango es de 0-1. Por eso es que se puede "mapear" estos valores que le entran de las operaciones matricilaes a una "probabilidad" entre 0 y 1 donde 1 sería el 100%

Eloy Chávez Dev

Estudiante

Me fascinó entender cómo los 12 transformadores trabajan en conjunto, especialmente el mecanismo de multihead attention con sus componentes Q, K y V. La analogía de "gato negro" para explicar cómo la query busca contexto, la key responde con el adjetivo relevante y el value ajusta el embedding fue brillante.

Lo que más me impactó:

La fórmula matemática detrás de la atención (softmax(Q*Kᵀ/√dₖ)*V) dejó claro que la "comprensión" del modelo es en realidad un proceso de ponderación numérica.
Los detalles técnicos como la normalización por √dₖ (para estabilidad) y el rol de softmax (para acotar valores) mostraron que hasta los elementos "secundarios" son clave en la eficiencia del modelo.

Wilbertson Mojica Cifuentes

Estudiante

💡 En resumen

ConceptoQué haceAnalogía

Query (Q)

La pregunta de una palabra

“¿Con quién me relaciono?”

Key (K)

La clave que representa otra palabra

“Yo soy sobre color.”

Value (V)

El significado real de esa palabra

“Mi información es: negro = color oscuro.”

Softmax(QKᵀ)

Decide cuánto mirar a cada palabra

“Miro 75% a negro, 20% a color, 5% a las demás.”

Luis martinez

Estudiante

que buena esta esta clase

Mateo Montoya Henao

Estudiante

Here’s a concise yet powerful breakdown of GPT-2 and the attention mechanism that makes it tick! ⚡🤖

1. GPT-2 Architecture Overview

GPT-2 is a decoder-only Transformer model, designed for autoregressive text generation (predicting the next word). Key specs:

Layers: 12 to 48 (depending on size; largest has 1.5B parameters).
Hidden Dimension: 1600 (for the largest variant).
Context Window: 1024 tokens. Unlike BERT, GPT-2 uses masked self-attention to prevent "peeking" at future tokens during training.

2. Self-Attention Mechanism

The heart of GPT-2! Each token computes its relationship to others via:

Queries (Q), Keys (K), Values (V): Linear projections of input embeddings.
Attention Scores: Softmax over (Q × Kᵀ) / √d_k (scaled dot-product).
Weighted Output: Sum of V vectors multiplied by attention scores. This lets the model focus on relevant words (e.g., "it" attending to "cat" in "The cat sat because it was tired").

3. Multi-Head Attention

GPT-2 uses multiple attention heads (e.g., 16 in the large model) to capture diverse relationships:

One head might focus on grammar, another on topic coherence.
Heads run in parallel, with outputs concatenated and projected linearly.

4. Positional Encoding & Layer Stacking

Positional Embeddings: Added to input tokens to preserve word order (crucial for language!).
Residual Connections & Layer Norm: Stabilize training across deep layers (up to 48!). The result? A model that generates shockingly human-like text—one token at a time!

Alejandro Picado Brenes

Estudiante

La función Softmax es crucial para la estabilidad computacional, ya que escala los resultados de la multiplicación Q por K (que pueden ser muy grandes o pequeños) a un rango más manejable. Esto facilita que el hardware procese las relaciones de atención eficientemente, sin perder la importancia relativa entre las palabras.

Cómo funciona la atención en GPT-2

Fundamentos de los LLMs

Funcionamiento interno de los grandes modelos de lenguaje

Qué construirás al terminar el curso de LLMs

Historia de la inteligencia artificial desde Turing hasta GPT-4

Tokenización y embeddings en LLMs

Qué es y cómo aprende un MLP