Arquitectura GPT-2 y mecanismo de atención en transformadores

Clase 6 de 20 • Curso de Fundamentos de LLMs

Resumen

La arquitectura GPT-2 y, en particular, el mecanismo de atención, constituyen elementos fundamentales para comprender cómo funcionan los actuales modelos de lenguaje llamados transformadores. Estos modelos emplean técnicas matemáticas para identificar y mantener contexto entre palabras, potenciando su capacidad predictiva y generativa en tareas del procesamiento de lenguaje natural (NLP).

¿Qué componentes integran la arquitectura de GPT-2?

GPT-2 se construye principalmente sobre 12 estructuras denominadas transformadores. Cada transformador incluye:

Una multihead attention.
Dos capas llamadas layer norm.
Una capa feed forward.

El aspecto crucial dentro de estos transformadores es el mecanismo de atención, fundamental para mantener la coherencia contextual.

¿Cómo opera el mecanismo de atención?

La atención actúa examinando qué palabras previas afectan significativamente a la palabra actual. Matemáticamente se representa así:

[ Atención = \text{softmax}\left( \frac{Q K^T}{\sqrt{d_k}} \right) V ]

Aquí describimos el significado de sus componentes:

¿Qué significa cada símbolo de la atención?

Q (Query): representa preguntas provenientes de cada palabra para identificar qué palabras anteriores influyen en su significado.
K (Key o llave): alude a respuestas aproximadas correspondientes a las preguntas generadas por las consultas (queries).
V (Value o valor): valores necesarios para modificar adecuadamente los embeddings, manteniendo el contexto correcto.

Cada componente se obtiene multiplicando los embeddings originales por matrices de pesos específicas (Wq, Wk, Wv) que se ajustan durante el entrenamiento del modelo.

¿Cómo interactúan estos elementos en un ejemplo práctico?

Si tomamos la frase "Me encanta el color negro, espero algún día tener un gato así", la palabra "negro" afecta directamente a la palabra "gato".

Ejemplo de Query (Q): la palabra "gato" hace una consulta específica: ¿qué palabras anteriores modifican la palabra actual?
Ejemplo de Key (K): identifica a "negro" como respuesta precisa, previamente codificada en una matriz entrenada.
Ejemplo de Value (V): ajusta el embedding original de "gato" hacia uno contextual ("gato negro"), manteniendo la información correcta.

Multiplicando Q por K obtenemos pesos que revelan qué tan relacionadas están las palabras. La operación matemática y la función de softmax reducen la escala numérica para optimizar cálculos, manteniendo la precisión y estabilidad computacional.

¿Cuál es el papel de la función Softmax en atención?

Softmax limita la escala numérica de los resultados de la multiplicación QK, transformándolos de un rango inicialmente amplio (desde menos infinito hasta más infinito) a uno manejable y acotado (entre -1 y 1). Esto simplifica y acelera las operaciones informáticas necesarias durante el entrenamiento.

¿Qué función cumple la división por raíz cuadrada de dₖ?

La división por la raíz cuadrada de dₖ no afecta directamente al aprendizaje sino que protege la estabilidad numérica del proceso computacional. Previene errores por limitaciones inherentes al hardware y su precisión numérica durante estas operaciones.

¿Qué otros elementos acompañan al mecanismo de atención en GPT-2?

Tras el mecanismo de atención, GPT-2 integra componentes comunes del machine y deep learning como:

Capas layer norm.
Redes feed-forward.
Clasificadores tradicionales de tarea (text classifier o task classifier).

Estos elementos complementarios están diseñados para mejorar la generalización y optimizar el comportamiento del modelo.

¿Cómo continuar profundizando en GPT-2 y sus bases teóricas?

Para quienes desean profundizar, se recomienda explorar el documento original (paper) de GPT-2 proporcionado por OpenAI. Adicionalmente, los fundamentos teóricos sobre redes neuronales profundas, normalización y clasificadores se encuentran ampliamente documentados en los recursos adicionales brindados durante el curso.

¡Te animamos a seguir aprendiendo y comentarnos sobre tu experiencia estudiando o construyendo modelos basados en GPT-2!

David Stiwen Rugeles Cano

student•

investigando un poco en internet, algo que me parece fundamental mencionar es que antes del mecanismo de atención, se usaban redes neuronales recurrentes, donde la salida de una capa se usaba como entrada de otra y el fallo que tenían estas redes era que después de cierta cantidad de tokens "no recordaban" los anteriores, al solucionarlo con el mecanismo de atención, hacían que el modelo tuviera contexto y eran redes neuronales recurrentes + atención, luego se dieron cuenta que podían eliminar las redes recurrentes y por eso el articulo se titula "la atención es todo lo que necesitas", y generaron una nueva arquitectura teniendo como centro el mecanismo de atención

Alejandro Picado Brenes

student•

Esta explicación de la importancia de la atención me parece muy valiosa y aclara por qué fue un game changer

Lisandro Oyer

student•

En el contexto del mecanismo de atención, los modelos de lenguaje como GPT-2 no almacenan explícitamente todos los tokens categorizados como adjetivos, sustantivos o verbos. En su lugar, utilizan embeddings para representar palabras en un espacio continuo. Durante el proceso de atención, el modelo aprende a relacionar palabras entre sí y a entender su contexto. Así, aunque no haya un almacenamiento directo de las categorías gramaticales, el modelo puede inferir la función de una palabra en base a su relación con otras palabras en la frase.

Javier Ramos

student•

Entonces eso explicaría por que puede entender el sarcasmo ?

Christian Mahonry Colorado Bulbarela

student•

Encontre este video que explica de manera mas explicita el mecanismo de atencion.

Gerardo Miguel Pérez Solis

student•

Dato extra. El Dr Cantoral da clases en el TEC de Monterrey. Gran clase.

Mauricio Moo Aguilar

student•

Gracias por compartir. Cuenta con videos que explican el funcionamiento de las redes neuronales de una manera básica. Ideal para principiantes. Me ayudaron a entender mejor las clases de esta sección.

Tadeo Juarez

student•

Échale un vistazo a mi apunte, de seguro te puede aclarar o ayudar en algo

La arquitectura de GPT-2 esta conformada de 12 transformadores

Pero que es un transformador?

Un transformer es un tipo de red neuronal.

Previo a esta red se usaban las redes recurrentes para predecir palabras siguientes a una oración.

Esta red analiza una oración viendo que tanta relación tiene una palabra con todas las demás, palabra por palabra

Una palabra esta representada por un vector, vector que obtiene su valor de las coordenadas de la palabra en el embedding.

Ahora cada palabra (un vector) pasa por tres transformaciones de matrices, una para obtener palabras que lo representan (key), otra para buscar palabras similares con las palabras que lo representan (query) y finalmente otra para sacar el contenido de cada palabra (Value).

Usamos ahora el mecanismo de atención para ver la similitud entre palabras basándonos en las palabras que lo representan con las palabras que encontró parecidas.

Con estas puntuaciones de similitud haremos una suma ponderada del Value de cada palabra, palabras mas relevantes tendran un value mas alto, este nuevo value ya esta contextualizado con las demás palabras de la oración

Este proceso de analizar la similitud de una palabra con todas las demás de la oración se llama el mecanismo de atención

Esto se sigue usando hoy en día y es perfecto para predecir palabras en textos cortos.

El problema es la atención ya que no podían mantener el contexto de largos párrafos porque en redes neuronales de una capa, multicapa o recurrentes se analiza la relación de una palabra con todas las demás palabra por palabra,

y como con cada palabra va pasando el resultado de la palabra pasada, se va acumulando muchísima información lo que en textos largos hacia que se perdiera información, esto se conoce como perdida del gradiente

En 2017 Google lanza el Articulo ‘Attention is all you need’ donde presenta los transformadores,

un tipo de red neuronal que obtiene mejores resultados solo usando la atención y sustituyendo la recurrencia (analizar relación palabra por palabra) por autoatención.

Con autoatención se sigue analizando la relación de una palabra con todas las demás pero ahora simultáneamente con todas las palabras de la oración, no palabra por palabra.

Esto hace que de una sola vez obtenga el contexto de cada palabra con todas las demás, sin acumular información y permitiendo procesar largos textos

Cristian David Quiroz Salas

student•

Super bien ! Me quedo mas claro con tu resumen

Dirley Arias Muñoz

student•

Muy bien, verdaderamente me ayudo a entender un poco más y a darle sentido a la tabla que mostro Jhenner en su presentación. Gracias por el aporte!!!

Jhon Maldonado

student•

En la clase se abordaron los siguientes puntos clave sobre la arquitectura de GPT-2 y el mecanismo de atención:

Transformadores en GPT-2: Se compone de 12 transformadores, cada uno con multi-head attention, feed forward, y normalización.
Mecanismo de Atención: Utiliza tres conceptos:
- Query (q): Preguntas sobre la palabra actual.
- Key (k): Respuestas a las preguntas, relacionadas con las palabras anteriores.
- Value (v): Valores que ajustan el embedding de la palabra.
Softmax: Función utilizada para normalizar los valores, facilitando el procesamiento.
Estabilidad Numérica: Se incluye una división por la raíz cuadrada de la dimensión k para asegurar precisión en cálculos.
Auto-atención: Permite entender la relación entre palabras en un contexto.

Estos conceptos son fundamentales para comprender cómo funcionan los LLMs modernos.

JUAN CAMILO CAMPO TANGARIFE

student•

Mis respetos para todos ustedes que entienden a la perfección lo que explica el profe... siento que aún no me siento preparado para este curso, entendí de forma muy superficial, entonces creo que me retiro y volveré después con mayores bases conextos.

Miguel Angel Otero Otero

student•

La operación Q·K^T se vuelve computacionalmente costosa a medida que aumenta la longitud de la secuencia. Para 2048 tokens, el costo en memoria y tiempo es O(n^2), donde n es el número de tokens. Esto significa que para 100,000 tokens, el costo se eleva a 10,000,000,000, lo que es inviable en términos de recursos. Estas limitaciones llevaron al desarrollo de "attention sparse", que optimiza el cálculo de atención, permitiendo que solo se procesen partes relevantes de la secuencia, reduciendo significativamente el consumo de recursos computacionales.

Julio Téllez

student•

Definitivamente sin AI no podría entender este tema, si bien la clase es clara, para mi no lo fue tanto. Me apoye con ChatGPT para entender la formula de atención y me exploto la cabeza. Demasiado interesante esta clase.

Miguel Angel Reyes Moreno

student•

Deberías compartir la conversación que tuviste con Chat GPT :)

Eloy Chávez Dev

student•

Me fascinó entender cómo los 12 transformadores trabajan en conjunto, especialmente el mecanismo de multihead attention con sus componentes Q, K y V. La analogía de "gato negro" para explicar cómo la query busca contexto, la key responde con el adjetivo relevante y el value ajusta el embedding fue brillante.

Lo que más me impactó:

La fórmula matemática detrás de la atención (softmax(Q*Kᵀ/√dₖ)*V) dejó claro que la "comprensión" del modelo es en realidad un proceso de ponderación numérica.
Los detalles técnicos como la normalización por √dₖ (para estabilidad) y el rol de softmax (para acotar valores) mostraron que hasta los elementos "secundarios" son clave en la eficiencia del modelo.

Mateo Montoya Henao

student•

Here’s a concise yet powerful breakdown of GPT-2 and the attention mechanism that makes it tick! ⚡🤖

1. GPT-2 Architecture Overview

GPT-2 is a decoder-only Transformer model, designed for autoregressive text generation (predicting the next word). Key specs:

Layers: 12 to 48 (depending on size; largest has 1.5B parameters).
Hidden Dimension: 1600 (for the largest variant).
Context Window: 1024 tokens. Unlike BERT, GPT-2 uses masked self-attention to prevent "peeking" at future tokens during training.

2. Self-Attention Mechanism

The heart of GPT-2! Each token computes its relationship to others via:

Queries (Q), Keys (K), Values (V): Linear projections of input embeddings.
Attention Scores: Softmax over (Q × Kᵀ) / √d_k (scaled dot-product).
Weighted Output: Sum of V vectors multiplied by attention scores. This lets the model focus on relevant words (e.g., "it" attending to "cat" in "The cat sat because it was tired").

3. Multi-Head Attention

GPT-2 uses multiple attention heads (e.g., 16 in the large model) to capture diverse relationships:

One head might focus on grammar, another on topic coherence.
Heads run in parallel, with outputs concatenated and projected linearly.

4. Positional Encoding & Layer Stacking

Positional Embeddings: Added to input tokens to preserve word order (crucial for language!).
Residual Connections & Layer Norm: Stabilize training across deep layers (up to 48!). The result? A model that generates shockingly human-like text—one token at a time!

Alejandro Picado Brenes

student•

La función Softmax es crucial para la estabilidad computacional, ya que escala los resultados de la multiplicación Q por K (que pueden ser muy grandes o pequeños) a un rango más manejable. Esto facilita que el hardware procese las relaciones de atención eficientemente, sin perder la importancia relativa entre las palabras.

Nicolas Cordoba

student•

Como aclaración, para la función softmax el dominio es de menos infinito a infinito y el rango es de 0-1. Por eso es que se puede "mapear" estos valores que le entran de las operaciones matricilaes a una "probabilidad" entre 0 y 1 donde 1 sería el 100%

Wilbertson Mojica Cifuentes

student•

Imagina esto:

Tienes una oración:

“El gato se subió al árbol porque tenía miedo del perro.”

Si le preguntamos a una red vieja tipo “RNN” o “LSTM”:

“¿Quién tenía miedo del perro?”

La red tenía que leer palabra por palabra, en orden, y recordar cosas del pasado, lo que era lento y difícil.

Pero el Transformer hace algo distinto:

Él mira todas las palabras al mismo tiempo, y aprende a prestar atención solo a las partes importantes.

Por ejemplo:

Cuando lee “tenía miedo”, el Transformer pone más atención en “gato”, porque aprende que el gato era el que tenía miedo, no el perro.

Luis martinez

student•

que buena esta esta clase

Andres David Martinez Torres

student•

Wow, creo qu eme perdi, jajajaja

MARIA TERESA PANIAGUA RIVERA

student•

Gracias

Mauro Cabrera

student•

todo muy lindo , pero no entiendo nada.

Angela Maria Tobar Sotelo

student•

Espero no sea muy tarde:

la serie de videos es buena:

Hector Diaz

student•

Por que en otras fuentes se indica que el rango de salida de softmax es entre 0 y 1 y no entre -1 y 1 como se indica acá?

Juan Camilo Noreña López

student•

El producto punto es una operación entre dos vectores que da como resultado un escalar (un número). Se calcula multiplicando los componentes correspondientes de ambos vectores y sumando los resultados. Su utilidad principal es medir qué tanto un vector apunta en la misma dirección que otro. Por eso, se usa para calcular el ángulo entre vectores, determinar si son perpendiculares (si el resultado es 0) o para encontrar la proyección de un vector sobre otro. A diferencia del producto cruz, que genera un vector perpendicular, el producto punto no da dirección, solo magnitud compartida entre dos vectores. Es fundamental en geometría, física (como el cálculo de trabajo) y gráficos computacionales.

Gonzalo Andrés Rojas Cardona

student•

No puedo encontrar el paper original de GPT-2, ¿lo quitaron? ¿alguien podría ayudarme a conseguirlo?

Henry Stivens Adarme Muñoz

student•

y aquí está el enlace

Gonzalo Andrés Rojas Cardona

student•

wow! genial. muchas gracias

Arquitectura GPT-2 y mecanismo de atención en transformadores

Fundamentos de los LLMs

Funcionamiento interno de los grandes modelos de lenguaje

Conceptos fundamentales de LLM: del contexto al despliegue

Historia de la inteligencia artificial desde Turing hasta GPT-4

Tokenización, vectorización y embeddings en LLMs

Funcionamiento básico de redes neuronales multicapa

Arquitectura GPT-2 y mecanismo de atención en transformadores

Fundamentos de PyTorch para modelos de machine learning

Componentes Avanzandos de los LLMs

Construcción de GPT-2 desde cero con Python y PyTorch

RoPE: codificación posicional rotatoria para transformers

Integración de Rope en GPT-2 con PyTorch

Leyes de escalado y modelos multimodales en inteligencia artificial

Cómo se entrena un modelo de lenguaje grande (LLM) paso a paso

Mixture of Experts: arquitectura eficiente para modelos de IA

Requisitos de hardware para ejecutar modelos LLM en tu computadora

Instalación de Olama y configuración de clúster local con ExoLabs

Personalización y Optimización

Fine tuning supervisado de GPT-4 con datasets médicos

LoRa para fine tuning eficiente de modelos gigantes

Despliegue de modelos fine-tuned con Hugging Face Endpoints

Cuantización de números en modelos de Machine Learning

Evaluación de Modelos

Benchmarks para evaluar y comparar modelos LLM