La arquitectura de GPT-2 se sostiene sobre un mecanismo llamado atención, el corazón de los modelos de lenguaje modernos. Aquí entenderás qué es un transformer, cómo operan las matrices Q, K y V, y por qué este diseño revolucionó el procesamiento de lenguaje natural. Útil si estás dando tus primeros pasos en LLMs o quieres construir tu propio modelo.
¿Cómo está estructurada la arquitectura de GPT-2?
GPT-2 se compone de 12 transformadores apilados, y cada uno tiene la misma receta interna. Esa repetición es lo que le da profundidad al modelo y le permite capturar relaciones cada vez más complejas entre palabras.
Dentro de cada transformer encuentras cuatro componentes:
- Una multi-head attention, donde ocurre la magia del contexto.
- Una layer norm, que estabiliza los valores.
- Una feed forward, una red neuronal clásica.
- Otra layer norm al final del bloque.
El componente más importante, y donde vale la pena detenerse, es la atención [1:00].
¿Qué es un transformer en GPT-2? Es un bloque de procesamiento que combina atención, normalización y una red feed forward. GPT-2 apila 12 de estos bloques para entender el lenguaje.
¿Qué hace el mecanismo de atención y por qué importa?
La fórmula de la atención se ve así: softmax(Q · Kᵀ / √dk) · V. Suena intimidante, pero la lógica detrás es bastante intuitiva cuando la aterrizas a una frase real.
Imagina la oración: "Me encanta el color negro. Espero algún día tener un gato así". Para cualquier humano es obvio que el gato deseado es negro, pero el modelo necesita un mecanismo que conecte esa palabra anterior con el sustantivo. Eso es exactamente lo que hace la atención: identifica qué palabras previas afectan el significado de la palabra actual [1:30].
Para lograrlo, el modelo construye una matriz con los embeddings de cada palabra y cruza la frase consigo misma para medir relaciones.
¿Qué representan Q, K y V en la atención?
Cada letra cumple un rol específico, y cada una nace de multiplicar el embedding de una palabra por una matriz de pesos que el modelo aprende durante el entrenamiento.
- Q (query): las preguntas que hace cada palabra. Si la palabra es gato, su query podría ser "¿qué adjetivos me modifican?" [2:30].
- K (keys): las respuestas aproximadas que cada palabra puede ofrecer. Negro responde "yo soy un adjetivo" [3:30].
- V (values): cuánto debe moverse el embedding de la palabra para incorporar ese contexto nuevo [5:00].
Cuando multiplicas Q por K usando el producto punto, obtienes una medida de cercanía entre vectores. Si el resultado tiende a infinito, las palabras están muy relacionadas; si tiende a menos infinito, no tienen nada que ver. En el caso de gato y negro, el valor es enorme porque la pregunta y la respuesta encajan perfecto [4:30].
¿Cómo se modifica el embedding final de una palabra?
Esta parte conecta con un ejemplo clásico de los embeddings: rey menos hombre más mujer es igual a reina. La atención hace algo equivalente.
Después de calcular Q, K y V para todas las palabras, el modelo suma los vectores resultantes en cada posición. Esa suma le indica al embedding de gato cómo desplazarse para convertirse en gato negro, manteniendo el contexto dentro del propio vector [5:50]. Es la misma operación matemática que mueve un punto en el espacio semántico hacia otro significado más específico.
¿Para qué sirven softmax y la división por raíz de dk?
Dos piezas más completan la fórmula y vale la pena entenderlas sin entrar en pánico matemático.
La función softmax comprime los valores de la atención, que pueden ir de menos infinito a infinito, en un rango entre -1 y 1. Esto facilita el cálculo y hace que el hardware procese la información de forma estable [6:30].
La división por √dk, donde dk son las dimensiones de la atención, existe por estabilidad numérica. Los computadores tienen límites de precisión, y este ajuste evita que los números se desborden. No cambia el comportamiento conceptual de la atención, solo la hace numéricamente confiable [7:00].
¿Qué es softmax en un transformer? Es una función matemática que normaliza los valores de atención a un rango entre -1 y 1, haciendo el cálculo más eficiente para el hardware.
¿Qué viene después de los transformers en GPT-2?
Una vez que la información pasa por los 12 transformadores, GPT-2 puede conectarse con un text classifier o un task classifier. Estos son modelos clásicos de NLP que la comunidad de machine learning lleva años usando, y se encargan de tareas específicas como clasificar texto o predecir la siguiente palabra [7:50].
El paper original de GPT-2 publicado por OpenAI documenta el proceso lógico que llevó al equipo hasta esta arquitectura, y leerlo te da contexto sobre cómo llegamos a los LLMs actuales. Con lo que ya entiendes sobre self-attention, tienes la base para empezar a construir tu propio modelo tipo GPT o sumarte a la comunidad de Latinoamérica que está trabajando en esto.
¿Qué parte del mecanismo de atención te gustaría explorar más a fondo? Cuéntalo en los comentarios.