Qué es RoPE y cómo mejora GPT

Curso de Fundamentos de LLMs

Contenido del curso

Fundamentos de los LLMs

Componentes Avanzandos de los LLMs

Personalización y Optimización

Evaluación de Modelos

20
Benchmarks para evaluar y comparar modelos LLM
12:53 min

Tomar examen

Qué es RoPE y cómo mejora GPT

Resumen

Los transformers tienen un punto ciego: por diseño no saben en qué parte de la secuencia está cada token. Aquí entra RoPE (Rotary Position Encoding), una técnica que codifica la posición directamente dentro del embedding y que se volvió clave para escalar grandes modelos de lenguaje en los últimos cinco años.

Si entrenas o estudias arquitecturas tipo GPT, entender RoPE te ayuda a ver por qué un modelo aprende más rápido y con menos cómputo cuando sabe dónde está cada palabra.

¿Por qué los transformers necesitan codificar la posición de los tokens?

Un transformer puro trata todos los tokens como si flotaran sin orden. Para él, la distancia entre la posición 1 y la 2 pesa igual que entre la 1 y la 500.

Eso tiene dos consecuencias directas:

Pierde precisión al interpretar secuencias largas.
Necesita muchos más pasos de entrenamiento, y por lo tanto más poder de cómputo.

Piensa en la frase "hola, ¿cómo estás?". Sin información posicional, el modelo no distingue bien qué token va primero ni cómo se relacionan en orden. Y aquí viene lo interesante: RoPE resuelve esto sin agregar capas nuevas, solo rotando los vectores.

¿Qué es RoPE en pocas palabras? Es Rotary Position Encoding, una técnica que guarda la posición de cada token dentro del ángulo de su embedding, rotándolo en el espacio vectorial [01:00].

¿Cómo funciona RoPE rotando los embeddings?

Imagina el embedding de la palabra perro graficado en un espacio bidimensional. Ese vector tiene una propiedad clave: el ángulo que forma contra el eje X. RoPE usa exactamente ese ángulo para guardar información posicional [01:30].

El ángulo theta como información de posición

Si tu secuencia es solo "perro", el vector queda en su posición original. Si la secuencia es "el perro", el embedding de perro se mueve un ángulo theta porque ahora ocupa la segunda posición.

Y si tienes "había una vez el perro", el vector se rota N veces theta, donde N es la cantidad de tokens que están antes de la palabra perro [02:30].

Theta no es un número fijo. Igual que las matrices de queries, keys y values en el mecanismo de atención, theta se aprende durante el entrenamiento del modelo.

Por qué se preserva la distancia entre tokens

Una propiedad importante de RoPE es que mantiene la separación relativa entre tokens en el espacio de embeddings. Como cada token comparte la lógica del ángulo theta, la posición relativa entre ellos no se rompe: solo rotamos y codificamos información, no destruimos el espacio original.

Eso sí, esta propiedad solo se conserva si la distancia entre los tokens en la secuencia es la misma. Si en "el perro no le gusta el gato" cambias la cantidad de tokens entre perro y gato, el espacio cambia y el modelo necesitaría reentrenarse [05:00].

¿Cómo se calcula RoPE en la práctica?

En la teoría, RoPE multiplica una matriz de rotación por el vector del token y luego por las matrices de queries y keys del mecanismo de atención. La matriz de rotación es un objeto clásico del álgebra lineal y usa funciones de coseno y seno, con la forma coseno, menos seno, seno, coseno [05:40].

¿Por qué RoPE usa seno y coseno? Porque son las funciones base de una matriz de rotación en álgebra lineal, lo que permite girar un vector un ángulo exacto sin deformarlo.

Del vector de dos dimensiones a embeddings reales

Los embeddings reales en GPT no tienen dos dimensiones, tienen cientos o miles. RoPE asume por defecto un número par de dimensiones y parte el embedding en parejas de dos. Cada pareja recibe su propio valor theta, también aprendido durante el entrenamiento [06:30].

Luego se aplica la matriz de rotación de dos en dos hasta cubrir todo el vector y obtener la nueva posición codificada.

El truco de ingeniería: vectores en lugar de matrices

Construir esa matriz gigante en producción cuesta mucha memoria y CPU. La solución de ingeniería fue elegante:

Separar la matriz en dos partes.
Multiplicar una parte del vector por el coseno.
Multiplicar la otra parte del vector por el seno.
Sumar el resultado con un producto punto.

Así cambias una multiplicación de matrices pesada por operaciones vectoriales mucho más livianas [07:30].

Y hay un detalle importante que conecta con el mecanismo de atención: a mayor producto punto entre dos vectores, más cerca están. RoPE aprovecha esa lógica para que el transformer sepa qué tan lejos está un token de otro dentro de la secuencia [08:30].

¿Qué impacto tiene RoPE en el entrenamiento de GPT?

Cuando implementas RoPE, el loss, que es la métrica de pérdida que mide qué tan bueno es tu modelo, decae mucho más rápido en cada paso de entrenamiento. Un loss que baja rápido significa que el modelo está aprendiendo más en menos pasos [09:00].

Eso se traduce en menos horas de cómputo, menos costo y modelos que escalan mejor. Por eso RoPE se volvió un estándar en arquitecturas modernas tipo GPT.

Si quieres ver el efecto antes de programarlo, prueba un visualizador interactivo de Rotary Embeddings y juega con distintos tokens. ¿En qué parte de tu propio modelo crees que RoPE haría la mayor diferencia? Cuéntamelo en los comentarios.

Mateo Montoya Henao

Estudiante

Here’s a concise yet technical explanation of Rotary Positional Embedding (RoPE), the elegant positional encoding method used in models like LLaMA and GPT-Neo! 🌟🌀

1. What is RoPE?

RoPE encodes positional information directly into the attention mechanism by rotating query (Q) and key (K) vectors based on their positions. Unlike fixed sinusoidal embeddings (e.g., in original Transformers), RoPE:

Preserves relative positional relationships (e.g., token at position m vs. n depends on m-n).
Maintains distance decay: Nearby tokens attend more strongly than distant ones.

2. How It Works

For a token at position m, RoPE applies a rotation matrix to Q/K vectors in complex space:

Rotation Matrix: R_m = [cos(mθ), -sin(mθ); sin(mθ), cos(mθ)] (for each dimension pair).
Transformed Vectors: Q’ = Q * R_m, K’ = K * R_n (rotates by angles proportional to positions).
Attention Score: (Q’ * K’ᵀ) automatically encodes relative positions via rotational geometry.

3. Key Advantages

Relative Position Awareness: Captures token_i ↔ token_{i+k} relationships naturally.
Long Sequences: Scales better than absolute positional embeddings (e.g., no fixed max length).
Efficiency: Adds minimal compute overhead vs. learned embeddings.

4. Impact on LLMs

Used in LLaMA, PaLM, and GPT-J for better handling of long contexts.
Enables zero-shot length extrapolation (training on short texts, inferring on longer ones).

Example: For Q = [q1, q2], rotating by θ gives: Q’ = [q1*cos(mθ) - q2*sin(mθ), q1*sin(mθ) + q2*cos(mθ)] → injects position without adding extra parameters!

Nicolás Rodríguez Silva

•

Mauricio Peñuela Aristizábal

Gedward Romo

Edgar A. Gonzalez Ambriz

Javier Ramos

Hector Fonseca

Daniel Hernandez

Mateo Josué Moreira Arias

Sebastian Forero

Daniel Andres Rojas Paredes

Tadeo Juarez

Andres David Martinez Torres

Julio Rojas

CARLOS ALBERTO MARTINEZ SANCHEZ

Daniel Gallego

Kevin Fiorentino

William Bernal

Pedro Esteban Bedoya Castaño

Andrés Muñoz

Yomin Estiven Jaramillo Múnera

Regina Flores

MARIA TERESA PANIAGUA RIVERA

Luis Alberto Vidal Guevara

Damian Spizzirri

Gabriel Obregón

Qué es RoPE y cómo mejora GPT

Fundamentos de los LLMs

Funcionamiento interno de los grandes modelos de lenguaje

Qué construirás al terminar el curso de LLMs

Historia de la inteligencia artificial desde Turing hasta GPT-4

Tokenización y embeddings en LLMs

Qué es y cómo aprende un MLP

Cómo funciona la atención en GPT-2

Fundamentos de PyTorch para modelos de machine learning

Componentes Avanzandos de los LLMs

Construye GPT-2 desde cero con PyTorch