Cómo se entrena un LLM paso a paso

Resumen

Entrenar un LLM no es magia ni un solo paso: es un pipeline largo que combina datos masivos, arquitecturas neuronales y miles de GPUs trabajando en paralelo. Si quieres entender cómo se entrena un modelo de lenguaje grande de punta a punta, aquí desglosamos cada fase con datos concretos del proceso real, desde el corpus inicial hasta técnicas como RLHF y GRPO.

¿Qué es el corpus y por qué define todo el modelo?

El punto de partida, y posiblemente el más decisivo, es el conjunto de entrenamiento o corpus. Este define qué problemas podrá resolver tu LLM y cuál será su calidad final.

Construir un corpus serio exige dos cosas: infraestructura tecnológica para almacenarlo y procesarlo, y capacidad humana para curarlo. Los humanos somos quienes calificamos qué tan bueno es un data set y limpiamos lo que no debería entrar. Google, por ejemplo, lleva años haciendo web scraping y curando estos datos internamente porque es el buscador más usado del planeta [01:00].

¿Cuánto pesa el corpus de un LLM moderno? Para Llama 4, Meta usó cerca de 30 trillones de tokens. Si asumes 4 bytes por token, eso da 120 quintillones de bytes, equivalente a unos 109 TB solo de texto [01:45].

En esta misma fase se aplican pipelines de limpieza: eliminar duplicados, retirar contenido potencialmente dañino y descartar texto de baja calidad. Sin esta curaduría, el modelo aprendería ruido en lugar de patrones útiles.

¿Cómo se convierte el texto en algo que el modelo entienda?

Después de curar los datos, viene la tokenización. Aquí se transforma todo el corpus (esos 109 TB en el caso de Llama 4) en tokens, que son las unidades reales que el modelo procesa.

Un token puede ser una palabra completa, una sílaba o incluso una sola letra. Para tokenizar se usan librerías como tiktoken o los tokenizers de Hugging Face [03:10]. Imagina que dejas de ver letras y empiezas a ver números, como en La Matrix: así ve el modelo tu texto.

¿Qué arquitectura se usa para entrenar?

Con el corpus tokenizado, llega lo divertido: definir la arquitectura. En GPT-2 era sencilla, una capa de atención más un multi-layer perceptron apilados muchas veces. Hoy varía según el caso de uso, pero rara vez tienes que diseñarla desde cero.

Meta y otras empresas liberan sus arquitecturas en open source, lo que permite replicarlas sin reinventar la rueda. Solo los laboratorios de investigación científica suelen modificar estructuras a fondo.

¿Por qué entrenar un LLM cuesta tanto dinero?

El entrenamiento es la fase más larga y cara. Sucede en centros de datos remotos con decenas o cientos de miles de GPUs (o TPUs en el caso de Google) trabajando en paralelo [04:30].

Ninguna GPU actual tiene cientos de terabytes de memoria, solo cientos de gigas. Por eso cada GPU procesa un pedacito del corpus, calcula su función de pérdida y envía resultados a un computador central. Ese nodo central calcula la actualización de pesos vía backpropagation y devuelve las instrucciones a cada GPU.

Este ciclo se repite así:

  • Miles, decenas de miles o cientos de miles de pasos.
  • Cada paso puede tomar minutos, decenas de minutos u horas.
  • La duración depende del tamaño de la red y del volumen de datos.

Todo lo descrito hasta aquí es lo que la industria llama pre-training.

¿Qué pasa después del pre-training?

Al terminar el pre-training tienes un modelo capaz pero general. Para especializarlo entran las fases de post-training, y la primera es el fine tuning o ajuste fino [06:15].

El fine tuning usa data sets mucho más pequeños y específicos:

  • Imágenes médicas si quieres un modelo clínico.
  • Preguntas financieras si quieres un asistente de banca.
  • Datos gubernamentales latinoamericanos, como hace Latam GPT sobre Llama 3.3 para adaptarse a la cultura regional.

Este proceso puede tomar un par de horas, no semanas. Por eso muchas empresas no entrenan desde cero: parten de modelos base como Llama 4 y los reentrenan con datos propios.

¿Qué es RLHF y por qué cambió todo con GPT-4?

Después del supervised fine tuning viene el RLHF, reinforcement learning with human feedback. Aquí humanos usan el modelo, califican sus respuestas y le dan retroalimentación directa: "te equivocas aquí" o "replica este comportamiento" [07:40].

¿Qué es RLHF en pocas palabras? Es una técnica donde personas reales califican las respuestas del LLM y ese feedback se vuelve a meter al entrenamiento. Fue el salto clave entre GPT-3 y GPT-4.

Es un proceso tedioso que requiere cientos o miles de personas haciendo prompts, calificando y consolidando data sets. Sigue vigente hoy, sobre todo para mejorar ética y razonamiento.

¿Se puede entrenar sin tantos humanos?

Sí, y ahí entra el reinforcement learning no supervisado, también llamado reinforcement learning offline porque no requiere intervención humana durante el entrenamiento.

La lógica es como entrenar a un perro: defines una política y el modelo se premia a sí mismo cuando cumple las reglas. DeepSeek R1, el modelo chino que sacudió la industria, usó una técnica llamada GRPO (Group Relative Policy Optimization) donde el modelo aprende solo basándose en reglas predefinidas [09:20].

¿Qué ventaja tiene el reinforcement learning offline? Permite escalar capacidades del modelo sin contratar más personas para calificar respuestas. El modelo se autoevalúa según políticas humanas y se premia cada acierto.

DeepSeek incluso hizo una semana de open source contando al mundo sus optimizaciones internas, una lectura imprescindible si quieres ver hasta dónde llega la complejidad real de entrenar un LLM desde cero.

¿Qué parte del pipeline te parece más intimidante: el costo del pre-training o la curaduría del corpus? Cuéntalo en los comentarios.