Cómo se entrena un LLM paso a paso

Curso de Fundamentos de LLMs

Contenido del curso

Fundamentos de los LLMs

Componentes Avanzandos de los LLMs

Personalización y Optimización

Evaluación de Modelos

20
Benchmarks para evaluar y comparar modelos LLM
12:53 min

Tomar examen

Cómo se entrena un LLM paso a paso

Resumen

Entrenar un LLM no es magia ni un solo paso: es un pipeline largo que combina datos masivos, arquitecturas neuronales y miles de GPUs trabajando en paralelo. Si quieres entender cómo se entrena un modelo de lenguaje grande de punta a punta, aquí desglosamos cada fase con datos concretos del proceso real, desde el corpus inicial hasta técnicas como RLHF y GRPO.

¿Qué es el corpus y por qué define todo el modelo?

El punto de partida, y posiblemente el más decisivo, es el conjunto de entrenamiento o corpus. Este define qué problemas podrá resolver tu LLM y cuál será su calidad final.

Construir un corpus serio exige dos cosas: infraestructura tecnológica para almacenarlo y procesarlo, y capacidad humana para curarlo. Los humanos somos quienes calificamos qué tan bueno es un data set y limpiamos lo que no debería entrar. Google, por ejemplo, lleva años haciendo web scraping y curando estos datos internamente porque es el buscador más usado del planeta [01:00].

¿Cuánto pesa el corpus de un LLM moderno? Para Llama 4, Meta usó cerca de 30 trillones de tokens. Si asumes 4 bytes por token, eso da 120 quintillones de bytes, equivalente a unos 109 TB solo de texto [01:45].

En esta misma fase se aplican pipelines de limpieza: eliminar duplicados, retirar contenido potencialmente dañino y descartar texto de baja calidad. Sin esta curaduría, el modelo aprendería ruido en lugar de patrones útiles.

¿Cómo se convierte el texto en algo que el modelo entienda?

Después de curar los datos, viene la tokenización. Aquí se transforma todo el corpus (esos 109 TB en el caso de Llama 4) en tokens, que son las unidades reales que el modelo procesa.

Un token puede ser una palabra completa, una sílaba o incluso una sola letra. Para tokenizar se usan librerías como tiktoken o los tokenizers de Hugging Face [03:10]. Imagina que dejas de ver letras y empiezas a ver números, como en La Matrix: así ve el modelo tu texto.

¿Qué arquitectura se usa para entrenar?

Con el corpus tokenizado, llega lo divertido: definir la arquitectura. En GPT-2 era sencilla, una capa de atención más un multi-layer perceptron apilados muchas veces. Hoy varía según el caso de uso, pero rara vez tienes que diseñarla desde cero.

Meta y otras empresas liberan sus arquitecturas en open source, lo que permite replicarlas sin reinventar la rueda. Solo los laboratorios de investigación científica suelen modificar estructuras a fondo.

¿Por qué entrenar un LLM cuesta tanto dinero?

El entrenamiento es la fase más larga y cara. Sucede en centros de datos remotos con decenas o cientos de miles de GPUs (o TPUs en el caso de Google) trabajando en paralelo [04:30].

Ninguna GPU actual tiene cientos de terabytes de memoria, solo cientos de gigas. Por eso cada GPU procesa un pedacito del corpus, calcula su función de pérdida y envía resultados a un computador central. Ese nodo central calcula la actualización de pesos vía backpropagation y devuelve las instrucciones a cada GPU.

Este ciclo se repite así:

Miles, decenas de miles o cientos de miles de pasos.
Cada paso puede tomar minutos, decenas de minutos u horas.
La duración depende del tamaño de la red y del volumen de datos.

Todo lo descrito hasta aquí es lo que la industria llama pre-training.

¿Qué pasa después del pre-training?

Al terminar el pre-training tienes un modelo capaz pero general. Para especializarlo entran las fases de post-training, y la primera es el fine tuning o ajuste fino [06:15].

El fine tuning usa data sets mucho más pequeños y específicos:

Imágenes médicas si quieres un modelo clínico.
Preguntas financieras si quieres un asistente de banca.
Datos gubernamentales latinoamericanos, como hace Latam GPT sobre Llama 3.3 para adaptarse a la cultura regional.

Este proceso puede tomar un par de horas, no semanas. Por eso muchas empresas no entrenan desde cero: parten de modelos base como Llama 4 y los reentrenan con datos propios.

¿Qué es RLHF y por qué cambió todo con GPT-4?

Después del supervised fine tuning viene el RLHF, reinforcement learning with human feedback. Aquí humanos usan el modelo, califican sus respuestas y le dan retroalimentación directa: "te equivocas aquí" o "replica este comportamiento" [07:40].

¿Qué es RLHF en pocas palabras? Es una técnica donde personas reales califican las respuestas del LLM y ese feedback se vuelve a meter al entrenamiento. Fue el salto clave entre GPT-3 y GPT-4.

Es un proceso tedioso que requiere cientos o miles de personas haciendo prompts, calificando y consolidando data sets. Sigue vigente hoy, sobre todo para mejorar ética y razonamiento.

¿Se puede entrenar sin tantos humanos?

Sí, y ahí entra el reinforcement learning no supervisado, también llamado reinforcement learning offline porque no requiere intervención humana durante el entrenamiento.

La lógica es como entrenar a un perro: defines una política y el modelo se premia a sí mismo cuando cumple las reglas. DeepSeek R1, el modelo chino que sacudió la industria, usó una técnica llamada GRPO (Group Relative Policy Optimization) donde el modelo aprende solo basándose en reglas predefinidas [09:20].

¿Qué ventaja tiene el reinforcement learning offline? Permite escalar capacidades del modelo sin contratar más personas para calificar respuestas. El modelo se autoevalúa según políticas humanas y se premia cada acierto.

DeepSeek incluso hizo una semana de open source contando al mundo sus optimizaciones internas, una lectura imprescindible si quieres ver hasta dónde llega la complejidad real de entrenar un LLM desde cero.

¿Qué parte del pipeline te parece más intimidante: el costo del pre-training o la curaduría del corpus? Cuéntalo en los comentarios.

Gabriel Obregón

Estudiante

🧠 ENTRENAMIENTO DE UN MODELO DE LENGUAJE GRANDE (LLM)

📚 1. ¿Qué es un LLM?

Un modelo que aprende a comprender y generar lenguaje natural usando enormes volúmenes de texto y potentes recursos tecnológicos.

🧾 2. CORPUS DE ENTRENAMIENTO

¿Qué es? Es el conjunto de textos que alimenta y entrena al modelo.

Características:

Obtenido por web scraping (páginas web, foros, etc.).
Requiere revisión y limpieza humana.
Empresas como Google y Meta crean sus propios datasets curados.

Ejemplo real: LLaMA 4 (Meta) usa 30 billones de tokens = 109 terabytes de texto.

📏 3. TAMAÑO DEL CORPUS

Cómo se mide:

1 token ≈ 4 bytes
30 billones de tokens ≈ 109 terabytes

Objetivo: Eliminar contenido duplicado o dañino para mejorar calidad.

🧩 4. TOKENIZACIÓN

¿Qué es? Proceso de dividir el texto en unidades mínimas (tokens) para que el modelo pueda interpretarlo.

Tipos de tokens:

Palabras completas
Sílabas
Letras individuales

Herramientas comunes: TikToken (Hugging Face)

🧱 5. ARQUITECTURA DEL MODELO

¿Qué implica? Diseñar la estructura del modelo según su uso.

Ejemplo: GPT-2 usa:

Capas de atención
Redes neuronales MLP (Multilayer Perceptron)

Dato útil: Algunas arquitecturas son open source (como las de Meta).

🖥️ 6. ENTRENAMIENTO INTENSIVO

Fase más costosa y prolongada.

Requiere:

Miles de GPUs o TPUs
Centros de datos especializados

Proceso:

Cada GPU procesa una parte del corpus
Se envían ajustes al servidor central
Dura semanas o meses

🔧 7. FINE TUNING

¿Qué es? Ajuste del modelo para tareas específicas.

Ejemplos de aplicación:

Diagnóstico médico
Finanzas

Ventaja: Más rápido que el entrenamiento inicial.

👨‍🏫 8. RLHF (Reinforcement Learning with Human Feedback)

¿Qué hace? Humanos corrigen respuestas del modelo y dan retroalimentación.

Beneficio: Mejora la calidad del modelo.

Ejemplo notable: Transición de GPT-3 a GPT-4.

🤖 9. APRENDIZAJE POR REFUERZO NO SUPERVISADO

¿Cómo funciona? El modelo aprende solo, sin intervención humana directa.

Técnicas:

Reglas predefinidas
Aprendizaje offline

**Ejemplo destacado:**DeepSeek R1 usando técnicas como GRP0.

Harold Celis

Edgar A. Gonzalez Ambriz

Tadeo Juarez

Edgar Villatoro Pérez

Hugo Quinteros

Santiago Pineda Botero

Jorge Andres Castro Pachon

Roberto Carlos Jacobo Fuentes

Regina Flores

Andres David Martinez Torres

MARIA TERESA PANIAGUA RIVERA

Marcelo Bengolea

Daniel Alberto Vega Bejarano

Arno Sonck

German Augusto Lopera Marquez

Cómo se entrena un LLM paso a paso

Fundamentos de los LLMs

Funcionamiento interno de los grandes modelos de lenguaje

Qué construirás al terminar el curso de LLMs

Historia de la inteligencia artificial desde Turing hasta GPT-4

Tokenización y embeddings en LLMs

Qué es y cómo aprende un MLP

Cómo funciona la atención en GPT-2

Fundamentos de PyTorch para modelos de machine learning

Componentes Avanzandos de los LLMs

Construye GPT-2 desde cero con PyTorch

Qué es RoPE y cómo mejora GPT

Integración de Rope en GPT-2 con PyTorch

Leyes de escalado y modelos multimodales en inteligencia artificial