Mixture of Experts: cómo funciona MoE

Curso de Fundamentos de LLMs

Contenido del curso

Fundamentos de los LLMs

Componentes Avanzandos de los LLMs

Personalización y Optimización

Evaluación de Modelos

20
Benchmarks para evaluar y comparar modelos LLM
12:53 min

Tomar examen

Mixture of Experts: cómo funciona MoE

Resumen

Los Mixture of Experts (MoE) son una arquitectura de modelos de lenguaje que, en lugar de activar toda la red para responder cada pregunta, activan solo a los expertos necesarios. Esto reduce cómputo, costo y energía sin sacrificar precisión, y resulta clave para quienes investigan o desarrollan LLMs con recursos limitados.

¿Qué es un Mixture of Experts y por qué surgió con DeepSeek R1?

Un MoE es una arquitectura especial de transformadores compuesta por varios modelos pequeños y especializados, llamados expertos, que se entrenan con corpus específicos en lugar de un único corpus gigante. La idea imita cómo funcionamos los humanos: nos volvemos buenos en lo que estudiamos a fondo.

DeepSeek R1, el modelo chino, fue la primera arquitectura grande en implementarlo de forma exitosa. Y aquí viene lo interesante: con menos cómputo logran un rendimiento significativamente mayor, lo que se conecta directo con las leyes del escalamiento que ya vimos.

¿Qué significa MoE en inglés? Mixture of Experts, escrito como MoE (M mayúscula, o minúscula, E mayúscula). Es una arquitectura que combina varios modelos especialistas en una misma red.

¿En qué se diferencia un MoE de un modelo denso?

Un dense model activa todos sus parámetros cada vez que entra un token. GPT-2, GPT-3 y GPT-4 funcionan así: si le dices "gracias", el modelo activa trillones de parámetros para responderte "de nada".

En un MoE, el corpus de entrenamiento se divide por categorías: programación, matemáticas, idiomas como inglés, español, chino, ruso, italiano o francés, y ciencias. Luego se entrena un experto pequeño para cada categoría usando supervised fine tuning, y al final se combinan los parámetros, normalmente promediando los valores de las neuronas.

¿Cómo funciona la arquitectura MoE en Llama 4 Maverick?

Llama 4 Maverick, lanzado por Meta, es un buen ejemplo concreto. Tiene 400 billones de parámetros totales, pero su arquitectura está organizada en 128 expertos, cada uno con aproximadamente 17 billones de parámetros [03:00].

En el momento de la inferencia, que es cuando le escribes un prompt y el modelo responde, no se activan los 400 billones. Solo se activan unos 17 billones, casi 30 veces menos. Esto hace que la inferencia sea más rápida, gaste menos energía y cueste menos dinero.

400 billones de parámetros totales.
128 expertos especializados.
17 billones de parámetros activos por inferencia.
Reducción cercana a 30x en cómputo.

¿Qué es la gate network y para qué sirve?

La gate network es una red mucho más pequeña que el LLM, entrenada para conocer cada rincón de la arquitectura y decidir qué expertos activar ante cada pregunta [05:30].

Piénsalo como un vigilante en Disneyland. Llegas por primera vez, no conoces el parque y le preguntas cómo llegar a una atracción. Él te indica el camino más eficiente en lugar de dejarte buscar al azar. Eso hace la gate network: rutea tu prompt a los dos o más expertos que mejor pueden responderlo.

Esta red tiene su propia función de pérdida y se entrena devolviendo expertos de manera aleatoria al inicio, igual que una red neuronal común. Sin la gate network, la arquitectura MoE simplemente no sabría a quién preguntarle.

¿Qué es la gate network en un MoE? Es una red pequeña que actúa como ruteador: recibe el prompt y decide qué expertos del modelo deben activarse para responder con precisión.

¿Cómo se resuelve el load balancing y la sparsity?

Uno de los problemas más importantes en MoE es el load balancing. Si la red siempre usa los mismos expertos durante el entrenamiento, en inferencia ignorará al resto. Para evitarlo, parte del entrenamiento reemplaza la respuesta de la gate network con elecciones aleatorias, forzando a la red a aprender de forma homogénea.

Aquí entra el concepto de sparsity o esparcidad. En álgebra lineal, una matriz sparse es una matriz llena de ceros con información relevante solo en puntos específicos. En MoE, la sparsity asegura que la gate network no se confunda al elegir expertos y que el modelo no se vaya por rutas sin sentido [08:30].

¿Cuánto cómputo se ahorra realmente con un MoE?

Imagina un modelo de 47 billones de parámetros con 8 expertos, donde la gate network activa 2 por consulta. La cuenta es directa: 47 dividido entre 8, multiplicado por 2, da unos 11,75 billones de parámetros activos.

Eso es aproximadamente 4x menos cómputo que activar el modelo completo. Una cuarta parte de la GPU para la misma precisión.

Menos gasto en inferencia.
No requiere centros de datos gigantes.
Posibilidad de correr modelos en máquinas locales o servidores propios.

¿Qué limitaciones tienen los MoE en memoria VRAM?

Aunque la inferencia activa pocos parámetros, todos los expertos deben estar cargados en la memoria VRAM de la GPU. La razón es simple: no sabes de antemano cuál experto pedirá la gate network, y cargarlo desde el disco duro pasando por la CPU añade demasiada latencia.

Llama 4 Maverick, con sus 400 billones de parámetros, requiere alrededor de 160 GB de memoria de video para estar disponible, aunque en cada inferencia use solo unas 20 GB. Es una restricción real que debes considerar al planear infraestructura.

¿Por qué los MoE democratizan el entrenamiento de LLMs?

La ventaja más grande es que cada experto puede entrenarse de forma paralela y separada. Esto reduce el tiempo de entrenamiento de meses a semanas, y baja el costo de dinero, energía e infraestructura.

DeepSeek demostró que con menos recursos se pueden crear modelos que compiten con O1 u O3 de OpenAI. Para Latinoamérica, donde no siempre tenemos acceso a los últimos chips de Nvidia, los MoE abren la puerta a entrenar LLMs con la infraestructura que ya poseemos.

¿Has probado correr un modelo MoE en tu máquina local? Cuéntame en los comentarios qué arquitectura estás explorando.

Mateo Montoya Henao

Estudiante

Here’s a clear, code-free explanation of Mixture of Experts (MoE)—the breakthrough architecture behind efficient AI giants like GPT-4 and Mistral! 🌟

1. Concept: Smarter, Not Harder

MoE mimics a team of specialists:

Instead of using the entire neural network for every input, it selects a few "experts" (small sub-models) per task.
A gating mechanism (like a smart router) decides which experts to activate based on the input.
Only the chosen experts process the data—saving computation while maintaining model power.

Analogy: Think of MoE like a hospital:

For a heart issue, only cardiologists (experts) are called, not every doctor on staff.
The receptionist (gating router) directs patients to the right specialists.

2. Key Components

(A) Experts

Small, specialized neural networks (e.g., feedforward layers).
Each expert excels at specific tasks (e.g., grammar, math, facts).

(B) Gating Router

Analyzes the input (e.g., a word or image patch).
Assigns weights to experts (e.g., Expert 3: 80%, Expert 7: 20%).
Only the top-k experts (usually 1-2) are activated.

(C) Dynamic Computation

Inputs take different paths through the model.
Unused experts stay "off," reducing compute costs.

3. Benefits

(A) Efficiency

Massive capacity: Models can have trillions of parameters (e.g., Switch Transformer’s 1.6T), but only billions are active per input.
Faster inference: Less computation per token → lower latency.

(B) Specialization

Experts auto-learn domains (e.g., some handle code, others chemistry).
Improves accuracy for diverse tasks.

(C) Scalability

Experts can be distributed across many GPUs/TPUs.

4. Real-World Impact

GPT-4 (rumored): Uses MoE for efficiency in text/image tasks.
Mistral 7B: Open-weight MoE model rivaling larger dense models.
Google’s Switch Transformer: 1.6T params but ~3x cheaper to run than dense equivalents.

Trade-offs:

Higher memory (all experts stored, but not all active).
Complex to train (requires balancing expert usage).

5. Example Workflow

For the input "The mitochondria are the [MASK] of the cell":

Router detects a biology context.
Activates:
- Expert 5 (biology terms) → "powerhouse"
- Expert 2 (grammar) → ensures verb agreement.
Ignores irrelevant experts (e.g., math, legal jargon).

Why It Matters: MoE unlocks large-model capabilities with small-model costs—pushing the boundaries of what’s practical in AI! 🚀

Gabriel Obregón

Cynthia Mercedes Gorozabel Villavicencio

Oriana Giraldo Arcia

•

Daniel Alberto Vega Bejarano

Diego Poveda

Andrés Ricardo Cristancho Jiménez

Juan Diego

Kevin Fiorentino

Luis Rebollo

Daniel Dobles

Andres David Martinez Torres

MARIA TERESA PANIAGUA RIVERA

Tadeo Juarez

Pedro Esteban Bedoya Castaño

Edgar A. Gonzalez Ambriz

Mixture of Experts: cómo funciona MoE

Fundamentos de los LLMs

Funcionamiento interno de los grandes modelos de lenguaje

Qué construirás al terminar el curso de LLMs

Historia de la inteligencia artificial desde Turing hasta GPT-4

Tokenización y embeddings en LLMs

Qué es y cómo aprende un MLP

Cómo funciona la atención en GPT-2

Fundamentos de PyTorch para modelos de machine learning

Componentes Avanzandos de los LLMs

Construye GPT-2 desde cero con PyTorch

Qué es RoPE y cómo mejora GPT

Integración de Rope en GPT-2 con PyTorch

Leyes de escalado y modelos multimodales en inteligencia artificial

Cómo se entrena un LLM paso a paso