Los Mixture of Experts (MoE) son una arquitectura de modelos de lenguaje que, en lugar de activar toda la red para responder cada pregunta, activan solo a los expertos necesarios. Esto reduce cómputo, costo y energía sin sacrificar precisión, y resulta clave para quienes investigan o desarrollan LLMs con recursos limitados.
¿Qué es un Mixture of Experts y por qué surgió con DeepSeek R1?
Un MoE es una arquitectura especial de transformadores compuesta por varios modelos pequeños y especializados, llamados expertos, que se entrenan con corpus específicos en lugar de un único corpus gigante. La idea imita cómo funcionamos los humanos: nos volvemos buenos en lo que estudiamos a fondo.
DeepSeek R1, el modelo chino, fue la primera arquitectura grande en implementarlo de forma exitosa. Y aquí viene lo interesante: con menos cómputo logran un rendimiento significativamente mayor, lo que se conecta directo con las leyes del escalamiento que ya vimos.
¿Qué significa MoE en inglés? Mixture of Experts, escrito como MoE (M mayúscula, o minúscula, E mayúscula). Es una arquitectura que combina varios modelos especialistas en una misma red.
¿En qué se diferencia un MoE de un modelo denso?
Un dense model activa todos sus parámetros cada vez que entra un token. GPT-2, GPT-3 y GPT-4 funcionan así: si le dices "gracias", el modelo activa trillones de parámetros para responderte "de nada".
En un MoE, el corpus de entrenamiento se divide por categorías: programación, matemáticas, idiomas como inglés, español, chino, ruso, italiano o francés, y ciencias. Luego se entrena un experto pequeño para cada categoría usando supervised fine tuning, y al final se combinan los parámetros, normalmente promediando los valores de las neuronas.
¿Cómo funciona la arquitectura MoE en Llama 4 Maverick?
Llama 4 Maverick, lanzado por Meta, es un buen ejemplo concreto. Tiene 400 billones de parámetros totales, pero su arquitectura está organizada en 128 expertos, cada uno con aproximadamente 17 billones de parámetros [03:00].
En el momento de la inferencia, que es cuando le escribes un prompt y el modelo responde, no se activan los 400 billones. Solo se activan unos 17 billones, casi 30 veces menos. Esto hace que la inferencia sea más rápida, gaste menos energía y cueste menos dinero.
- 400 billones de parámetros totales.
- 128 expertos especializados.
- 17 billones de parámetros activos por inferencia.
- Reducción cercana a 30x en cómputo.
¿Qué es la gate network y para qué sirve?
La gate network es una red mucho más pequeña que el LLM, entrenada para conocer cada rincón de la arquitectura y decidir qué expertos activar ante cada pregunta [05:30].
Piénsalo como un vigilante en Disneyland. Llegas por primera vez, no conoces el parque y le preguntas cómo llegar a una atracción. Él te indica el camino más eficiente en lugar de dejarte buscar al azar. Eso hace la gate network: rutea tu prompt a los dos o más expertos que mejor pueden responderlo.
Esta red tiene su propia función de pérdida y se entrena devolviendo expertos de manera aleatoria al inicio, igual que una red neuronal común. Sin la gate network, la arquitectura MoE simplemente no sabría a quién preguntarle.
¿Qué es la gate network en un MoE? Es una red pequeña que actúa como ruteador: recibe el prompt y decide qué expertos del modelo deben activarse para responder con precisión.
¿Cómo se resuelve el load balancing y la sparsity?
Uno de los problemas más importantes en MoE es el load balancing. Si la red siempre usa los mismos expertos durante el entrenamiento, en inferencia ignorará al resto. Para evitarlo, parte del entrenamiento reemplaza la respuesta de la gate network con elecciones aleatorias, forzando a la red a aprender de forma homogénea.
Aquí entra el concepto de sparsity o esparcidad. En álgebra lineal, una matriz sparse es una matriz llena de ceros con información relevante solo en puntos específicos. En MoE, la sparsity asegura que la gate network no se confunda al elegir expertos y que el modelo no se vaya por rutas sin sentido [08:30].
¿Cuánto cómputo se ahorra realmente con un MoE?
Imagina un modelo de 47 billones de parámetros con 8 expertos, donde la gate network activa 2 por consulta. La cuenta es directa: 47 dividido entre 8, multiplicado por 2, da unos 11,75 billones de parámetros activos.
Eso es aproximadamente 4x menos cómputo que activar el modelo completo. Una cuarta parte de la GPU para la misma precisión.
- Menos gasto en inferencia.
- No requiere centros de datos gigantes.
- Posibilidad de correr modelos en máquinas locales o servidores propios.
¿Qué limitaciones tienen los MoE en memoria VRAM?
Aunque la inferencia activa pocos parámetros, todos los expertos deben estar cargados en la memoria VRAM de la GPU. La razón es simple: no sabes de antemano cuál experto pedirá la gate network, y cargarlo desde el disco duro pasando por la CPU añade demasiada latencia.
Llama 4 Maverick, con sus 400 billones de parámetros, requiere alrededor de 160 GB de memoria de video para estar disponible, aunque en cada inferencia use solo unas 20 GB. Es una restricción real que debes considerar al planear infraestructura.
¿Por qué los MoE democratizan el entrenamiento de LLMs?
La ventaja más grande es que cada experto puede entrenarse de forma paralela y separada. Esto reduce el tiempo de entrenamiento de meses a semanas, y baja el costo de dinero, energía e infraestructura.
DeepSeek demostró que con menos recursos se pueden crear modelos que compiten con O1 u O3 de OpenAI. Para Latinoamérica, donde no siempre tenemos acceso a los últimos chips de Nvidia, los MoE abren la puerta a entrenar LLMs con la infraestructura que ya poseemos.
¿Has probado correr un modelo MoE en tu máquina local? Cuéntame en los comentarios qué arquitectura estás explorando.