MoE

Mixture of Experts

Un modelo monolítico de 400B parámetros activa los 400B en cada token generado. Caro, lento.

MoE divide el modelo en N expertos (p. ej. 16 expertos de 25B). Un router decide qué 1-2 expertos usar para cada token. Resultado: la calidad se acerca a un modelo denso de 400B, pero el cómputo por token equivale a uno de 50B.

Modelos famosos con MoE: Mixtral 8x7B (Mistral), DeepSeek-V3, GPT-4 (rumor), Llama 4.

Trade-off real: la memoria sigue siendo grande (hay que cargar todos los expertos), pero la latencia y el coste de inferencia bajan significativamente. Por eso MoE domina en 2025-26 para modelos abiertos potentes.