MoE
Mixture of Experts
Un modelo monolítico de 400B parámetros activa los 400B en cada token generado. Caro, lento.
MoE divide el modelo en N expertos (p. ej. 16 expertos de 25B). Un router decide qué 1-2 expertos usar para cada token. Resultado: la calidad se acerca a un modelo denso de 400B, pero el cómputo por token equivale a uno de 50B.
Modelos famosos con MoE: Mixtral 8x7B (Mistral), DeepSeek-V3, GPT-4 (rumor), Llama 4.
Trade-off real: la memoria sigue siendo grande (hay que cargar todos los expertos), pero la latencia y el coste de inferencia bajan significativamente. Por eso MoE domina en 2025-26 para modelos abiertos potentes.