MoE - Tags | Yun Shen

CS336 第四讲 · 混合专家模型（MoE）：用稀疏路由把参数与算力解耦

June 10, 2026

Deep LearningMoELLMTech Blog

从稠密 FFN 的算力瓶颈出发，讲清 MoE "容量大但计算稀疏"的核心思想：通用门控公式、三种路由方向（Token 选专家 TC / 专家选 Token EC / 哈希路由）的取舍、负载均衡如何改写训练目标（辅助损失 / Router z-loss / 无辅助损失偏置）与容量溢出机制，再串起 Switch Transformer、DeepSpeed-MoE、DeepSeekMoE 到 DeepSeek-V4 的演进主线，配以可运行的最小实现代码。