CS336 第四讲 · 混合专家模型(MoE):用稀疏路由把参数与算力解耦
Deep LearningMoELLMTech Blog
从稠密 FFN 的算力瓶颈出发,讲清 MoE "容量大但计算稀疏"的核心思想:通用门控公式、三种路由方向(Token 选专家 TC / 专家选 Token EC / 哈希路由)的取舍、负载均衡如何改写训练目标(辅助损失 / Router z-loss / 无辅助损失偏置)与容量溢出机制,再串起 Switch Transformer、DeepSpeed-MoE、DeepSeekMoE 到 DeepSeek-V4 的演进主线,配以可运行的最小实现代码。