CS336 第七讲 · 分布式训练:数据、张量、流水线、序列并行全景
Deep LearningGPULLMDistributed TrainingTech Blog
前两讲都在单张卡上做文章——可当模型大到一张卡根本装不下,故事就变了。这一讲把战场搬到多卡多机:先看清新瓶颈不再是 HBM 访存,而是慢得多的"卡间通信";再用一条恒等式(All-Reduce = Reduce-Scatter + All-Gather)讲透集合通信的成本;然后把数据、张量、流水线、序列四种并行统一到"一份负载、四种切法"的框架里,逐一拆解 ZeRO/FSDP 如何把单卡显存从 120GB 压到 1.9GB、张量并行为何只能关在节点内、流水线的气泡怎么挤掉;最后落到"先快后慢、由内向外"的组合法则。