CS336 第三讲 · Transformer 架构与现代变体:从原始设计到 LLaMA 范式
Deep LearningTransformerLLMTech Blog
先回顾原始 Transformer 的五大组件,再沿归一化、前馈、激活、位置编码四条主线梳理现代变体为何收敛到 RMSNorm + SwiGLU + RoPE 的 LLaMA 范式,最后补上注意力效率变体(KV Cache、MQA/GQA/MLA、稀疏注意力)与训练稳定性技巧(z-loss、QK-Norm、软截断)。
2 articles tagged with Transformer
先回顾原始 Transformer 的五大组件,再沿归一化、前馈、激活、位置编码四条主线梳理现代变体为何收敛到 RMSNorm + SwiGLU + RoPE 的 LLaMA 范式,最后补上注意力效率变体(KV Cache、MQA/GQA/MLA、稀疏注意力)与训练稳定性技巧(z-loss、QK-Norm、软截断)。
RoPE 论文精读笔记:从绝对位置编码的交叉噪声出发,推导旋转矩阵如何让注意力点积天然只依赖相对距离。