Triton - Tags | Yun Shen

CS336 第六讲 · GPU 高性能编程：基准测试、性能剖析与算子融合

June 14, 2026

Deep LearningGPULLMTritonTech Blog

上一讲讲清了 GPU 优化的靶心——减少访存、提高复用；这一讲是动手篇：你怎么知道自己打中了？答案只有一个——测量。全文沿一条工程闭环展开：先用基准测试"测得准"（绕开异步执行的计时陷阱），再用性能剖析"找得到"瓶颈 kernel，最后用算子融合"改得对"，并把 CUDA C++、Triton、torch.compile 三条落地路径放到同一个 GELU 上对比，最后给出"什么时候才值得亲自写 kernel"的决策框架。