CS336 第六讲 · GPU 高性能编程:基准测试、性能剖析与算子融合
Deep LearningGPULLMTritonTech Blog
上一讲讲清了 GPU 优化的靶心——减少访存、提高复用;这一讲是动手篇:你怎么知道自己打中了?答案只有一个——测量。全文沿一条工程闭环展开:先用基准测试"测得准"(绕开异步执行的计时陷阱),再用性能剖析"找得到"瓶颈 kernel,最后用算子融合"改得对",并把 CUDA C++、Triton、torch.compile 三条落地路径放到同一个 GELU 上对比,最后给出"什么时候才值得亲自写 kernel"的决策框架。