Benchmark - Tags | Yun Shen

CS336 第十讲 · LLM 评估与基准测试：榜单越来越多，我们到底在评估什么？

June 24, 2026

LLMEvaluationBenchmarkTech Blog

训练一个大模型很难，但说清"它到底好不好"同样难。本文按一条主线梳理大模型评估的全貌：先看现实中的四个评估视角与"想清楚四件事"的评估框架，再回到最古老的度量——困惑度（含 LAMBADA / HellaSwag 下游验证），然后系统过一遍基准测试的五大家族（知识 / 指令遵循 / 智能体 / 纯推理 / 安全），最后落到两个根本问题：真实性（考试分数 ≠ 真实世界好用）与有效性（测试集被污染、标注有噪声）。结论是当下评估正陷入"数据爆炸、信息贫困"的危机——榜单越来越多，可信的信号却越来越少。配以重绘示意图与原论文流程图。

CS336 第十讲 · LLM 评估与基准测试：榜单越来越多，我们到底在评估什么？