CS336 第十讲 · LLM 评估与基准测试:榜单越来越多,我们到底在评估什么?
LLMEvaluationBenchmarkTech Blog
训练一个大模型很难,但说清"它到底好不好"同样难。本文按一条主线梳理大模型评估的全貌:先看现实中的四个评估视角与"想清楚四件事"的评估框架,再回到最古老的度量——困惑度(含 LAMBADA / HellaSwag 下游验证),然后系统过一遍基准测试的五大家族(知识 / 指令遵循 / 智能体 / 纯推理 / 安全),最后落到两个根本问题:真实性(考试分数 ≠ 真实世界好用)与有效性(测试集被污染、标注有噪声)。结论是当下评估正陷入"数据爆炸、信息贫困"的危机——榜单越来越多,可信的信号却越来越少。配以重绘示意图与原论文流程图。