CS336 第十讲 · LLM 评估与基准测试：榜单越来越多，我们到底在评估什么？

训练一个大模型很难，但还有一件同样难的事：训练完之后，你怎么说清它到底好不好？

打开任何一份模型发布报告，都是一长串基准分数：MMLU-Pro 多少、GPQA 多少、MATH 多少。这些数字看起来客观、可比，可一旦你真去依赖它们，麻烦就来了——经典基准纷纷逼近满分而"饱和"，热门榜单被各种手段刷到失真，社区里则流传着和分数对不上的"体感"。连 Andrej Karpathy 都在公开抱怨：现在真的不知道该看哪个指标了。

本文对应 Datawhale diy-llm 第十二章（评估与基准测试）。原文铺得很全，这里把它压成一条主线：现实中怎么看模型 → 一次评估要想清楚什么 → 最基础的度量困惑度 → 基准的五大家族 → 两个根本问题（真实性与有效性）→ 我们到底在评估什么。核心概念重绘为示意图，并保留原论文里最有代表性的流程图。

一、看待一个模型，至少有四个视角

在谈具体基准之前，先承认一件事：没有任何单一数字能代表"模型好不好"。现实中我们至少同时在用四个互补的视角看模型。

看待一个模型的四个视角：基准分数、成本性价比、用户的真实选择、社区口碑

其中"成本与性价比"这一视角尤其值得单独画出来——把"智能"放到"价格"的坐标上，你看到的不是一个冠军，而是一条帕累托前沿：再聪明的模型，太贵也没人用，真正有意义的是"同等价位下最强"或"同等能力下最便宜"。

Artificial Analysis：模型智能指数 vs 推理成本，真正重要的是帕累托前沿而非单点冠军

二、设计一次评估，要想清楚四件事

第二个原则：评估必须服务于明确的目标，没有"放之四海皆准"的评估。任何一次评估都可以拆成四个环节，每个环节的选择都会实实在在地改变最终结论。

评估框架的四个环节：输入是什么、如何调用模型、如何评估输出、如何解读结果

这里最容易被忽略的是第二步"如何调用"：同一个模型，零样本和思维链能差出一大截；允许不允许调用工具，评的其实是"模型本身"还是"模型 + 脚手架的整个系统"——这是两个完全不同的问题。第四步"如何解读"同样关键：一个高分到底是真泛化，还是把答案背了下来？后面"有效性"一节会专门回到这个问题。

三、困惑度：最古老也最基础的度量

在五花八门的基准之前，语言模型有一个最朴素、最不依赖人工标注的度量——困惑度（Perplexity）。它衡量模型对一段未见文本的"平均犹豫程度"：

\text{PPL}(D) = p(D)^{-\frac{1}{|D|}} = \left(\prod_{i=1}^{|D|} p(x_i \mid x_{\lt i})\right)^{-\frac{1}{|D|}}

其中 $p(D)$ 是模型赋予整段文本的联合概率， $|D|$ 是 token 总数。直觉很简单：读到"我把水烧__"，好模型几乎笃定下一个字是"开"，概率分布尖锐而自信，困惑度低；差模型对一堆候选都拿不准，分布平摊而犹豫，困惑度高。

困惑度的直觉：分布越尖锐自信困惑度越低，越平摊犹豫困惑度越高

为什么必须用测试集？ 训练集上的困惑度可以无限刷低（模型能直接记住），只有在没见过的测试集上，困惑度才真正反映泛化能力。早年有几个经典语料：

数据集	特点
Penn Treebank (PTB)	小规模华尔街日报语料，早期 RNN / LSTM 实验的标配
WikiText-103	维基百科大规模英文语料，更贴近真实语言分布
One Billion Word (1BW)	欧议会 / 联合国 / 新闻文本，词汇量大、难度高

这条线索串起了语言模型的进步史：2016 年 Jozefowicz 等用 CNN+LSTM 把 1BW 的困惑度从 51.3 一举压到 30.0；到了 GPT-2，干脆在海量 WebText 上预训练、再零样本地去测各种标准数据集，用"无需在目标数据上训练就能预测得很好"证明了大规模多样数据带来的泛化能力。

为什么到今天困惑度仍然重要？ 因为它平滑、连续、无需任务标注，是拟合缩放定律（参见缩放定律）最干净的信号；还能扩展成"条件困惑度"，比如在问答里只计算答案部分。极端一点甚至有"困惑度最大主义"的哲学观点：完美的困惑度等于真实语言分布的熵，把困惑度一路降到底，就等于逼近真实世界分布、逼近 AGI。

但它也有陷阱：黑盒模型上报的概率难以验证，早期模型对未登录词（UNK）的处理会让概率失真——所以困惑度更适合研究者自控的场景，不适合公开的黑盒横评。也正因如此，我们还需要能反映模型是否"真的理解语言"的下游任务：

完形填空（LAMBADA）：给一段上下文、遮住最后一个词让模型补全，刻意挑选那些"必须读懂全文才能填对"的例子，考的是长距离依赖与世界知识。

LAMBADA 完形填空任务样例：必须理解整段上下文才能补全最后一个词

常识推理（HellaSwag）：给一个日常场景，从四个后续里选出最自然的那个，考的是对生活常识的判断，且可以自动打分。

HellaSwag 常识推理样例：从四个后续中选出最符合常识的一项

四、基准测试的五大家族

主流基准虽然多，但大致可以归成五个家族，每一类回答关于模型的一个不同问题。

基准测试的五大家族：知识、指令遵循、智能体、纯推理、安全

知识类：你知道多少？

这一类问"模型脑子里装了多少知识"，形式多为多项选择。

MMLU：横跨 57 个学科（数学、历史、法律、伦理……）的选择题。GPT-3 时代少样本还不到 50%，如今顶尖模型已逼近 90%+，逐渐饱和，部分题目还被指过于简单或带噪声。
MMLU-Pro：MMLU 的加强版——剔除噪声题，把选项从 4 个加到 10 个，准确率应声下降，缓解了饱和，通常配合思维链评测。
GPQA：由 PhD 出题的"防谷歌"难题，标准是"非专家即使搜 30 分钟也答不出"。博士专家约 65%、GPT-4 约 39%，当前顶尖模型约 80%。
Humanity's Last Exam（人类最后一考）：2500 道多模态、多学科难题，靠重金悬赏向社区征集、再多轮筛掉简单题。它的局限也很典型：题目征集有选择偏差，且形式只能是"有标准答案的考试"。

Humanity's Last Exam 的收集与多阶段筛选流程

指令遵循类：听不听话、答得好不好？

知识题有标准答案，但日常使用更多是开放式对话，于是有了这一类。

Chatbot Arena：让真实用户对两个匿名模型的回复盲测投票，用 ELO 算分。输入天然动态、能容纳新模型、直接反映真实偏好；缺点是投票者有样本偏差，分数也可能被策略性操纵。
IFEval：专测"听话程度"，用可自动验证的约束（如"至少写 5 句话""必须包含某关键词"）。高度自动化，但只看约束是否满足，不评语义质量。
AlpacaEval：805 条多样指令，用强模型（如 GPT-4）当裁判算胜率。自动化程度高，但裁判有偏见，容易被"回答更长"之类的表面特征带偏。
WildBench：从一百多万条真实人机对话里采样，再用 GPT-4-Turbo 配检查清单逐项评分。它和 Chatbot Arena 的相关系数高达 0.95，几乎成了"新基准到底有没有用"的事实检验标准。

WildBench 的构建流程：从真实对话采样并配合检查清单评分

智能体类：能不能干完整的活？

前面都是"答题"，这一类要求模型像一个能自主行动的智能体，跑完一整条任务链。

SWE-Bench：从 12 个 Python 仓库里取 2294 个真实任务——给一个 GitHub issue，模型要提交一个能通过单元测试的 PR。成功与否直接跑测试说了算，标准毫不含糊。

SWE-Bench 评测流程：根据真实 issue 生成补丁并运行单元测试验证

CyBench：40 个网络安全"夺旗"（CTF）挑战，难度以"人类首次攻破耗时"衡量，有的题人类要花上 24 小时。
MLE-Bench：75 个 Kaggle 机器学习竞赛，要求模型走完数据处理、训练、调参、提交的完整流程。最强模型的夺牌率也不到 20%——这类基准代表着当前能力前沿，也清楚地标出了"自主智能体"距离成熟还有多远。

MLE-Bench 评测流程：模型需走完完整的机器学习竞赛流程

纯推理类：没学过也能推出来吗？

知识类考"记得多少"，ARC-AGI 偏要反过来考"没学过也能不能推"。它给出一组视觉化的"输入网格 → 输出网格"示例，让模型自己推断变换规则、再应用到新网格上。

ARC-AGI-1 评测示意：从几组网格示例中推断规则并应用到新输入

它几乎不依赖语言知识，考的是纯粹的、类人的抽象与泛化。这恰恰是传统 LLM 长期吃瘪的地方——人类觉得轻松，模型却长期得分极低，因此被视作通往 AGI 的试金石之一。难度更高的 ARC-AGI-2 则进一步拉开了人与模型的差距。

ARC-AGI-2 评测示意：更高难度的抽象推理任务

安全类：会不会作恶？

最后一类问的是风险。但"安全"本身就难定义：它同时包含拒绝有害请求、减少幻觉、符合伦理等多个维度。对闭源 API，关键看模型作恶的"倾向性"；而对开源基础模型，"能力本身就是风险"。

HarmBench：定义 510 种违法或违背社会规范的有害行为，用提示词测模型的执行倾向，核心指标是拒绝率。
AIR-Bench：对齐全球监管框架与公司政策，覆盖 314 个风险类别、5694 条评测提示，系统性地检验合规与风险管理。

AIR-Bench 评测集概览：对齐监管框架的风险类别体系

还有两个绕不开的话题：一是越狱（Jailbreaking）——即便模型被训练成会拒绝，攻击者仍能用自动优化的提示（如 GCG）绕过防护，且攻击甚至能从开源模型迁移到闭源模型，暴露出防线的脆弱；二是部署前测试——美、英 AI 安全研究所推动厂商在发布前提供模型访问权、由安全机构评估出报告，尽管目前还只是自愿性质，却代表了监管合规化的方向。说到底，安全不只是"会不会拒绝"，把医疗场景里的幻觉降下来，本身就是在提升安全。

五、真实性：考试分数 ≠ 真实世界好用

把五大家族走完，会发现一个共同的尴尬：它们几乎都是标准化"考试题"，而真实用户提出的，大多是模糊、开放、多轮往返的"求助"。两者之间始终隔着一道鸿沟。

考试分数与真实使用之间的鸿沟：测验型题目 vs 求助型诉求

所以越来越多人主张：真实世界的使用，才是模型价值的终极检验。LLM 早已被大规模集成进各类应用，Cursor 这样的编程工具几乎完全建立在它之上——这些场景里的表现，比任何榜单都更能说明问题。

沿着这个方向出现了一些新尝试：Anthropic 的 Clio 在保护隐私的前提下，用语言模型去分析真实用户数据，发现人们真实的提问模式和标准化基准差异显著；医疗领域的 MedHELM 则由 29 名临床医生贡献 121 个真实临床任务，刻意贴近实际诊疗而非"医学考试"。但它们也撞上了一个根本矛盾：越真实，越涉及隐私——患者数据没法公开，这让"真实性基准"天然难以共享和复现。

六、有效性：当测试集已经被"背"过了

就算一个基准设计得很好、也足够真实，还有最后一道坎：它测出来的分数可信吗？这就是有效性问题，而最大的威胁是数据污染。

数据污染：当训练语料约等于整个互联网，测试集很可能早已被模型见过

当训练语料约等于整个互联网，你几乎无法保证测试题没被模型见过。重叠的部分会让分数虚高，而大多数实验室又不公开训练数据，外界根本无从核实重叠有多大。对此有两条应对路线：

路线一，从模型反推：利用数据点的"可交换性"等统计性质，估计模型是否见过某些测试样本——只能给出概率，无法 100% 坐实。
路线二，推动报告规范：要求厂商主动披露训练-测试重叠情况，把它变成类似学术诚信的行业自律。

许多基准本身就存在标注错误或噪声，需要定期审计与修订

更微妙的是，问题不全在模型——基准本身也常有标注错误和噪声。SWE-Bench 推出人工核验过的 Verified 版本后，人们才发现原始分数可能因为题目本身的错误而被低估。换句话说，有时不是模型不行，是题出错了。

从模型反推训练-测试重叠：利用数据点的可交换性进行推断

七、我们到底在评估什么？

把以上都串起来，会触到一个更根本的转变：评估的对象本身变了。

评估范式从"比较方法"转向"比较模型/系统"，由此带来当下的评估危机

ImageNet 时代，我们评估的是方法：固定数据集、固定训练协议，只比新算法本身的优劣，强调科学可复现。而今天，我们评估的是模型/系统：数据和技巧随便用，比的是端到端的最终产品，强调实用价值。

老办法对上新对象，就失灵了——这正是当下"评估危机"的根源：经典基准纷纷饱和，热门榜单被严重过拟合（挖提示词、拿私有集反复测、甚至把排名直接当成训练监督信号），而我们手握海量数据和排名，却缺乏一套公认、可靠的综合标准，陷入"数据爆炸、信息贫困"的怪圈。一个被反复提及的出路是：与其追逐单一公开榜单，不如把多个私有评估集组合成集成评估体系，强调多维度而非单一排名，在开放与防作弊之间找平衡。

总结

把全文压成几条结论：

看模型至少有四个视角——基准分数、成本性价比、用户真实选择、社区口碑，没有任何单一数字能代表全部；性价比要看帕累托前沿而非单点冠军。
设计评估要想清四件事：输入是什么、如何调用、如何评估输出、如何解读；其中"评模型还是评系统""是泛化还是记忆"最易被忽略。
困惑度是最基础的度量，平滑无标注、适合拟合缩放定律，但黑盒上难验证，需配 LAMBADA / HellaSwag 等下游任务佐证理解力。
基准分五大家族：知识（MMLU/GPQA/HLE）、指令遵循（Arena/IFEval/WildBench）、智能体（SWE/Cy/MLE-Bench）、纯推理（ARC-AGI）、安全（HarmBench/AIR-Bench），分别回答模型不同维度的问题。
两个根本问题：真实性——考试分数不等于真实好用，越真实越涉及隐私；有效性——训练-测试污染让分数虚高，基准自身也常有标注噪声。
评估对象已从"比较方法"变为"比较模型/系统"，导致基准饱和、榜单被过拟合、缺乏统一标准——数据爆炸，信息却贫困。

一句话：在大模型时代，会读榜，比会刷榜更重要——知道每个分数测的是什么、又测不到什么，才不至于被数字牵着走。

参考资料

Datawhale diy-llm 第十二章《评估与基准测试》（原文）。
Hendrycks et al., 2021. Measuring Massive Multitask Language Understanding（MMLU）.
Wang et al., 2024. MMLU-Pro；Rein et al., 2023. GPQA；Humanity's Last Exam.
Jimenez et al., 2023. SWE-bench；CyBench；Chan et al., 2024. MLE-bench.
Chollet, 2019. On the Measure of Intelligence（ARC-AGI）.
Mazeika et al., 2024. HarmBench；Zeng et al., 2024. AIR-Bench；Zou et al., 2023. GCG 越狱.
Lin et al., 2024. WildBench；Dubois et al., 2023. AlpacaEval；Chatbot Arena；Anthropic Clio；MedHELM.