Evaluation - Tags

CS336 第十讲 · LLM 评估与基准测试：榜单越来越多，我们到底在评估什么？

June 24, 2026

训练一个大模型很难，但说清"它到底好不好"同样难。本文按一条主线梳理大模型评估的全貌：先看现实中的四个评估视角与"想清楚四件事"的评估框架，再回到最古老的度量——困惑度（含 LAMBADA / HellaSwag 下游验证），然后系统过一遍基准测试的五大家族（知识 / 指令遵循 / 智能体 / 纯推理 / 安全），最后落到两个根本问题：真实性（考试分数 ≠ 真实世界好用）与有效性（测试集被污染、标注有噪声）。结论是当下评估正陷入"数据爆炸、信息贫困"的危机——榜单越来越多，可信的信号却越来越少。配以重绘示意图与原论文流程图。

CS336 第十讲 · LLM 评估与基准测试：榜单越来越多，我们到底在评估什么？

pokemon qwen 微调系列（四）：DPO 偏好优化实战：为什么 v1 跑通了但没有变强

May 06, 2026

LLMDPORLHFEvaluation

接在 SFT v2 数据修复之后，完整拆解 DPO 算法、偏好数据构造、TRL 训练链路，以及 Pokemon DPO v1 为什么没有超过 SFT v2。

pokemon qwen 微调系列（四）：DPO 偏好优化实战：为什么 v1 跑通了但没有变强

pokemon qwen 微调系列（三）：SFT 评估复盘：从 v1 退化到 v2 修复

April 28, 2026

LLMSFTEvaluation

用固定 30 题评测集定位 SFT v1 退化，再通过数据重建、质量门禁和同集复评验证 SFT v2 如何超过 base。

pokemon qwen 微调系列（三）：SFT 评估复盘：从 v1 退化到 v2 修复