AI 科研术语扫盲：从 Baseline 到 SOTA，一文搞懂论文高频术语

读 AI 论文时，Baseline、Benchmark、Ablation Study 这些术语反复出现却从不被解释——因为作者默认你已经懂了。本文为科研新手梳理这些高频术语的精确含义。

实验评估

用于对比的参考方法。新方法必须超越 Baseline 才能证明其价值。

选择原则：相关、公认、可复现。典型做法是同时选择经典方法（如逻辑回归）和当前 SOTA 作为 Baseline。

标准化的评估体系，包含数据集、评价指标和测试流程，让不同团队的工作可以公平比较。

当前最优性能。论文声称 "achieve SOTA" 意味着在某个 Benchmark 上超越了所有已发表方法。SOTA 是动态的——今天的 SOTA 明天就可能被刷新。

通过逐一移除或替换模型组件，验证每个组件的贡献。类似控制变量实验：去掉注意力模块性能下降多少？去掉残差连接呢？审稿人最看重的实验之一。

数据集中人工标注的正确答案。模型输出与 Ground Truth 的差距即为误差。

Epoch / Batch / Iteration 关系图

训练前人为设定、不由模型自动学习的参数，如学习率、Batch Size、Dropout 率。与之对应的是模型参数（权重和偏置），由训练过程自动优化。

Overfitting vs Underfitting 损失曲线对比

模型训练完成后，用于处理新数据并生成预测的过程。论文中常见 "inference time" 指推理延迟，"inference cost" 指推理计算开销。

模型的主干特征提取网络。例如目标检测模型通常以 ResNet 或 ViT 为 Backbone 提取特征，再接检测头（Head）完成具体任务。

从原始输入直接到最终输出的一体化训练，无需人工设计中间步骤。与之相对的是 Pipeline 方法——先分词、再提特征、再分类，每步独立优化。

从原始数据中提取对任务有用的表示。传统方法依赖人工设计特征（Feature Engineering），深度学习的核心优势在于自动学习特征。

Pre-training 到 Fine-tuning 流程

预训练模型被应用到的具体任务。BERT 预训练后可微调用于情感分析、命名实体识别、问答等下游任务。预训练是通用的，下游任务是特定的。

将源任务上学到的知识迁移到目标任务。Pre-training + Fine-tuning 是迁移学习最成功的实践形式。核心假设：不同任务之间存在共享的底层知识。

模型在未见过的数据上的表现能力。泛化是机器学习的终极目标——不关心模型背了多少答案，只关心遇到新问题时能否正确回答。