研究动机与问题背景
痛点与挑战
蛋白质结构决定其功能(Structure dictates function)。虽然基因测序技术爆炸性增长,产生了数十亿条蛋白质序列,但截至论文发表前,PDB(Protein Data Bank)中解析出的三维结构仅约10万个。实验手段(如X射线晶体学、冷冻电镜)解析单一结构通常需要数月甚至数年,耗资巨大。
现有方法的局限性
- 物理模拟方法(如分子动力学):受限于庞大的计算复杂度与力场的近似误差,无法扩展到中大型蛋白。
- 同源建模/模板方法:在有高度相似已知结构(同源序列)时有效,但对于“孤儿蛋白”或无相似模板的序列,准确率断崖式下跌。
- 早期的深度学习方法(如AlphaFold1):主要是预测氨基酸残基对的距离图(Distance Matrix),再通过启发式算法重构3D结构。缺乏端到端(End-to-end)的直接坐标输出,精度仍落后于实验手段。
核心贡献与 Significance
AlphaFold2 试图打破“不依赖模板就无法精准预测”的魔咒。其重要性在于首次实现计算预测达到 原子级实验精度(误差在一根碳原子键长 1.4Å 左右),不仅能够预测全局拓扑,还能精准预测侧链(Side-chain)构象。
数学表示与建模
AlphaFold2 的核心是将蛋白质折叠视为三维空间中的图推理问题(Graph Inference Problem)。网络抛弃了以前预测距离图的间接方式,直接预测原子的 3D 坐标。
核心符号与数据表示
- $N_{seq}$:多序列比对(MSA)的序列条数。
- $N_{res}$:目标蛋白质序列的残基(氨基酸)数量。
- $\mathbf{MSA}$ 表示:矩阵张量,大小为 $N_{seq} \times N_{res} \times c_m$,捕获进化过程中的共演化信息。
- Pair表示(残基对表示):张量大小为 $N_{res} \times N_{res} \times c_z$,捕获残基 $i$ 和残基 $j$ 之间的空间和几何关系。
- 残基坐标 (Residue Gas):模型中将每个氨基酸的主链视为一个独立的刚体,由旋转矩阵和平移向量表示:$(R_i, \vec{t}_i) \in SO(3) \times \mathbb{R}^3$。
核心模块 1:Evoformer
Evoformer block 是网络的主干结构(共48层)。它的使命是让 MSA 表示与 Pair 表示之间产生深度的信息交互。
三角更新机制 (Triangle Multiplicative Update)
在三维空间中,距离必须满足三角不等式(即节点 $i, j, k$ 组成三角形)。Evoformer 引入了基于图的三角乘法更新和三角注意力,强迫网络学习到符合物理几何约束的 Pair 表示。其非注意力乘法更新直观表示为边 $(i,k)$ 与边 $(k,j)$ 共同更新边 $(i,j)$:
(注:上述公式为三角更新理念的极简抽象表达,$z_{ij}$ 为残基对特征,实际前向过程包含 LayerNorm、Gating 等具体操作)
核心模块 2:结构模块 (Structure Module)
结构模块(共8层)接收 Evoformer 输出的 Pair 表示和单一序列表示,开始进行 3D 坐标的生成与迭代细化。
不变点注意力 (Invariant Point Attention, IPA)
IPA 是全篇最优雅的设计之一。传统的自注意力在处理 3D 坐标时,如果全局坐标系旋转,输出也会跟着乱。IPA 能够在每个残基的局部坐标系 $(R_i, \vec{t}_i)$ 中生成 Query, Key, Value 3D点,并在计算注意力权重后映射回全局坐标系,确保了对全局平移和旋转的严格等变性 (Equivariance)。
此处的 $\mathcal{T}_i(x) = R_i x + \vec{t}_i$ 表示将局部点转换到全局的三维刚体变换,从而利用真实的物理距离衰减注意力权重。
FAPE 损失函数 (Frame-Aligned Point Error)
直接使用均方误差 (MSE) 会受到蛋白质整体刚体旋转的影响(需要先做一个全局对齐,这会产生梯度计算问题)。FAPE 损失函数通过计算“以真实残基 $i$ 的坐标系为参考看残基 $j$ 的原子”与“以预测残基 $i$ 的坐标系为参考看预测的残基 $j$ 的原子”之间的距离,实现了无需对齐的局部惩罚,并且具有天然的手性(Chirality)区分能力:
算法整体流程 (Recycling 机制)
- 输入提取:利用 HHBlits / jackhmmer 在巨大序列库中搜索 MSA;在 PDB 中搜索结构模板。
- 特征初始化:初始化 MSA 表示矩阵与 Pair 特征矩阵。
- 循环计算 (Recycling): 将整个网络(Evoformer 48层 + Structure Module 8层)包裹起来,共执行 3 次循环。上一次输出的 Pair 表示和 3D 坐标,将作为输入反馈给下一次循环,极大增强了模型的深度推理能力。
- 辅助损失 (Auxiliary Losses):包括距离图预测(Distogram)、带掩码的MSA重构(BERT风格,强迫学习共进化关系)、置信度评估(pLDDT)等。
- 输出细化:使用 Amber 99sb 力场做极其轻微的梯度下降(Relaxation),仅用来消除原子的立体碰撞,并不增加指标得分。
实验设置与复现细节
数据集设定
| 用途 | 数据集名称 | 包含内容/规模 |
|---|---|---|
| 有监督训练 | PDB (截止 2018-04-30) | 结晶学、冷冻电镜解析的结构,聚类到40%序列一致性后采样 |
| 自蒸馏训练 (无标签) | Uniclust30 (约35万条) | 从未解析过结构的丰富多样蛋白质序列,用初版模型生成伪标签结构 |
| MSA 检索 | BFD, UniRef90, MGnify | 包含数十亿条从宏基因组中提取的序列(极大提升了冷门蛋白性能) |
| 模板检索 | PDB70 | 用于寻找相似模板结构提供结构初始化先验 |
评测指标
- GDT (Global Distance Test):CASP官方主要指标(满分100)。测量结构在多次对齐阈值下的残基重合比例。
- lDDT-C$\alpha$:基于局部距离的差异测试(不用全局对齐),满分100。AlphaFold甚至训练了一个多层感知机(pLDDT)来输出该指标的自我置信度。
- r.m.s.d$_{95}$:去除对齐最差的5%异常点后测量的均方根误差(A标度)。
训练与硬件配置
- 裁剪策略:输入太长显存会爆,随机 Crop 为 256 长度进行初始训练。
- 计算阵列:128 个 TPU v3 核心并行训练。Batch Size 为单核心 1(总 BS = 128)。
- 训练周期:初始阶段训练约 10,000,000 个样本(耗时约 1 周),之后用更长的 Crop(384残基)和更大的 MSA 栈进行 Fine-tuning(额外 4 天)。
实验结果与核心结论
在 CASP14(第14届国际蛋白质结构预测评估大赛,盲测,无数据集泄露风险)中,AlphaFold2 形成了统治级优势,其成绩被《Nature》直接评价为“解决了困扰生物学50年的蛋白质折叠难题”。
| 评测对象 / 模型 | 主链准确度 (中位数 r.m.s.d$_{95}$) | 全原子准确度 (中位数 r.m.s.d$_{95}$) |
|---|---|---|
| AlphaFold2 (Group 427) | 0.96 Å | 1.5 Å |
| 第二名方法 (BAKER组,非正式) | 2.8 Å | 3.5 Å |
| 碳-碳 单键长度 (作为对照) | ~ 1.4 Å | |
关键消融实验 (Ablation Study) 的结论
- 无自蒸馏 (Noisy Student): 如果不使用大量无标签序列库进行自学习,GDT指标有轻微下降,但在孤儿蛋白上影响明显。
- 无不变点注意力 (No IPA): 替换为普通的 3D 直接投影后,性能显著下降。证实了物理等变几何结构的绝对重要性。
- 无 Recycling: 移除这三次循环反馈,GDT 将大幅下跌约 5~8 分。
- 屏蔽 MSA 信息: 模型精度断崖式下跌。AlphaFold2 仍然高度依赖同源序列的信息,单序列(Single-sequence)预测依然是软肋。如果在 MSA 中有效序列 $< 30$ 条,准确率会显著下滑(参见图5a)。
专家视角审稿评论 (Critical Review)
突破与创新
- 极佳的 Inductive Bias(归纳偏置): 并没有通过堆砌无脑的 Transformer 参数,而是将 3D 旋转平移结构、氨基酸的立体手性、共进化三角形不等式,全部以可导的方式编织进了网络架构。
- 从 heuristics 到 end-to-end: 摒弃了由距离矩阵拟合 3D 的启发式后处理优化,直接监督原子坐标,并引入 FAPE 损失,这是极其大胆且成果丰硕的一步。
- 自监督的胜利: 使用 BERT-style Masked MSA loss 和在 Uniclust 上的伪标签蒸馏,是工程和算法的完美结合。
局限与讨论
- 共演化数据的绑架: 模型依旧是个高度依赖 MSA(历史同源数据)的高级检索+几何插值机器,而非真正掌握了“物理折叠动力学”。对于全新设计的蛋白、点突变、折叠通路(Folding pathway),模型无法给出解答。
- 复合物和跨链互作: 本文版的 AF2 在多聚体或依赖于复杂配体/伴侣蛋白才能成型的区域(Bridging domains)表现糟糕(这是因为它的训练目标是单链)。
- 计算门槛极高: 使用超大规模 TPU 阵列,这在绝大多数学术界实验室中都是不可再现的。
One More Thing
违反物理规律的“残基气体” (Residue Gas) 是寻找最优解的捷径
论文中最令人拍案叫绝的设定之一是在 Structure Module 的早期迭代中,故意允许蛋白质结构违反基本的化学键连接规律。
传统物理引擎在折叠过程中,强制要求相邻氨基酸通过肽键刚性连接,这导致折叠搜索空间极其崎岖,极易陷入局部最优。AlphaFold2 把氨基酸链当作离散的“残基气体(Residue Gas)”,网络前向传播时,允许序列在 3D 空间中断裂、相互穿越。这相当于在优化的能量地貌(Energy Landscape)中打通了“虫洞”,使得网络可以在不用解决复杂环路闭合(Loop closure)问题的情况下,同时对整条链的所有局部进行微调。最终通过 Structural Violation 损失在最后阶段“拉回”合规的几何构型。这启发我们,在强物理约束约束任务上,放宽约束引入自由度(随后再强行收敛),可能是规避局部极小值的工程艺术。