Nature 2021 · DeepMind · AI for Science

Highly accurate protein structure
prediction with AlphaFold

作者:John Jumper, Richard Evans, Demis Hassabis, 等
单位:DeepMind

摘要速览

蛋白质三维结构的精准预测被称为生物学的“圣杯”。在过去50年中,即便结合了同源建模等方法,计算预测仍远未达到原子级精度。本文提出了一个名为 AlphaFold2 的全新神经网络架构,它深度融合了蛋白质物理学、生物学知识以及多序列比对(MSA)带来的演化信息。在 CASP14 盲测中,该模型在绝大多数情况下实现了达到实验级(X射线/冷冻电镜)精度的结构预测,彻底打破了这一领域的长年瓶颈。

Protein Folding Deep Learning Attention Mechanism SOTA

研究动机与问题背景

痛点与挑战

蛋白质结构决定其功能(Structure dictates function)。虽然基因测序技术爆炸性增长,产生了数十亿条蛋白质序列,但截至论文发表前,PDB(Protein Data Bank)中解析出的三维结构仅约10万个。实验手段(如X射线晶体学、冷冻电镜)解析单一结构通常需要数月甚至数年,耗资巨大。

现有方法的局限性

  • 物理模拟方法(如分子动力学):受限于庞大的计算复杂度与力场的近似误差,无法扩展到中大型蛋白。
  • 同源建模/模板方法:在有高度相似已知结构(同源序列)时有效,但对于“孤儿蛋白”或无相似模板的序列,准确率断崖式下跌。
  • 早期的深度学习方法(如AlphaFold1):主要是预测氨基酸残基对的距离图(Distance Matrix),再通过启发式算法重构3D结构。缺乏端到端(End-to-end)的直接坐标输出,精度仍落后于实验手段。

核心贡献与 Significance

AlphaFold2 试图打破“不依赖模板就无法精准预测”的魔咒。其重要性在于首次实现计算预测达到 原子级实验精度(误差在一根碳原子键长 1.4Å 左右),不仅能够预测全局拓扑,还能精准预测侧链(Side-chain)构象。

数学表示与建模

AlphaFold2 的核心是将蛋白质折叠视为三维空间中的图推理问题(Graph Inference Problem)。网络抛弃了以前预测距离图的间接方式,直接预测原子的 3D 坐标。

核心符号与数据表示
  • $N_{seq}$:多序列比对(MSA)的序列条数。
  • $N_{res}$:目标蛋白质序列的残基(氨基酸)数量。
  • $\mathbf{MSA}$ 表示:矩阵张量,大小为 $N_{seq} \times N_{res} \times c_m$,捕获进化过程中的共演化信息。
  • Pair表示(残基对表示):张量大小为 $N_{res} \times N_{res} \times c_z$,捕获残基 $i$ 和残基 $j$ 之间的空间和几何关系。
  • 残基坐标 (Residue Gas):模型中将每个氨基酸的主链视为一个独立的刚体,由旋转矩阵和平移向量表示:$(R_i, \vec{t}_i) \in SO(3) \times \mathbb{R}^3$。

核心模块 1:Evoformer

Evoformer block 是网络的主干结构(共48层)。它的使命是让 MSA 表示与 Pair 表示之间产生深度的信息交互。

三角更新机制 (Triangle Multiplicative Update)

在三维空间中,距离必须满足三角不等式(即节点 $i, j, k$ 组成三角形)。Evoformer 引入了基于图的三角乘法更新和三角注意力,强迫网络学习到符合物理几何约束的 Pair 表示。其非注意力乘法更新直观表示为边 $(i,k)$ 与边 $(k,j)$ 共同更新边 $(i,j)$:

$$ z_{ij}' = z_{ij} + \sum_{k} \left( \sigma(W_1 z_{ik}) \odot \sigma(W_2 z_{kj}) \right) $$

(注:上述公式为三角更新理念的极简抽象表达,$z_{ij}$ 为残基对特征,实际前向过程包含 LayerNorm、Gating 等具体操作)

核心模块 2:结构模块 (Structure Module)

结构模块(共8层)接收 Evoformer 输出的 Pair 表示和单一序列表示,开始进行 3D 坐标的生成与迭代细化。

不变点注意力 (Invariant Point Attention, IPA)

IPA 是全篇最优雅的设计之一。传统的自注意力在处理 3D 坐标时,如果全局坐标系旋转,输出也会跟着乱。IPA 能够在每个残基的局部坐标系 $(R_i, \vec{t}_i)$ 中生成 Query, Key, Value 3D点,并在计算注意力权重后映射回全局坐标系,确保了对全局平移和旋转的严格等变性 (Equivariance)

$$ a_{ij} = \text{softmax} \left( q_i^T k_j + w \cdot \exp\left( -\frac{\gamma}{2} || \mathcal{T}_i(q_i^{pt}) - \mathcal{T}_j(k_j^{pt}) ||^2 \right) \right) $$

此处的 $\mathcal{T}_i(x) = R_i x + \vec{t}_i$ 表示将局部点转换到全局的三维刚体变换,从而利用真实的物理距离衰减注意力权重。

FAPE 损失函数 (Frame-Aligned Point Error)

直接使用均方误差 (MSE) 会受到蛋白质整体刚体旋转的影响(需要先做一个全局对齐,这会产生梯度计算问题)。FAPE 损失函数通过计算“以真实残基 $i$ 的坐标系为参考看残基 $j$ 的原子”与“以预测残基 $i$ 的坐标系为参考看预测的残基 $j$ 的原子”之间的距离,实现了无需对齐的局部惩罚,并且具有天然的手性(Chirality)区分能力:

$$ \mathcal{L}_{FAPE} = \frac{1}{N_{frames} N_{atoms}} \sum_{i,j} \min\left(d_{clamp}, \left|\left| \mathcal{T}_i^{-1}(\vec{x}_j) - \mathcal{T}_{i, true}^{-1}(\vec{x}_{j, true}) \right|\right| \right) $$
算法整体流程 (Recycling 机制)
  1. 输入提取:利用 HHBlits / jackhmmer 在巨大序列库中搜索 MSA;在 PDB 中搜索结构模板。
  2. 特征初始化:初始化 MSA 表示矩阵与 Pair 特征矩阵。
  3. 循环计算 (Recycling): 将整个网络(Evoformer 48层 + Structure Module 8层)包裹起来,共执行 3 次循环。上一次输出的 Pair 表示和 3D 坐标,将作为输入反馈给下一次循环,极大增强了模型的深度推理能力。
  4. 辅助损失 (Auxiliary Losses):包括距离图预测(Distogram)、带掩码的MSA重构(BERT风格,强迫学习共进化关系)、置信度评估(pLDDT)等。
  5. 输出细化:使用 Amber 99sb 力场做极其轻微的梯度下降(Relaxation),仅用来消除原子的立体碰撞,并不增加指标得分。

实验设置与复现细节

数据集设定

用途 数据集名称 包含内容/规模
有监督训练 PDB (截止 2018-04-30) 结晶学、冷冻电镜解析的结构,聚类到40%序列一致性后采样
自蒸馏训练 (无标签) Uniclust30 (约35万条) 从未解析过结构的丰富多样蛋白质序列,用初版模型生成伪标签结构
MSA 检索 BFD, UniRef90, MGnify 包含数十亿条从宏基因组中提取的序列(极大提升了冷门蛋白性能)
模板检索 PDB70 用于寻找相似模板结构提供结构初始化先验

评测指标

  • GDT (Global Distance Test):CASP官方主要指标(满分100)。测量结构在多次对齐阈值下的残基重合比例。
  • lDDT-C$\alpha$:基于局部距离的差异测试(不用全局对齐),满分100。AlphaFold甚至训练了一个多层感知机(pLDDT)来输出该指标的自我置信度。
  • r.m.s.d$_{95}$:去除对齐最差的5%异常点后测量的均方根误差(A标度)。

训练与硬件配置

  • 裁剪策略:输入太长显存会爆,随机 Crop 为 256 长度进行初始训练。
  • 计算阵列:128 个 TPU v3 核心并行训练。Batch Size 为单核心 1(总 BS = 128)。
  • 训练周期:初始阶段训练约 10,000,000 个样本(耗时约 1 周),之后用更长的 Crop(384残基)和更大的 MSA 栈进行 Fine-tuning(额外 4 天)。

实验结果与核心结论

在 CASP14(第14届国际蛋白质结构预测评估大赛,盲测,无数据集泄露风险)中,AlphaFold2 形成了统治级优势,其成绩被《Nature》直接评价为“解决了困扰生物学50年的蛋白质折叠难题”。

评测对象 / 模型 主链准确度 (中位数 r.m.s.d$_{95}$) 全原子准确度 (中位数 r.m.s.d$_{95}$)
AlphaFold2 (Group 427) 0.96 Å 1.5 Å
第二名方法 (BAKER组,非正式) 2.8 Å 3.5 Å
碳-碳 单键长度 (作为对照) ~ 1.4 Å

关键消融实验 (Ablation Study) 的结论

  • 无自蒸馏 (Noisy Student): 如果不使用大量无标签序列库进行自学习,GDT指标有轻微下降,但在孤儿蛋白上影响明显。
  • 无不变点注意力 (No IPA): 替换为普通的 3D 直接投影后,性能显著下降。证实了物理等变几何结构的绝对重要性。
  • 无 Recycling: 移除这三次循环反馈,GDT 将大幅下跌约 5~8 分。
  • 屏蔽 MSA 信息: 模型精度断崖式下跌。AlphaFold2 仍然高度依赖同源序列的信息,单序列(Single-sequence)预测依然是软肋。如果在 MSA 中有效序列 $< 30$ 条,准确率会显著下滑(参见图5a)。

专家视角审稿评论 (Critical Review)

突破与创新

  • 极佳的 Inductive Bias(归纳偏置): 并没有通过堆砌无脑的 Transformer 参数,而是将 3D 旋转平移结构、氨基酸的立体手性、共进化三角形不等式,全部以可导的方式编织进了网络架构。
  • 从 heuristics 到 end-to-end: 摒弃了由距离矩阵拟合 3D 的启发式后处理优化,直接监督原子坐标,并引入 FAPE 损失,这是极其大胆且成果丰硕的一步。
  • 自监督的胜利: 使用 BERT-style Masked MSA loss 和在 Uniclust 上的伪标签蒸馏,是工程和算法的完美结合。

局限与讨论

  • 共演化数据的绑架: 模型依旧是个高度依赖 MSA(历史同源数据)的高级检索+几何插值机器,而非真正掌握了“物理折叠动力学”。对于全新设计的蛋白、点突变、折叠通路(Folding pathway),模型无法给出解答。
  • 复合物和跨链互作: 本文版的 AF2 在多聚体或依赖于复杂配体/伴侣蛋白才能成型的区域(Bridging domains)表现糟糕(这是因为它的训练目标是单链)。
  • 计算门槛极高: 使用超大规模 TPU 阵列,这在绝大多数学术界实验室中都是不可再现的。

One More Thing

违反物理规律的“残基气体” (Residue Gas) 是寻找最优解的捷径

论文中最令人拍案叫绝的设定之一是在 Structure Module 的早期迭代中,故意允许蛋白质结构违反基本的化学键连接规律。

传统物理引擎在折叠过程中,强制要求相邻氨基酸通过肽键刚性连接,这导致折叠搜索空间极其崎岖,极易陷入局部最优。AlphaFold2 把氨基酸链当作离散的“残基气体(Residue Gas)”,网络前向传播时,允许序列在 3D 空间中断裂、相互穿越。这相当于在优化的能量地貌(Energy Landscape)中打通了“虫洞”,使得网络可以在不用解决复杂环路闭合(Loop closure)问题的情况下,同时对整条链的所有局部进行微调。最终通过 Structural Violation 损失在最后阶段“拉回”合规的几何构型。这启发我们,在强物理约束约束任务上,放宽约束引入自由度(随后再强行收敛),可能是规避局部极小值的工程艺术。