Advancing mathematics by guiding human intuition with AI

核心摘要：纯数学研究高度依赖数学家的“直觉”来发现规律并提出猜想。虽然计算机早就被用于生成数据（如千禧年大奖难题中的 Birch 和 Swinnerton-Dyer 猜想），但人工智能一直未在猜想生成中扮演核心角色。本文提出了一种全新的“AI 辅助数学发现”框架：通过机器学习模型在复杂数学对象间寻找隐藏关联，并利用特征归因技术（Attribution Techniques）引导数学家发现新的规律。该方法帮助解决了几何拓扑学中一个长期未知的纽结不变量关联问题，并为表示论中长达40年的组合不变性猜想（Combinatorial Invariance Conjecture）指明了突破方向。

1. 研究动机与问题背景 (Motivation)

在纯数学研究中，进步的核心驱动力之一是发现模式并提出有用的猜想（Conjectures），进而证明它们成为定理。虽然人类已经懂得用计算机穷举或验证猜想，但传统的机器仍然只是“计算器”，缺乏像拉马努金那样的“数学直觉”。

                    痛点与研究空白：
                    维数灾难与认知极限： 在高维空间或极复杂的图结构中，传统的数据驱动方法（如简单拟合）失效，人类专家也无法通过“肉眼看数据”发现规律。
AI 在纯数领域的缺位： 先前生成猜想的系统要么方法无法泛化，要么给出的猜想在数学上缺乏深度与价值（如只找到平凡的等式）。

                

本文试图解决的核心问题：如何将现代机器学习（特别是深度学习和可解释性技术）无缝整合进顶级数学家的标准工作流中，用 AI 充当数学家的“直觉放大器”？

学术意义 (Significance)：本文并未尝试打造一个“自动定理证明机”，而是首创了 Human-AI Symbiosis（人机共生） 的纯数学研究范式。它在拓扑学和表示论两个截然不同的领域证明了该范式的通用性，直接催生了两项顶级数学发现。

2. 数学表示与建模 (Formulation & Modeling)

这篇论文的精妙之处在于它定义了一个极其通用、优雅的 AI 引导直觉工作流。我们将其系统地形式化如下：

数学符号	物理/统计语义
$z \in \mathcal{Z}$	待研究的基础数学对象（例如：凸多面体、纽结、排列群的区间）。
$X(z)$	从对象 $z$ 提取的已知属性/不变量集合（模型的输入特征）。
$Y(z)$	研究者试图预测或关联的目标属性（模型的标签/输出）。
$\hat{f}$	训练得到的深度学习近似函数，使得 $\hat{f}(X(z)) \approx Y(z)$。
$P_z$	对象 $z$ 在数据生成过程中的采样分布。

算法流程与逻辑推导

假设阶段 (Hypothesize)： 数学家猜测 $X(z)$ 和 $Y(z)$ 之间可能存在某种未知的映射律：$\exists f : f(X(z)) = Y(z)$。
数据生成 (Generate Data)： 按照分布 $P_z$ 大量采样生成对 $(X(z), Y(z))$。
监督学习 (Supervised Learning)： 训练神经网络 $\hat{f}$。如果该模型在测试集上的表现显著高于随机猜测，则说明**“规律确实存在”**，给予数学家深入研究的信心。
特征归因 (Attribution)： 这是最核心的一步！为了搞清楚黑盒网络到底学到了什么，使用梯度显著性（Gradient Saliency）分析。对于输入特征 $x_i$，其重要性得分 $r_i$ 计算为损失函数对该特征的梯度绝对值在整个数据集上的期望： $$r_i = \frac{1}{|X|} \sum_{x \in X} \left| \frac{\partial L}{\partial x_i} \right|$$
提出猜想与证明 (Conjecture & Prove)： 数学家根据归因得分高的特征 $x_i$ 缩小排查范围，重构精确的解析表达式 $f$，并完成纯数学证明。

Figure 1：AI 辅助数学发现的完整工作流

🧠

1. 假设

数学家猜测
X(z) → Y(z) 映射

→

📊

2. 生成数据

按分布 P(z)
采样 (X, Y) 对

→

🤖

3. 监督学习

训练 f̂(X) ≈ Y
验证关系存在性

→

🔍

4. 归因分析

梯度显著性
定位关键特征

→

💡

5. 猜想 & 证明

数学家据线索
提出并证明定理

白色 = 数学家负责 | 蓝色 = AI (机器学习) 负责

3. 实验设置一：拓扑学中的纽结理论 (Knot Theory)

纽结理论是低维拓扑学的核心。纽结拥有不同维度的不变量：几何不变量（源自双曲几何）和代数不变量。数学家一直好奇：几何不变量能否决定代数不变量（Signature）？

实验与实现细节（可复现）

任务类型： 多分类任务（将 Signature $\sigma(K)$ 的离散整数值作为类别标签）。
目标变量 $Y(z)$： 符号数 (Signature $\sigma(K)$)。
输入特征 $X(z)$： 体积 (Volume)、经度平移 (Longitudinal translation)、子午线平移 (Meridional translation)、短测地线 (Short geodesic)、单射半径 (Injectivity radius) 等。复数特征被拆分为实部和虚部。
数据集构造：
- Regina 普查数据：所有交叉数不超过 16 的纽结（约 170 万个）。
- 随机生成数据：使用 SnapPy 生成的 80 交叉数的随机纽结链（约 100 万个）。
- 特殊辫群数据：构建 4-辫、5-辫、6-辫共约 3.5 万个（用于提供反例，优化猜想）。
模型结构： 非常经典的前馈神经网络（FFN），包含 3 个隐藏层，每层 300 个神经元，激活函数为 Sigmoid。使用 Cross-Entropy 损失和 Adam 优化器。

展开查看：如何基于归因发现新定理

当上述 FFN 训练后，测试准确率达到 78%（随机基线仅 25%），证明了几何与代数不变量之间确实存在强关联。通过梯度归因公式计算 $r_i$，网络将高度注意力放在了 3 个几何特征上：子午线平移的实部与虚部、经度平移。

数学家被此引导，定义了一个新的几何量 “自然斜率” (Natural Slope)，记为 $\text{slope}(K) = \text{Re}(\lambda / \mu)$。绘制散点图发现它与 $\sigma(K)$ 呈高度线性关系。最终数学家证明了以下惊人的不等式：

$$|2\sigma(K) - \text{slope}(K)| \le c \cdot \text{vol}(K) \cdot \text{inj}(K)^{-3}$$

4. 实验设置二：表示论中的对称群

组合不变性猜想（Combinatorial Invariance Conjecture）已悬而未决40年。它认为 Kazhdan-Lusztig (KL) 多项式可以完全由未标记的 Bruhat 区间（一种有向无环图）推导出来。

实验与实现细节（可复现）

任务类型： 图级别回归/分类任务，预测 KL 多项式的各个多项式系数。
输入特征 $X(z)$： 未标记的 Bruhat 区间图。节点表示排列，边表示反射。节点仅保留入度和出度特征。
目标变量 $Y(z)$： KL 多项式系数（如 $q^1, q^2, q^3, q^4$ 前的常数）。
数据集构造： 遍历对称群至 $S_9$。为了打破极度的数据不平衡并避免内存爆炸，通过等价类合并，保留了 24,322 个非同构图的代表。按 80%/20% 划分训练/测试集。
模型结构： 消息传递神经网络 (Message Passing Neural Network, MPNN)。网络是双向的，隐藏层维度 128，传播步数 4 步，带有残差连接。

5. 实验结果与核心结论 (Results & Findings)

在表示论的图神经网络实验中，AI 首先成功预测了 KL 多项式的高阶系数，粉碎了“不存在直接映射”的怀疑。接下来，通过对边特征进行归因分析（定义归因度超过全局 99% 的节点及其子图为 Salient Subgraph $S_G$），发现了一个完全反直觉的现象：

极端反射 (Extremal reflections)在显著子图中出现的频率远超普通边！顺着这个线索，数学家们将图分解成了两部分：一个由超立方体 (Hypercube) 构成的结构，和一个与 $S_{N-1}$ 同构的结构。

表 1：MPNN 预测 KL 多项式系数的准确率（根据原文 Extended Data Table 1 整理）
评估设置 / 多项式项	$q$	$q^2$	$q^3$	$q^4$
随机基线准确率 (Baseline)	21%	12%	29%	88%
全区间测试集准确率 (Full interval)	98%	63%	72%	98%
二面角注释测试准确率 (Dihedral annotated)	99.9%	96.5%	95.6%	99.4%

基于此，数学家提出了一个新的定理和候选猜想：每一个 Bruhat 区间都允许沿着极端反射进行规范的超立方体分解，并且可以直接从中计算 KL 多项式。 这个猜想已经在包含多达 $3 \times 10^6$ 个区间（直至 $S_7$）的计算机程序中得到了验证。

6. 审稿人视角：犀利评论 (Critical Review)

优点与创新点

哲学视角的突破： 摒弃了“AI 替代数学家证明”的不切实际幻想，转而将 AI 定位为“直觉放大镜”。这种 Human-in-the-loop 的研究范式异常高雅且切中要害。
工程实现的巧妙： 这篇论文中的深度学习技术（三层 MLP、基础 MPNN、Vanilla Gradient 归因）实际上非常基础甚至老派，但正是这种“奥卡姆剃刀”式的选择，极大地提升了模型的可解释性。如果使用黑盒巨大的 Transformer，数学家反而难以做归因分析。
硬核成果背书： 真正推导出了基础数学领域的两项新发现，并在顶刊发表，这是很多纯 CV/NLP 论文所谓的“可能有助于科学发现”所无法比拟的。

不足与疑问

数据可计算性瓶颈： 整个框架强依赖于“能够通过计算机廉价、大量地生成带标注样本（如纽结特征及其多项式）”。如果某个前沿数学猜想连计算 $N=5$ 的数据都耗时以年计，这个 AI 框架将无米之炊。
归因方法的局限性： 论文仅使用了简单的基于梯度的显著性（Saliency maps）。众所周知，这类归因方法容易受到噪声干扰（所谓 Saliency is often not what you think）。在更复杂的映射中，也许需要 Integrated Gradients 或 SHAP 才能避免误导。

未来展望

该框架可以无缝平移到代数几何、数论等拥有海量结构化可计算对象的分支。此外，未来可以引入基于符号回归（Symbolic Regression）的模型，不仅提供 Saliency 权重，直接向数学家“吐出”可能的解析公式候选项，进一步闭环研究过程。

7. One More Thing

在这个大模型 (LLMs) 横行的时代，这篇论文提醒了我们一个至关重要但常被忽略的反直觉洞见：

                    模型不需要完美，它只需要“比瞎猜好”就能引发科学发现。
                

在拓扑学实验中，预测签名的初始网络准确率只有 78%；在预测 KL 多项式的 $q^2$ 系数时，准确率只有 63%。如果在 Kaggle 比赛里，这个成绩会被淘汰。但对顶级科学家而言，这种偏离随机分布的微弱信号（如前文图表中所对比的 63% vs 12%），就如同暗夜里微弱但确定的灯塔——它高声向数学家宣告：“不要怀疑了，这两个相隔千里的概念之间，一定存在映射，用力挖！”

这也许是 AI for Science 最浪漫的时刻：AI 拨开数据的迷雾指明方向，而人类运用智慧的闪光照亮终点。