MIT团队Transformer新突破：经验贝叶斯问题求解速度提升100倍

Transformer 在深度学习领域的成功不容小觑。更广泛地说，仅编码器架构的 Transformer 可以被视为处理可交换数据的通用引擎。考虑到大多数经典统计问题是基于独立同分布（iid）假设构建而成的，探索将 Transformer 应用于这些统计任务显得合乎逻辑。

将 Transformer 应用于经典统计问题的好处主要体现在以下两方面：

能够生产出更高效的估计器；
提供了在统计领域一个相对易于理解的结构中阐释 Transformer 工作机理的机会。

最近，麻省理工学院的研究人员 Anzo Teh、Mark Jabbour 和 Yury Polyanskiy 宣布他们找到了一个符合此需求的「可能是最简单的统计任务」，即经验贝叶斯（Empirical Bayes, EB）均值估计。
MIT团队Transformer新突破：经验贝叶斯问题求解速度提升100倍

论文标题：Solving Empirical Bayes via Transformers
论文链接：https://arxiv.org/pdf/2502.09844

研究团队认为，Transformer 适用于 EB 估计，对于 EB 估计器而言，它会自然呈现收缩效应，即均值估计会向先验的最近模式偏向，而 Transformer 的注意力机制也具有类似特性，往往更关注聚类的 token。有关注意力机制的更多研究可参见论文《The emergence of clusters in self-attention dynamics》。

此外，团队还发现，EB 均值估计问题具有置换不变性，因此无需引入位置编码。

然而，尽管在这一问题中存在需求，经典的最佳估计器（非参数最大似然估计，NPMLE）却存在收敛速度缓慢的缺点。

麻省理工学院这三位研究者的研究表明，Transformer 不仅在性能上超越了 NPMLE，还能以近乎 100 倍的速度运行！

综上所述，本文展示了即使在经典统计问题中，Transformer 也提供了一种高效的替代方案，在执行时间和性能方面均具有显著优势。对于简单的一维泊松-EB 任务，研究结果表明，即使是参数规模相对较小（小于 10 万参数）的 Transformer 模型，也能表现优秀。

定义 EB 任务

泊松-EB 任务是通过一个两步流程，以独立同分布（iid）方式生成 n 个样本 X_1, . . . , X_n。

第一步，从某个位于实数域 ℝ 的未知先验 π 中采样 θ_1, . . . , θ_n。此处，π 作为一个未曾见过的（非参数）隐变量，并且对其不做任何前提假设（包括连续性和平滑性假设）。

第二步，在给定 θ_i 的条件下，以 iid 方式从分布 X_i ∼ Poi(θ_i) 进行采样。

此任务的目标是根据观察到的样本 X_1, . . . , X_n 估计 θ_1, . . . , θ_n，以最小化期望的均方误差（MSE） MIT团队Transformer新突破：经验贝叶斯问题求解速度提升100倍。若 π 已知，则该任务的贝叶斯估计器为 θ 的后验均值，其形式如下：

其中为 x 的后验密度。由于 π 是不可知的，因此估计器 π 只能近似。该团队通过定义后悔值来量化估计器的质量，以 MSE 的形式呈现为： MIT团队Transformer新突破：经验贝叶斯问题求解速度提升100倍大于。

通过 Transformer 求解泊松-EB

该团队求解泊松-EB 的方法可以概述为：首先生成合成数据，然后使用这些数据对 Transformer 进行训练；训练完成后，将其权重固定，并输入需要估计的新数据。

他们宣称，这是首个利用神经网络模型进行经验贝叶斯估计的研究。

理解 Transformer 的工作原理

论文的第四章旨在探讨 Transformer 的工作机制，分为两个方面进行阐释。首先，建立了关于 Transformer 在解决经验贝叶斯任务时表达能力的理论结果。其次，运用线性探针研究 Transformer 的预测机制。

本文从被截取的 Robbins 估计器入手，其定义如下：
MIT团队Transformer新突破：经验贝叶斯问题求解速度提升100倍
研究表明，Transformer 能够学习任意精度的 clipped Robbins 估计器，即：

同样地，本文证明 Transformer 还可近似 NPMLE，即：

完整的证明过程详见附录 B，论文正文中仅提供了大致概述。

随后，研究者深入探讨了 Transformer 模型的学习方式，采用线性探针技术以了解 Transformer 是否如 Robbins 估计器或 NPMLE 那样运作。

结果表明，Transformer 模型不仅在学习这些特征，且在理解贝叶斯估计器 MIT团队Transformer新突破：经验贝叶斯问题求解速度提升100倍的本质上也展现了出色的能力。

总结而言，本章充分证明，Transformer 能够近似 Robbins 估计器和 NPMLE（非参数最大似然估计器）。

此外，本文还利用线性探针验证了经过预训练的 Transformer 的工作方式，显示出其与上述两种估计器的显著差异。 T24r。

MIT团队Transformer新突破：经验贝叶斯问题求解速度提升100倍本实验旨在评估 Transformer 在不同序列长度下的适应能力。图 2 展示了 4096 个先验条件下的平均后悔值。图 6 指出，Transformer 的运行时间与经验风险最小化（ERM）方法的运行时间相当。 MIT团队Transformer新突破：经验贝叶斯问题求解速度提升100倍合成实验的重要性在于，Transformer 表现出显著的长度泛化能力：即便在未见过的先验分布上，当测试序列长度达到训练序列长度的四倍时，仍能够实现更低的后悔值。这一发现尤为重要，因为多项研究表明，Transformer 在长度泛化领域的表现差异较大 [ZAC+24, WJW+24, KPNR+24, AWA+22]。
此外，本文还在真实数据集上对这些 Transformer 模型进行了评估，从而完成相应的预测任务。结果显示，这些模型通常优于经典基线方法，并在速度上表现出显著优势。 MIT团队Transformer新突破：经验贝叶斯问题求解速度提升100倍根据表 3 的数据，大多数数据集上，Transformer 较传统方法显示出显著的性能改进。总而言之，本文证明了 Transformer 通过上下文学习（in-context learning）能有效掌握 EB – 泊松问题。在实验过程中，作者展示了随着序列长度的增加，Transformer 的后悔值显著降低。在真实数据集的测试中，预训练的 Transformer 大多数情况下优于经典基线方法。