
Transformer 在深度学习领域的成功不容小觑。更广泛地说,仅编码器架构的 Transformer 可以被视为处理可交换数据的通用引擎。考虑到大多数经典统计问题是基于独立同分布(iid)假设构建而成的,探索将 Transformer 应用于这些统计任务显得合乎逻辑。
将 Transformer 应用于经典统计问题的好处主要体现在以下两方面:
- 能够生产出更高效的估计器;
- 提供了在统计领域一个相对易于理解的结构中阐释 Transformer 工作机理的机会。
最近,麻省理工学院的研究人员 Anzo Teh、Mark Jabbour 和 Yury Polyanskiy 宣布他们找到了一个符合此需求的「可能是最简单的统计任务」,即经验贝叶斯(Empirical Bayes, EB)均值估计。
- 论文标题:Solving Empirical Bayes via Transformers
- 论文链接:https://arxiv.org/pdf/2502.09844
研究团队认为,Transformer 适用于 EB 估计,对于 EB 估计器而言,它会自然呈现收缩效应,即均值估计会向先验的最近模式偏向,而 Transformer 的注意力机制也具有类似特性,往往更关注聚类的 token。有关注意力机制的更多研究可参见论文《The emergence of clusters in self-attention dynamics》。
此外,团队还发现,EB 均值估计问题具有置换不变性,因此无需引入位置编码。
然而,尽管在这一问题中存在需求,经典的最佳估计器(非参数最大似然估计,NPMLE)却存在收敛速度缓慢的缺点。
麻省理工学院这三位研究者的研究表明,Transformer 不仅在性能上超越了 NPMLE,还能以近乎 100 倍的速度运行!
综上所述,本文展示了即使在经典统计问题中,Transformer 也提供了一种高效的替代方案,在执行时间和性能方面均具有显著优势。对于简单的一维泊松-EB 任务,研究结果表明,即使是参数规模相对较小(小于 10 万参数)的 Transformer 模型,也能表现优秀。
定义 EB 任务
泊松-EB 任务是通过一个两步流程,以独立同分布(iid)方式生成 n 个样本 X_1, . . . , X_n。
第一步,从某个位于实数域 ℝ 的未知先验 π 中采样 θ_1, . . . , θ_n。此处,π 作为一个未曾见过的(非参数)隐变量,并且对其不做任何前提假设(包括连续性和平滑性假设)。
第二步,在给定 θ_i 的条件下,以 iid 方式从分布 X_i ∼ Poi(θ_i) 进行采样。
此任务的目标是根据观察到的样本 X_1, . . . , X_n 估计 θ_1, . . . , θ_n,以最小化期望的均方误差(MSE)。若 π 已知,则该任务的贝叶斯估计器为 θ 的后验均值,其形式如下:
其中 为 x 的后验密度。由于 π 是不可知的,因此估计器 π 只能近似
。该团队通过定义后悔值来量化估计器的质量,以 MSE 的形式呈现为:
大于
。
通过 Transformer 求解泊松-EB
该团队求解泊松-EB 的方法可以概述为:首先生成合成数据,然后使用这些数据对 Transformer 进行训练;训练完成后,将其权重固定,并输入需要估计的新数据。
他们宣称,这是首个利用神经网络模型进行经验贝叶斯估计的研究。
理解 Transformer 的工作原理
论文的第四章旨在探讨 Transformer 的工作机制,分为两个方面进行阐释。首先,建立了关于 Transformer 在解决经验贝叶斯任务时表达能力的理论结果。其次,运用线性探针研究 Transformer 的预测机制。
本文从被截取的 Robbins 估计器入手,其定义如下:
研究表明,Transformer 能够学习任意精度的 clipped Robbins 估计器,即:
同样地,本文证明 Transformer 还可近似 NPMLE,即:
完整的证明过程详见附录 B,论文正文中仅提供了大致概述。
随后,研究者深入探讨了 Transformer 模型的学习方式,采用线性探针技术以了解 Transformer 是否如 Robbins 估计器或 NPMLE 那样运作。
结果表明,Transformer 模型不仅在学习这些特征,且在理解贝叶斯估计器 的本质上也展现了出色的能力。
总结而言,本章充分证明,Transformer 能够近似 Robbins 估计器和 NPMLE(非参数最大似然估计器)。
此外,本文还利用线性探针验证了经过预训练的 Transformer 的工作方式,显示出其与上述两种估计器的显著差异。 T24r。
本实验旨在评估 Transformer 在不同序列长度下的适应能力。图 2 展示了 4096 个先验条件下的平均后悔值。
图 6 指出,Transformer 的运行时间与经验风险最小化(ERM)方法的运行时间相当。
合成实验的重要性在于,Transformer 表现出显著的长度泛化能力:即便在未见过的先验分布上,当测试序列长度达到训练序列长度的四倍时,仍能够实现更低的后悔值。这一发现尤为重要,因为多项研究表明,Transformer 在长度泛化领域的表现差异较大 [ZAC+24, WJW+24, KPNR+24, AWA+22]。
此外,本文还在真实数据集上对这些 Transformer 模型进行了评估,从而完成相应的预测任务。结果显示,这些模型通常优于经典基线方法,并在速度上表现出显著优势。 根据表 3 的数据,大多数数据集上,Transformer 较传统方法显示出显著的性能改进。
总而言之,本文证明了 Transformer 通过上下文学习(in-context learning)能有效掌握 EB – 泊松问题。在实验过程中,作者展示了随着序列长度的增加,Transformer 的后悔值显著降低。在真实数据集的测试中,预训练的 Transformer 大多数情况下优于经典基线方法。