田渊栋团队的新论文探讨了大模型强化学习(RL)训练中少数参数调整却实现显著性能提升的现象。研究揭示了可验证奖励强化学习(RLVR)背后的优化偏好,提出三门理论解释其参数更新的稀疏性:KL锚定限制了更新幅度,模型几何特性使得高曲率参数不易变动,精度过滤则遮蔽了微小变化。实验显示,RL训练与监督微调(SFT)在参数优化区域截然不同,且RL更新倾向于避开主成分权重,强调了预训练模型几何结构的影响。这一发现为未来RL训练算法设计提供了新思路。

PTAG与RL训练的神秘现象:为何少数参数却实现了巨大性能提升?
随着离开Meta的专家们不断推出新成果,田渊栋带领的团队再次聚焦于大模型强化学习(RL)训练中的一个迷人现象:为何RL训练能够带来显著的性能提升,却仅对极少数参数进行调整。
在他们的最新论文中,研究团队深入剖析了可验证奖励强化学习(RLVR)的训练动态,揭示了一个常见的误解:参数更新的稀疏性并非真实的训练表现,而是RLVR背后存在一个固定的优化偏好。对于同一预训练模型而言,无论使用哪个数据集或RL算法,RLVR总是专注于少数特定参数的调整。
团队提出了一个创新的三门理论(Three-Gate Theory),逐步阐明了RLVR的参数更新如何聚焦于特定的参数区域。像OpenAI-o3和DeepSeek-R1这样的推理模型,都是通过大规模的RLVR训练显著提升了数学和编程能力。
尽管如此,研究表明如此巨大的能力提升理应伴随大量参数的变化,但实际上,RL训练所产生的参数更新却显示出稀疏的趋势,而监督微调(SFT)则呈现出密集更新的特征。这种高效益而低变化的悖论引起了Meta团队的广泛关注。
他们对多个开源模型进行了分析,包括Qwen系列和DeepSeek-R1-Distill-Qwen,这些模型经历了超过3000步的长时间RL训练,涵盖了数学、编程、STEM、逻辑谜题和指令遵循等多种任务。通过设计一种bfloat16精度感知的探测方法,研究团队准确测量了参数更新的稀疏度,结果显示SFT的稀疏度通常在0.6%到18.8%之间,而RL的稀疏度高达36%到92%,二者差异显著。
更深入的发现表明,这种稀疏性仅是表象,背后隐藏着更为复杂的机制:模型条件优化偏差(model-conditioned optimization bias)。为了阐释这种独特的训练行为,研究团队提出了三门理论,解释了RL更新如何被限制、引导和过滤。
第一门:KL锚定(KL Anchor)。RLVR的核心在于“试错学习”,但每次更新都不会让模型的输出风格发生剧烈变化(例如,模型原本简洁的表达不应变得冗长)。这一机制基于在线策略梯度更新在每一步施加的策略KL界限。即使在没有显式KL正则项的DAPO算法中,比例裁剪技巧依然会施加O(ε²)的KL界限,确保每一步相对于当前策略的漂移较小,从而限制了参数的移动范围。
第二门:模型几何(Model Geometry)。预训练模型具有高度结构化的几何特性,例如,负责核心逻辑的参数处于高曲率区域,改动这些参数容易导致不稳定。在KL约束下,RL更新倾向于保持模型的原始权重结构,自然偏向于优化景观中的低曲率方向。相对而言,SFT由于修改高曲率区域容易接近标准答案,但过度修改可能会破坏模型原有的能力框架,反而不利于复杂推理。
第三门:精度过滤(Precision)。bfloat16的有限精度如同一面透镜,遮蔽了RL不愿施加大改变区域的微小更新。由于bfloat16只有7位尾数,小于单位最低位(ULP)阈值的变化无法被表示。如果RL持续更新特定参数子集的路由,存储的值便不会改变,最终表现为稀疏性。如果使用更高精度(例如float32),则会发现更多参数发生改变。
论文中进行了多项实验以验证上述逻辑,确认RLVR和SFT在参数空间中的优化区域截然不同。通过分析奇异值分解(SVD)重构后的主成分权重,团队发现RL更新与主成分权重的重叠度始终低于随机水平,这表明RL有强烈的倾向避开这些权重。相反,RL更新与低幅度权重表现出超随机的重叠,因其对微小更新的阻力较低。
此外,团队通过正交旋转和头部置换故意“扰乱”Qwen3-4B-Base模型特定层的几何结构,结果显示在被干预的层中,更新重叠度降至随机水平,而未触及的层中保持较高,这进一步证明了预训练模型的几何结构是优化偏差的来源。
在光谱分析方面,RLVR检查点在主要成分内表现出明显稳定的谱,跨层的主子空间旋转一致较小,谱漂移最小。奇异值曲线几乎与基础模型相同。相比之下,SFT在相同指标上引起了更大的旋转和明显的漂移。
这项研究不仅为观察到的现象提供了解释,还为RL训练算法的设计指明了方向。研究团队的发现表明,许多SFT时代的参数高效微调(PEFT)方法,特别是通过稀疏或低秩先验与主方向对齐的方法,在RLVR中的迁移效果较差。
在稀疏微调实验中,仅更新主成分权重(SFT偏好的方向)会导致最差的优化轨迹,KL曲线升高缓慢,显示出过度干预和退化的训练动态。相反,更新非主成分、低幅度权重恰好符合理论预测的离主成分区域,能够紧密跟踪密集RLVR轨迹。
针对近期流行的LoRA变体,研究发现主成分定向的PiSSA未能比标准LoRA带来额外收益。在用于匹配全参数性能的较高学习率下,PiSSA经常变得不稳定并提前崩溃。这是因为在PiSSA中扩大学习率会强制沿主方向更新,而这些方向具有更高曲率和谱扭曲特性,正是RLVR倾向于避免的方向。
这项研究的成果不仅为理解RL训练中的参数更新机制提供了新的视角,也为未来的算法设计指明了方向。通过不断探索和创新,我们有理由相信,人工智能的未来将更加光明。












