

百万美元实验揭示大语言模型训练的普适性缩放规律
在人工智能领域竞争日益激烈的背景下,阶跃星辰研究团队近日发布了一项突破性研究成果,通过一项耗资百万美元的巨型实验,重塑了大语言模型的训练方式。该团队利用近百万 NVIDIA H800 GPU 小时,从零开始训练了 3700 个不同规模的模型,累计训练数据量达到惊人的一万亿 tokens,并在此基础上,揭示出一个名为“Step Law”的普适性缩放规律,为大语言模型的高效训练提供了全新的指导方案。
这项研究并非简单的超参数优化探索,而是首次系统性地考察了最优超参数在不同模型架构、稀疏度和数据分布下的稳定性。研究结果显示,无论模型架构(包括 MoE 和 Dense 模型)、训练数据来源(语言或领域)如何,Step Law 都展现出显著的鲁棒性,极大提升了该规律在实际应用中的价值。
研究团队训练的 3700 个模型涵盖了各种规模、超参数组合、架构形状、数据比例和稀疏度配置。通过这些海量实验,团队发现最优学习率与模型参数规模和数据规模呈幂律关系,而最优批量大小则主要与数据规模相关。这一发现颠覆了业界对超参数设置的传统认知。
实验数据表明,在固定模型大小和数据规模的条件下,超参数优化的景观呈现明显的凸性特征,这意味着存在一个稳定且易于寻找的最优超参数区域。研究团队构建了三维可视化空间,直观地展示了学习率和批量大小对训练损失的影响,结果清晰地展现出“山谷”形态,其凸性底部是一个相对平坦的区域,为实践中的超参数调整提供了坚实的理论依据。
为了方便 AI 社区应用该研究成果,团队开发并发布了一个通用的最优超参数估算工具。该工具的预测结果与穷举搜索获得的全局最优超参数相比,性能差距仅为 0.09%。这意味着研究人员和工程师们无需再依赖成本高昂的网格搜索,即可直接获得接近最优的超参数配置。
Step Law 的普适性尤为令人瞩目。研究团队从三个方面验证了其适用范围:(1)无论模型形状(偏向宽度、深度或宽深平衡),Step Law 都能准确预测最优超参数区域;(2)该规律不仅适用于 Dense 模型,也适用于不同稀疏度的 MoE 模型;(3)无论训练数据分布(英语、中英双语、代码与英语混合或以代码为主),Step Law 都表现出高度稳定性。
此外,研究还优化了学习率调度策略。与传统的学习率衰减策略不同,团队建议采用固定的最小学习率 (1e-5),而非传统方法中将最小值设为最大值的十分之一。这一改进使得训练后期能够保持更合理的参数更新步长,有效避免了损失函数在收敛阶段的持续振荡。
研究还发现,平滑训练损失与验证损失的最优超参数高度一致,这为超参数选择提供了更经济有效的方法——研究人员可以通过监控平滑训练损失来指导超参数调整,无需频繁在验证集上评估模型性能。
尽管已取得显著成果,阶跃星辰研究团队表示这仅仅是起点。他们计划陆续开源实验的全部细节,包括近 4000 个模型的最终检查点,以供社区进行更深入的分析和理论解释。未来的研究方向包括探索 Loss-BS-LR 三维空间的凸性、改进最优超参数拟合方法、解释不同配置下最优区域的变化,以及深入研究不同设置下的训练动态。
Predictable Scale 系列的后续研究可能将进一步探讨超大模型性能预测、Code & Math 的缩放特性以及不同 Attention 类型的缩放特性。可以预见,这一系列研究将为大语言模型的高效训练提供更全面的理论指导和实践工具,推动 AI 技术向更高效、更可控的方向发展。
快讯中提到的AI工具

助力自动驾驶、地图绘制、虚拟现实、机器人等AI应用开发