
近期,卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大型语言模型(LLMs)训练的新发现:更多的预训练数据并不一定会使模型性能更优秀。相反,他们指出,过度的预训练可能导致模型性能下降,出现所谓的“灾难性过度训练”现象。
在一项研究中,研究人员对OLMo-1B模型进行了对比分析,分别对其进行了2.3万亿和3万亿个标记的训练。令人意外的是,尽管第二个模型接受了更多的数据训练,但其在一些基准测试(如AlpacaEval和ARC)中的表现下降了多达3%。这引发了人们对多训练是否意味着更好的传统观点的质疑。
研究人员解释称,这种性能下降与“渐进敏感性”现象相关。随着模型接受的标记数量增加,模型对微小变化变得更加脆弱。例如,在微调过程中即使进行一些小的调整或引入噪音,也可能导致之前的训练效果逆转。为验证这一点,研究人员在模型中注入高斯噪音,结果显示,经过更长时间训练的模型性能下降得更加明显。
在研究中,作者提出了一个关键概念,即“拐点”,即在这个点上,额外的训练开始导致性能下降,而不是提升。对于较小的模型如OLMo-1B来说,这一拐点通常出现在超过2.5万亿个标记之后。研究人员警告称,“灾难性过度训练”可能是不可避免的,尤其是在预训练和微调任务不匹配的情况下。
尽管研究人员并未建议完全放弃预训练,但他们强调,开发者应该慎重考虑预训练的量要适度。研究的结论呼吁在模型扩展方面重新审视整个训练流程的设计。对于那些追求模型规模的AI开发者来说,这项研究传达的信息十分明确:有时候,少就是多。
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/tudbloni暂无评论...