蚂蚁集团发布两款创新MoE大模型,显著降低训练成本

3个月前发布AI俱乐部
2 0 0
蚂蚁集团发布两款创新MoE大模型,显著降低训练成本的封面图

最近,蚂蚁集团的Ling团队在预印版Arxiv平台上公布了题为《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》的技术论文,介绍了他们开发的两款新型大语言模型:百灵轻量版(Ling-Lite)和百灵增强版(Ling-Plus)。这两款模型采用了多项创新设计,在低性能硬件上能够高效训练,显著降低了成本。

百灵轻量版的参数规模为168亿,其中激活参数为27.5亿。而增强版的基座模型拥有高达2900亿的参数,激活参数为288亿。这两款模型的性能均达到行业领先水平,特别是增强版,在使用国产GPU的低性能设备上进行训练时,表现与高端英伟达芯片的模型相当。

一般来说,MoE模型的训练需要依赖昂贵的高性能GPU,如英伟达的H100和H800,这不仅成本高昂,还受到芯片短缺的限制,影响了在资源有限环境中的应用。为此,蚂蚁集团Ling团队提出了一个全新的目标——“不使用高级GPU”扩展模型,突破了资源和预算的限制。他们的创新训练策略包括动态参数分配、混合精度调度,以及升级的训练异常处理机制,有效缩短了中断响应时间,优化了模型评估流程,压缩了验证周期超过50%。

在实验中,Ling团队对9万亿个token进行了Ling-Plus的预训练。结果显示,使用高性能硬件配置训练1万亿token的成本约为635万元人民币,而采用蚂蚁的优化方法后,低规格硬件训练成本降至508万元左右,节省了近20%。同时,性能与阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当。

这一技术成果若能得到广泛应用,将为国产大模型提供更加经济高效的解决方案,减少对英伟达芯片的依赖,为未来的人工智能发展开辟新道路。

快讯中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

© 版权声明:
本文地址:https://aidh.net/kuaixun/hs1kc2dm

暂无评论

none
暂无评论...