
摩尔线程开源MT-MegatronLM与MT-TransformerEngine两大AI框架,赋能国产计算基础设施
摩尔线程今日重磅宣布正式开源两大AI框架:MT-MegatronLM和MT-TransformerEngine,为国产计算基础设施发展注入强劲动力。这两个框架深度融合FP8混合训练策略和高性能算子库,在国产全功能GPU上实现了高效的混合并行训练和推理,显著提升了大模型训练的效率和稳定性。
MT-MegatronLM框架专为全功能GPU打造,支持dense模型、多模态模型和MoE(混合专家)模型的高效训练,满足AI领域多样化训练需求。
MT-TransformerEngine框架则专注于Transformer模型的训练和推理优化,通过算子融合、并行加速策略等技术,充分释放摩尔线程全功能GPU的高密度计算潜力,尤其显著提升了memory bound算子的效率。
这两大框架的技术突破源于硬件适配与算法创新的深度协同:
- 支持多种模型的混合并行训练: 灵活应对不同模型架构的复杂运算场景。
- 采用FP8混合精度训练策略: 有效提升训练效率,该策略由摩尔线程GPU原生支持。
- 深度集成高性能算子库muDNN和通信库MCCL: 系统性优化计算密集型任务和多卡协同通信开销。
- 集成开源Simumax库: 自动进行并行策略搜索,最大化不同模型和加速环境下的并行训练性能。
- 内置rewind异常恢复机制: 自动回滚至最近稳定节点继续训练,大幅提升大规模训练的稳定性。
- 兼容GPU主流生态: 保障现有生态的平滑迁移,并为开发者构建自主AI技术栈提供底层支撑。
在实际应用中,这两个框架展现出卓越性能。例如,在全功能GPU集群上,Llama38B模型训练任务利用FP8技术,在几乎无损loss的情况下,MFU(模型吞吐利用率)达到90%以上,训练速度提升28%。此外,摩尔线程已深度集成并开源对DeepSeek并行算法DualPipe的高效支持,MT-DualPipe完整接入MT-Megatron框架和MT-TransformerEngine框架后,成功复现DeepSeek V3训练流程,支持MLA、MTP及多种专家平衡策略,并通过Transformer算子融合技术显著提升内存带宽利用率,有效缓解memory bound瓶颈,进一步释放国产GPU硬件潜力。
摩尔线程将持续优化这两大框架,并计划引入一系列新功能,包括:Dual Pipe/ZeroBubble并行策略(降低气泡率,提升并行训练效率);多种独创FP8优化策略(提升性能和稳定性);异步checkpoint策略(提升容错能力和效率);优化后的重计算策略(减少计算和显存开销,提高训练速度);独创的容错训练算法(增强训练过程中的容错能力);以及集成摩尔线程FlashMLA和DeepGemm库(进一步释放摩尔线程GPU算力和FP8计算能力,全面提升计算性能和效率)。
摩尔线程的这一系列技术突破和开源举措,不仅彰显其在AI算力领域的强大实力,也为国产AI基础设施发展开辟了新的可能性,未来发展值得期待。
快讯中提到的AI工具

深度求索:引领未来人工智能技术的探索与创新