摩尔线程宣布其产品已成功适配 DeepSeek 开源通信库 DeepEP 及并行算法 DualPipe。

人工智能2个月前发布 AI之家
4 0 0

DeepSeek 开源周的第四日,摩尔线程宣布其已成功适配 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe,并已发布相关的开源代码仓库 MT-DeepEP 和 MT-DualPipe。

摩尔线程宣布其产品已成功适配 DeepSeek 开源通信库 DeepEP 及并行算法 DualPipe。

据介绍,DeepEP 是一款专为 MoE(混合专家)模型训练和推理设计的开源 EP(专家并行)通信库,尤其适用于大模型训练中需要采用 EP 的集群训练。该库通过优化通信信道的利用率,从而提升训练效率。摩尔线程已基于 MUSA Compute Capability 3.1 全功能 GPU 实现了对 DeepEP 的适配,并支持以下特性:

  • 高效优化的 All-to-All 通信,支持 dispatch & combine。
  • 支持 MTLink GPU(MUSA Compute Capability 3.1)节点内通信。
  • 训练及推理预填充阶段的高吞吐量计算核心。
  • 推理解码阶段的低延迟计算核心。
  • 原生支持 FP8 数据分发。
  • 灵活控制 GPU 资源,实现计算与通信的高效重叠。

DualPipe 是 DeepSeek-V3 提出的双向流水线并行算法,旨在通过前向计算与后向计算阶段的计算与通信完全重叠,以减少“流水线气泡”(设备空闲等待)的产生。摩尔线程依托已开源的深度学习框架 Torch-MUSA 以及 MUSA 软件栈的全方位兼容性,实现了对 DualPipe 算法的支持。

目前,MT-DualPipe 已可完整接入摩尔线程 MT-Megatron 框架和即将开源的 MT-TransformerEngine 框架,从而实现 DeepSeek V3 训练流程的完整复现。此外,MT-DualPipe 结合 MT-Megatron 能够实现完整的 DeepSeek V3 模型 MLP-FFN 分离以及 DW-DG 分离,进而降低气泡占比,优化通信效率。同时,MT-DualPipe 与 MT-TranformerEngine 和 MT-DeepEP 的结合,可利用 MT-DeepEP 和异步通信引擎实现更高效的通信掩盖,从而降低对计算资源的损耗。

AI 工具库附 Torch-MUSA 开源地址如下:

https://github.com/MooreThreads/Torch_MUSA

相关阅读:

  • 《DeepSeek 开源进度 4/5:DualPipe、EPLB 优化并行策略》
  • 《DeepSeek 开源进度 3/5:深度学习利器 DeepGEMM》
  • 《DeepSeek 开源进度 2/5:首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP》
  • 《DeepSeek 代码库开源进度 1/5:为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA》

文章中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

© 版权声明

相关AI热点

暂无评论

none
暂无评论...