摩尔线程全面支持 DeepSeek 开源周活动

人工智能2个月前发布 AI之家
4 0 0

DeepSeek 开源周圆满落幕,摩尔线程智能科技(北京)股份有限公司于昨日晚间宣布,已在短时间内成功实现了对 DeepSeek 各个开源项目的全面适配,其中包括 FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer 文件系统(3FS)。

摩尔线程全面支持 DeepSeek 开源周活动

以下为 AI 工具库中附带的摩尔线程对 DeepSeek 开源周“全家桶”的支持代码合集:

FlashMLA

FlashMLA 是一款高效的多头潜在注意力(MLA)推理内核开源仓库,旨在加速 MLA 机制的计算,尤其适用于 DeepSeek 系列模型,如 DeepSeek-V2、V3 和 R1。

摩尔线程基于全新的 MUSA Compute Capability 3.1 计算架构,可提供原生 FP8 计算能力,并升级了高性能线性代数模板库 MUTLASS,从而快速支持了 FlashMLA。借助 MUTLASS 0.2.0,摩尔线程发布了开源仓库 MT-FlashMLA,能够快速对 DeepSeek FlashMLA 进行兼容部署。

MT-FlashMLA 开源地址:

  • https://github.com/MooreThreads/MT-flashMLA

MUTLASS FlashAttention3 地址:

  • https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31flashattention_fwd

DeepEP

DeepEP 是一个用于混合专家(MoE)模型训练和推理的开源专家并行(EP)通信库,主要适用于大模型训练,特别是需要 EP 的集群训练。它通过优化通信信道的使用率,显著提升了训练效率。摩尔线程基于 MUSA Compute Capability 3.1 全功能 GPU,第一时间适配了 DeepEP,并支持以下特性:

  • 高效优化的 All-to-All 通信,支持 dispatch & combine
  • 支持 MTLink GPU(MUSA Compute Capability 3.1)节点内通信
  • 训练及推理预填充阶段的高吞吐量计算核心
  • 推理解码阶段的低延迟计算核心
  • 原生支持 FP8 数据分发
  • 灵活控制 GPU 资源,实现计算与通信的高效重叠

MT-DeepEP 开源地址:

  • https://github.com/MooreThreads/MT-DeepEP

DeepGEMM

DeepGEMM 是一个支持密集矩阵与混合专家(MoE)矩阵乘法的 FP8 GEMM 库,为 V3 / R1 的训练与推理提供强大动力。这个开源仓库基于高性能通用矩阵乘法(GEMM)的 C 模板库进行开发。摩尔线程基于 MUTLASS 在全新 GPU 架构上优化实现了 FP8 矩阵乘法,并支持 DeepGEMM 的相应功能。

MUTLASS FP8 GEMM 地址:

  • https://github.com/MooreThreads/mutlass/tree/main/examples/02mp31fp8gemmwithcollectivebuilder
  • https://github.com/MooreThreads/mutlass/tree/main/examples/03mp31fp8scalinggemm

DualPipe

DualPipe 是 DeepSeek-V3 提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了“流水线气泡”(设备空闲等待)。与传统流水线并行相比,DualPipe 采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架 Torch-MUSA(已开源)和 MUSA 软件栈全方位的兼容性,实现了对 DualPipe 算法的高效支持。MT-DualPipe 可以完整接入摩尔线程 MT-Megatron 框架和 MT-TransformerEngine 框架(即将开源),从而实现 DeepSeek V3 训练流程的完整复现。

MT-DualPipe 开源地址:

  • https://github.com/MooreThreads/MT-DualPipe

Torch-MUSA 开源地址:

https://github.com/MooreThreads/Torch_MUSA

3FS

Fire-Flyer 文件系统(3FS)是一种利用现代 SSD 和 RDMA 网络的全部带宽的并行文件系统,可以把固态硬盘的带宽性能利用到极致。在 V3 和 R1 的训练与推理过程中,3FS 成为关键支撑,以应对 AI 训练和推理工作负载的挑战。

摩尔线程在一天内迅速完成了高性能分布式文件系统 3FS 的搭建,并高效开发了存储插件,成功实现了与夸娥智算集群的无缝集成,为 AI 训练、AI 推理、科学计算等场景提供全栈存储加速方案。

3FS CSI Driver 地址:

  • https://github.com/MooreThreads/csi-driver-3fs

文章中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

© 版权声明

相关AI热点

暂无评论

none
暂无评论...