

DeepSeek团队隆重推出DeepGEMM,一款基于FP8的全新高性能GEMM库,大幅提升了大规模模型训练效率。
DeepGEMM充分利用NVIDIA Hopper GPU的算力优势,实现了超过1350+ TFLOPS的FP8算力,显著加快了模型训练速度,将训练时间缩短至原来的三分之一,并有效降低了训练成本,同时兼容混合精度训练和模型并行,大幅提升了MoE模型的训练效率,DeepSeek V3 R1版本中已集成该库,展现了其在大型语言模型训练中的出色性能。
DeepSeek持续改进和优化DeepGEMM,通过软硬件协同优化,实现了在各种模型上的显著性能提升,并支持多种硬件平台和框架,持续优化以适应未来AI模型发展的需求,并通过Just-In-Time编译技术,进一步提升了性能,充分发挥了MoE模型的潜力,让模型训练效率显著提升。
TechBitDaily报道称:“DeepGEMM作为DeepSeek大模型推理引擎的核心组件,利用FP8精度,大幅提升了训练效率,并具备出色的可扩展性。” AIObserverCN也对此表示肯定,认为DeepGEMM对MoE架构模型的优化,对未来AI模型发展具有重要意义,将进一步推动Hopper架构在AI领域的应用。
总之,DeepGEMM作为DeepSeek大模型训练的基石,将进一步推动AI模型训练效率的提升,助力大型语言模型训练和部署。我们还持续开发其他关键组件,例如FlashMLA和DeepEP,以构建更完整的AI基础设施,并持续优化DeepGEMM,提升其性能和易用性,最终目标是为AI领域提供更强大、更易用的工具,用户可通过GitHub访问DeepGEMM。
了解更多信息,请访问:https://github.com/deepseek-ai/DeepGEMM
快讯中提到的AI工具

深度求索:引领未来人工智能技术的探索与创新