DeepSeek开源FlashMLA:Hopper GPU解码的全新标杆与测评揭秘!

DeepSeek于今日正式启动了为期五天的开源成果发布计划,首个亮相的项目为FlashMLA。该开源项目结合了先进的MLA算法和GPU优化技术,旨在为大规模模型推理提供一套高性能、低延迟的解码方案。

FlashMLA是一款特别为Hopper GPU(如H800 SXM5)优化的高效MLA解码内核,旨在加速大模型的计算任务,尤其是在NVIDIA的高端显卡上显著提升其性能。

借助FlashMLA,开发者在处理大规模语言模型时,能显著提高处理效率并降低延迟。与传统解码器相比,FlashMLA在处理可变长度序列时表现出更高的计算效率。

DeepSeek开源FlashMLA:Hopper GPU解码的全新标杆与测评揭秘!

PPIO派欧云对FlashMLA在主流Hopper GPU(包括H20、H100、H200、H800)上的性能进行了评测。在深入分析评测结果之前,首先了解一些相关背景知识。

科普时间:何为Hopper GPU、解码内核和MLA?

Hopper GPU:由NVIDIA推出的下一代高性能GPU架构,专为人工智能和高性能计算(HPC)设计。该架构采用先进的制程技术和创新设计理念,在处理复杂计算任务时表现出卓越的性能和能效。主流的Hopper GPU包括H20、H100、H200和H800。

解码内核:专门加速解码任务的硬件或软件模块。在人工智能推理过程中,解码内核能够显著提升模型推理的速度与效率,尤其是在处理序列数据时。

MLA:多头潜在注意力(Multi-head Latent Attention)的简称,MLA对KV缓存的需求自量化较轻,这使得其在处理长序列时更具扩展性,同时性能优于传统的多头注意力机制(Multi-Head Attention, MHA)。

FlashMLA性能实测

DeepSeek官方宣称,FlashMLA在H800 SXM5 GPU上可实现高达3000 GB/s的内存速度上限及580 TFLOPS的计算性能上限。PPIO派欧云对FlashMLA 在不同参数配置下的性能进行了全面评测。为了直观展示结果,横坐标依次表示测试的参数配置,具体包括:

•批次大小(Batch Size)

•序列长度(Sequence Length)

•注意力头的数量(Number of Attention Heads)

评测结果如下

H20 GPU:内存速度上限为1024 GB/s,计算性能上限为126 TFLOPS。

DeepSeek开源FlashMLA:Hopper GPU解码的全新标杆与测评揭秘!

H100 GPU:内存速度上限为2906 GB/s,计算性能上限为526 TFLOPS。

DeepSeek开源FlashMLA:Hopper GPU解码的全新标杆与测评揭秘!

H200 GPU:内存速度上限为3887 GB/s,计算性能上限为512 TFLOPS。

DeepSeek开源FlashMLA:Hopper GPU解码的全新标杆与测评揭秘!

H800 GPU:内存速度上限为1785 GB/s,计算性能上限为331 TFLOPS。

DeepSeek开源FlashMLA:Hopper GPU解码的全新标杆与测评揭秘!

以上测试结果基于官方的测试脚本进行。由于官方对于最佳参数配置尚未披露,数据可能未能达到理论极限。

FlashMLA对主流推理框架的影响

FlashMLA的发布不仅引起了开发者的关注,同时也引发了主流推理框架的重视。两大热门框架vLLM和SGLang对FlashMLA做出了积极回应。

vLLM团队预计将很快实现与FlashMLA的集成。技术上,FlashMLA基于PagedAttention的实现,与vLLM的技术栈高度兼容,集成后有望进一步提升vLLM的推理性能。

SGLang则持续使用已经合并的FlashInferMLA。根据他们的评测,FlashInferMLA的性能与FlashMLA基本持平。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...