DeepSeek开源FlashMLA：Hopper GPU解码的全新标杆与测评揭秘！

DeepSeek于今日正式启动了为期五天的开源成果发布计划，首个亮相的项目为FlashMLA。该开源项目结合了先进的MLA算法和GPU优化技术，旨在为大规模模型推理提供一套高性能、低延迟的解码方案。

FlashMLA是一款特别为Hopper GPU（如H800 SXM5）优化的高效MLA解码内核，旨在加速大模型的计算任务，尤其是在NVIDIA的高端显卡上显著提升其性能。

借助FlashMLA，开发者在处理大规模语言模型时，能显著提高处理效率并降低延迟。与传统解码器相比，FlashMLA在处理可变长度序列时表现出更高的计算效率。

PPIO派欧云对FlashMLA在主流Hopper GPU（包括H20、H100、H200、H800）上的性能进行了评测。在深入分析评测结果之前，首先了解一些相关背景知识。

科普时间：何为Hopper GPU、解码内核和MLA？

•Hopper GPU：由NVIDIA推出的下一代高性能GPU架构，专为人工智能和高性能计算（HPC）设计。该架构采用先进的制程技术和创新设计理念，在处理复杂计算任务时表现出卓越的性能和能效。主流的Hopper GPU包括H20、H100、H200和H800。

•解码内核：专门加速解码任务的硬件或软件模块。在人工智能推理过程中，解码内核能够显著提升模型推理的速度与效率，尤其是在处理序列数据时。

•MLA：多头潜在注意力（Multi-head Latent Attention）的简称，MLA对KV缓存的需求自量化较轻，这使得其在处理长序列时更具扩展性，同时性能优于传统的多头注意力机制（Multi-Head Attention, MHA）。

FlashMLA性能实测

DeepSeek官方宣称，FlashMLA在H800 SXM5 GPU上可实现高达3000 GB/s的内存速度上限及580 TFLOPS的计算性能上限。PPIO派欧云对FlashMLA 在不同参数配置下的性能进行了全面评测。为了直观展示结果，横坐标依次表示测试的参数配置，具体包括：

•批次大小（Batch Size）

•序列长度（Sequence Length）

•注意力头的数量（Number of Attention Heads）

评测结果如下：

•H20 GPU：内存速度上限为1024 GB/s，计算性能上限为126 TFLOPS。

•H100 GPU：内存速度上限为2906 GB/s，计算性能上限为526 TFLOPS。

•H200 GPU：内存速度上限为3887 GB/s，计算性能上限为512 TFLOPS。

•H800 GPU：内存速度上限为1785 GB/s，计算性能上限为331 TFLOPS。

以上测试结果基于官方的测试脚本进行。由于官方对于最佳参数配置尚未披露，数据可能未能达到理论极限。

FlashMLA对主流推理框架的影响

FlashMLA的发布不仅引起了开发者的关注，同时也引发了主流推理框架的重视。两大热门框架vLLM和SGLang对FlashMLA做出了积极回应。

vLLM团队预计将很快实现与FlashMLA的集成。技术上，FlashMLA基于PagedAttention的实现，与vLLM的技术栈高度兼容，集成后有望进一步提升vLLM的推理性能。

SGLang则持续使用已经合并的FlashInferMLA。根据他们的评测，FlashInferMLA的性能与FlashMLA基本持平。

文章中提到的AI工具

DeepSeek

深度求索：引领未来人工智能技术的探索与创新

文章版权归作者所有，未经允许请勿转载。

暂无评论...