DeepSeek推出NSA加速推理,性能不减,成本更低

DeepSeek 今日正式发布原生稀疏注意力机制(NSA),该机制在硬件层面进行了优化,支持原生可训练的稀疏注意力,旨在实现超快速的长上下文训练与推理。

DeepSeek推出NSA加速推理,性能不减,成本更低

NSA 的核心构成要素包括:

  • 动态分层稀疏策略
  • 粗粒度 token 压缩
  • 细粒度 token 选择

据 DeepSeek 官方介绍,该机制能够优化现代硬件设计,在不影响性能的前提下,加速推理并降低预训练成本。在通用基准测试、长上下文任务以及基于指令的推理等方面,其表现与全注意力模型基本持平甚至更为出色。

DeepSeek推出NSA加速推理,性能不减,成本更低

AI工具库已收录该论文链接:

https://arxiv.org/abs/2502.11089

© 版权声明

相关AI热点

暂无评论

none
暂无评论...