FlashMLA FlashMLA是DeepSeek开源的高效MLA(多头线性注意力)解码内核,专为NVIDIA Hopper架构GPU进行优化。该产品通过优化KV缓存机制和采用BF16数据格式,提升了内存和计算效率。在H800 SXM5 GPU上,FlashMLA可实现高达3000GB/s的内存带宽和580TFLO... AI工具箱9个月前