DeepGEMM

DeepGEMM是DeepSeek开发的开源库，旨在提供高效且简洁的FP8矩阵乘法（GEMM）功能。此库特别针对NVIDIA Hopper架构的张量核心进行优化。除了支持常规的GEMM操作外，DeepGEMM还能够在混合专家（MoE）模型中进行分组矩阵乘法操作。其采用即时编译（JIT）技术，在运行时实现动态优化，无需预先编译。通过细粒度缩放和CUDA核心的双级累加机制，DeepGEMM成功解决了FP8精度不足的问题，并结合Hopper的Tensor Memory Accelerator（TMA）特性，显著提高了数据传输效率。该库的核心代码简洁明了，仅约300行，易于学习和优化，并在各种矩阵形状下达到甚至超过专业优化库的性能水平。

针对DeepGEMM的主要功能，包括：

高效FP8矩阵乘法（GEMM），采用细粒度缩放技术提升计算性能和精度；
支持普通和分组GEMM操作，包括普通GEMM和分组GEMM，优化MoE模型中的分组矩阵乘法；
采用即时编译（JIT）设计，运行时动态优化，提升性能并节约资源；
针对Hopper架构进行优化，充分利用TMA特性增强数据传输效率；
细粒度缩放和双级累加技术，解决FP8精度问题，提高计算精度；
轻量级设计，简洁易懂，减少复杂性，降低学习和优化门槛。

DeepGEMM还提供了详细的性能表现数据，包括普通GEMM和分组GEMM（MoE模型）的加速比和计算性能。对于系统要求，建议硬件使用支持NVIDIA Hopper架构的GPU，推荐使用H800或H100等专为FP8计算和Tensor Core优化的GPU；软件方面，建议操作系统选择Linux，Python版本为3.8及以上，CUDA版本需与GPU架构匹配，并推荐使用PyTorch 2.1及以上和CUTLASS 3.6及以上版本。

DeepGEMM适用于多种应用场景，包括大规模AI模型推理、MoE模型优化、低精度计算、高性能计算以及深度学习框架优化等。详细信息可参考DeepGEMM的GitHub仓库：https://github.com/deepseek-ai/DeepGEMM。