
在开源周的第五天,DeepSeek 发布了 3FS (Fire-Flyer File System),这是一款专为充分发挥现代 SSD 和 RDMA 网络带宽潜能而设计的并行文件系统。该系统具备卓越的数据访问性能,为深度学习等数据密集型应用提供了强有力的支持。
AI 工具库已收录 3FS 的开源地址:https://github.com/deepseek-ai/3FS。
同时,DeepSeek 还开源了基于 3FS 的数据处理框架 Smallpond:https://github.com/deepseek-ai/smallpond。

3FS 性能亮点
- 集群高吞吐: 在 180 节点的集群环境中,3FS 实现了高达 6.6 TiB/s 的聚合读取吞吐量。
- 基准测试优异: 在 25 节点集群上进行的 GraySort 基准测试中,3FS 达到了 3.66 TiB/min 的吞吐量。
- 单节点高性能: 每个客户端节点的 KVCache 查找峰值吞吐量超过 40 GiB/s。
- 架构先进: 3FS 采用去中心化架构,并具备强一致性语义。
3FS 应用场景
3FS 是一款高性能的分布式文件系统,旨在应对 AI 训练和推理工作负载所带来的挑战。它利用现代 SSD 和 RDMA 网络提供共享存储层,从而简化分布式应用程序的开发流程。
3FS 的核心优势在于其高性能、强一致性和易用性,能够有效地支持各类 AI 工作负载,包括数据准备、数据加载、检查点设置和推理缓存等环节。
目前,3FS 已在 DeepSeek 的 V3/R1 版本中得到广泛应用,覆盖了训练数据预处理、数据集加载、检查点保存与恢复、嵌入向量搜索以及推理过程中的 KVCache 查找等关键环节。
Smallpond
DeepSeek 开源的另一项成果是基于 3FS 的数据处理框架 Smallpond。该框架构建于 DuckDB 和 3FS 之上,是一款轻量级的数据处理工具。Smallpond 具备高性能的数据处理能力,可扩展至 PB 级数据集,并且操作简便,无需长期运行的后台服务。
相关阅读:
- 《DeepSeek 开源进度 4/5:DualPipe、EPLB 优化并行策略》
- 《DeepSeek 开源进度 3/5:深度学习利器 DeepGEMM》
- 《DeepSeek 开源进度 2/5:首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP》
- 《DeepSeek 代码库开源进度 1/5:为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA》
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...