

联想今日宣布,旗下的首款 AMD AI 大模型训练服务器——联想问天 WA7785a G3,在单机部署满血版671B DeepSeek 大模型时,达到了高达6708token/s的极限吞吐量,成功再创单台服务器运行超大规模模型性能的新纪录。
该性能的突破得益于联想万全异构智算平台的强大支持。通过访存优化、显存优化、创新的 PCIe 5.0 全互联架构及优选的 SGLang 框架中的最优算子,联想对大模型的全流程——从预训练、后训练到推理,进行了持续的优化。实际测试结果表明,在单台部署 DeepSeek 671B 大模型的联想问天 WA7785a G3 服务器上,最高吞吐量达到了惊人的6708token/s。
在模拟问题对话场景(上下文序列长度128/1K)中,该服务器可支持最高158的并发数,TPOT(每个输出令牌所需时间)为93毫秒,TTFT(首次令牌生成所需时间)为2.01秒;而在模拟代码生成场景(上下文序列长度512/4K)中,并发数最高可达140,TPOT为100毫秒,TTFT为5.53秒。联想方面表示,这一性能表现意味着,单台联想问天 WA7785a G3 服务器足以支撑1500人规模企业的正常使用。这一成果是继联想问天 WA7780G3 服务器单机部署满血版 DeepSeek 大模型总吞吐量突破2500token/s之后,在大模型推理性能方面的又一次重大飞跃。
联想方面强调,此次技术突破是联想中国基础设施业务群、联想研究院 ICI 实验室与 AMD 联合设计、共同调优的成果。同时,这并非最终结果,联想与 AMD 仍在不断探索更深入的调优方法,以期实现更高的性能突破。
快讯中提到的AI工具

DeepSeek
深度求索:引领未来人工智能技术的探索与创新
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/iffp29d9暂无评论...