英伟达Blackwell芯片MLPerf夺冠,AI推理芯片领域再掀战火

11个月前发布AI俱乐部
8 0 0
英伟达Blackwell芯片MLPerf夺冠,AI推理芯片领域再掀战火的封面图

若要评估先进的推理芯片,Nvidia 的性能一直是衡量标准。然而,在人工智能工作负载方面,众多竞争者正在崛起,它们渴望在推理能力上与 Nvidia 一较高下。这就需要一套标准的测试基准来衡量不同芯片的性能。

为此,ML Commons 发布了其最新的 AI 推理基准 ——MLPerf Inference v4.1。该版本不仅测试了 AMD 的 Instinct 加速器、高通的 Trillium 加速器和边缘计算公司 UntetherAI 的加速器,也评估了 Nvidia 的旗舰加速器。此外,还有两家新公司 Cerebras 和 FuriosaAI 首次参与了 MLPerf 的性能评测。

MLPerf 基准测试涵盖了一系列广泛的任务,包括边缘和数据中心推理。其中,“数据中心推理” 类别中的加速器数量最多。与之前的提交相比,数据中心推理任务现在涵盖了更广泛的模型,反映了当前生成式人工智能的快速发展。数据中心推理着重于评估服务器级别加速器的性能,这些加速器能够同时处理多项任务。

在这些任务中,有 9 项属于不同的推理测试,涵盖了 AI 应用,如图像生成(例如 Midjourney)和大型语言模型 (例如 ChatGPT), 这些应用都需要强大的计算能力,以及高效的数据处理、高速互连和模型并行性。

本次提交中引人注目的是一个名为 “加速器加速” 的新类别。这是一个专门用于测试当前热门的生成式人工智能工作负载的类别, 其中一个加速器能够超越传统加速器,例如语音识别和自然语言处理,从而应对日益增长的计算需求。据 AMD 的高级产品营销经理 Miroslav Hodak 称,

在数据中心的 “数据中心推理” 基准测试中,最引人注目的是 Nvidia H200 GPU 和 GH200 Grace Hopper Superchip 的出色表现,两者都实现了 GPU 和 CPU 协同工作的卓越性能。据了解,该公司能够针对某些工作负载实现显著的性能提升。一些加速器能够同时处理多个请求。

在这些新的加速器中,Nvidia 的旗舰加速器在大型语言模型推理方面取得了显著进展,使其性能提高了 2.5 倍, 这在一定程度上归功于其增强的计算能力。Untether AI 的 speedAI240 加速器在特定数据中心推理任务上的表现也优于 H200。高通的 Trillium 在数据中心推理中胜过 H100 和 H200,而 AMD 的 Instinct 在语言模型推理方面略逊于 H100。

加速器的真正潜力在于通过使用 4 位浮点数来实现生成式人工智能的加速。Nvidia 和其他公司正在致力于实现对诸如 ChatGPT 等低精度 AI 模型的数据中心部署,并不断改进硬件加速。

在数据中心加速方面,这些加速器实现了高达 8 倍的性能提升,其中 H200 的性能提升了 4.8 倍。

Nvidia 的加速器实现了多项技术的融合,而 Salvator 认为这使其性能得到了显著提升, 这主要归功于 Nvidia 的 NVLink 互连技术,该技术能够实现加速器之间的高速数据传输。旗舰 GPU 配备了 18 个 NVLink 100GB/s 的高速通道,使其性能比 H100 的互连性能高出 1.8 倍。

Salvator 解释说,在数据中心部署大型语言模型时,推理速度至关重要,而加速器能够实现这一目标。“Nvidia 的目标是提供最佳的性能,” Salvator 说道。

Nvidia 凭借其加速器在性能和能源效率方面都取得了显著进步,并且有望在未来的 MLPerf 评测中继续保持领先地位。

在本次基准测试中,MLPerf 不仅评估了加速器的整体性能,还评估了它们在特定人工智能应用中的实际表现。本次提交中,Nvidia 和 Untether AI 都在硬件加速方面表现出色。

Untether AI 在本次人工智能加速中也脱颖而出,该公司专注于降低功耗。 Untether AI 的加速器在速度和能效方面都表现出色。该加速器采用了独特的 “内存计算” 架构。Untether AI 的加速器是一款高度专业化的低功耗设备, 适用于对延迟敏感的边缘计算,其架构将内存和计算融合在一起,在内存和计算单元之间实现了更高效的数据传输,从而优化了整体性能。

“我们致力于帮助 AI 工作负载降低 90% 的能源消耗,主要是通过减少 DRAM 带来的内存移动,” Untether AI 的首席架构师 Robert Beachler 说道。“Untether 的优势在于内存计算,而不是内存处理。”

在 MLPerf 的每一项基准测试中都反映出一些设计理念:数据移动。这些测试涵盖了芯片间的互连带宽、推理管道效率、算术强度等关键指标,Beachler 解释道。

在数据中心推理中,Untether AI 的 speedAI240 加速器在性能上比 Nvidia 的 L40S 高出 2.8 倍。值得注意的是(以每瓦性能衡量),其能效比高出 1.6 倍。其他公司也参与了这些基准测试,但 Nvidia 仍然在市场上占据主导地位,并承诺将继续提升其产品的性能。据了解,Untether AI 的 speedAI240 加速器功耗约为 150 瓦, 而 Nvidia 的 L40S 的功耗约为 350 瓦,其性能提升了约 2.3 倍,这意味着总体性能提升了。

Cerebras 和 Furiosa 也参与了 MLPerf,主要评估其在通用加速方面的性能。Cerebras 参加了 IEEE Hot Chips 大会, 并在会上重点介绍了其人工智能加速芯片。这家总部位于加利福尼亚的 Cerebras 公司正在构建一种专门用于 AI 计算的超级计算机,它采用了一种独特的晶圆级架构,可以在芯片上集成更多的计算和内存资源,并能够创建超大规模模型。 目前,该加速器主要用于模型训练,该架构基于一种名为 CS3 的芯片上互连结构。

Cerebras 还在 MLPerf 上展示了其在大型语言模型推理方面的能力,与 H100 相比,其性能提升了 7 倍,与 Groq 加速器相比,则提升了 2 倍。“我们正在进入人工智能的计算时代,”Cerebras 的现场工程和产品高级副总裁 Andrew Feldman 说道。 “问题在于如何在架构上进行创新。Nvidia 的 H100 或 AMD 的 MI300 并非如此。我们已经实现了这种架构上的创新,并能够实现低延迟。” 他认为,这种低延迟是非常重要的。

在 Hot Chips 大会上,Furiosa 还推出了其新一代 AI 芯片 RNGD(发音为 “Renegade”)。Furiosa 的加速器采用了一种称为张量计算路径 (TCP) 的新型架构。 在人工智能工作负载方面,并行计算至关重要,其设计的核心是一种高度灵活、可配置的数据路径。据了解,这种数据路径能够支持不同的操作,而且具有更高的配置灵活性。RNGD 的设计理念是将计算能力分配到数据路径中,从而优化内存带宽和性能。“在芯片设计方面,要取得成功,必须针对特定的工作负载,从而实现性能和能效的提升,” Furiosa 的首席技术官 June Paik 在 Hot Chips 大会上说道。

Furiosa 已经开始在 MLPerf 上使用 RNGD 加速器来评估大型语言模型的性能,并能够与 Nvidia 的 L40S 加速器相媲美, 其推理速度约为 185 个 token,而 L40S 的速度为 320 个 token。Paik 表示,提高能源效率至关重要。

IBM 也在开发一种名为 Spyre 的新型加速器,该加速器主要用于边缘计算,并且有望在 2025 年面市。

总的来说,人工智能推理芯片领域竞争激烈,各种加速器都在不断涌现。

更多信息:https://spectrum.ieee.org/new-inference-chips

快讯中提到的AI工具

Super
Super

智能AI知识库,实现高效商业智能化的创新平台

Midjourney
Midjourney

开启 AI 绘画的奇幻之旅

ChatGPT
ChatGPT

OpenAI开发的一款先进AI聊天机器人

© 版权声明:
本文地址:https://aidh.net/kuaixun/a8fa01hl

暂无评论

none
暂无评论...