

有消息称,在GB200和B200之后,英伟达正在研发新一代GPU——GB300和B300。据推测,此举是为了应对快速变化的市场需求,满足日益增长的推理工作负载,以及应对来自竞争对手日益激烈的挑战。
B300/GB300:推理工作负载的解决方案
B300 GPU预计将采用4NP芯片设计,可能会引入独特的芯片互联方式。据估计,B300的FLOPS性能将比B200提升50%。关于功耗方面,GB300和B300 HGX的TDP预计分别为1.4KW和1.2KW(GB200和B200预计为1.2KW和1KW)。这种性能和功耗的提升可能源于CPU和GPU架构的创新设计。
在FLOPS性能之外,另一个值得关注的点是12-Hi HBM3E,这使得该GPU的HBM总容量达到288GB。此外,如果消息属实,该GPU的内存带宽有望达到8TB/s。从目前情况来看,所有这些改进都将应用于GB200和GB300的后续产品中。
总而言之,英伟达似乎正在积极推进其产品迭代。通过推出Blackwell架构的升级版,B300/GB300的性能有望得到显著提升,尤其是在推理工作负载方面。
关于推理任务的优化
据报道,OpenAI O3集群上的LLM推理服务,采用了一种更加高效的KVCache,从而大幅降低了对内存带宽的需求。与H100和H200等产品相比,新一代产品的关键优势在于:
优化后的内存带宽(H200为4.8TB/s,H100为3.35TB/s)显著提升了大型推理任务的整体性能,提高了43%。
由于H200在处理推理任务时的内存吞吐量优于H100,因此其处理token的速度提高了3倍,延迟降低了3倍。这意味着,在KVCache的支持下,内存带宽对推理任务至关重要。
推理性能的提升也意味着能耗的降低。四个GPU模块的性能和加速可以与八个GPU的传统互联方式相媲美。
总而言之,推理任务的重点在于提升效率和性能。
推理任务的实际受益取决于硬件和软件之间的协同。
据称,英伟达计划将3倍的推理性能作为其主要卖点,这将有助于赢得更多客户,加速市场渗透,并显著提升其业绩。
总而言之,新一代的推理加速方案提升了性能并降低了成本。更高性能的加速方案可能节省高达70%的推理能耗,同时将数据中心的推理成本降低20%。推理加速可能不仅仅是一个硬件迭代,更是一种全新的商业模式。O1Pro和O3均从中受益。据推测,芯片制造商可能在未来会根据实际的推理性能来销售GPU,从而将收益与产品价值紧密结合。
此外,英伟达也在积极地扩展其内存带宽。除了ASIC或定制芯片外,AMD也在大力提升其能效,例如MI300X、MI325X和MI350X的内存带宽都接近英伟达,容量分别为192GB、256GB和288GB,而且英伟达还在积极改进NVLink的互联技术。
在NVL72的加持下,单个机柜可以容纳72个GPU,从而实现更高的密度和计算能力。这意味着,大规模部署将变得更加高效。这种部署方式对内存需求和内存带宽提出了更高的要求。
英伟达的GB200 NVL72和GB300 NVL72等产品将采用更高性能的内存和推理加速:
提高计算密度,进而提高整体性能。
72个GPU能够共享KVCache,从而进一步提升整体性能(提高加速效率)。
由于内存加速的性能已经接近传统8GPU集群的配置,因此延迟得到了显著降低。
在单个机柜中实现性能和推理能力的整合。
与此同时,NVL72的tokenomics性能提升了10倍以上,使其在集群推理方面更具优势。KVCache在提高内存效率的同时,确保了NVL72能够支持10倍以上的token吞吐量。
GB300:创新设计
关于GB300,英伟达重新构想了传统的设计和内存架构。与GB200不同,GB200采用Bianca模组(包含Blackwell GPU、Grace CPU、512GB LPDDR5X和VRM等组件),实现了计算和内存的整合。
关于GB300,英伟达可能会采用“SXM Puck”模块和BGA封装的Grace CPU,而且可能会采用HMC,但某些组件可能会由Axiado提供,而不是GB200的Aspeed。这种模块化的设计思路体现在了芯片的各个方面,其中一种芯片可能采用LPCAMM模块,而不是传统的LPDDR5X。有些消息称这种架构是一种创新的设计。这种模块化的设计能够灵活地配置计算和内存。
据说SXM Puck允许OEM和ODM厂商灵活地定制计算模块。这种模块化的方法允许Bianca模块在传统的OEM和ODM产品中使用。ODM厂商通常负责大部分设计,因此可以灵活地调整Bianca模块的规格。关于计算能力方面,Bianca模块的核心是SXM Puck和SXM Puck的散热方案。关于这个复杂的系统,需要考虑更多的长期成本。
另一个值得关注的关键组件是VRM供电模块。在SXM Puck中集成VRM供电模块,有助于提高系统的能源效率/OEM性能,并简化VRM设计流程。目前该领域的领先供应商是Monolithic Power Systems。英伟达计划在GB300中采用800G ConnectX-8 NIC,从而进一步提高InfiniBand和以太网的性能。英伟达也可能会继续采用之前在计算和内存模块以及Bianca模块中采用的PCIe Gen6总线和GB200的ConnectX-8技术。
ConnectX-8相对于ConnectX-7在性能方面实现了显著提升。它的带宽提高了2倍,拥有48个PCIe通道,而后者只有32个PCIe通道,这一点非常重要,可以用于加速MGX B300A。此外,ConnectX-8支持SpectrumX以太网,这是一种用于在400G环境中部署Bluefield3 DPU的技术。
GB300的上市时间表
GB200和GB300的计算性能和产品上市时间方面存在一定的不确定性,预计将在第三季度末发布有关英伟达的GPU及其组成部分的更多详细信息。与此同时,重要的是要认识到GB300的性能取决于相关的内存和NIC的性能。相关硬件的性能可能决定了GB300的整体性能水平。
在现有的推理芯片市场,英伟达一直处于领先地位,能够根据Meta的需求灵活地调整NIC的配置,从而能够更好地满足客户的需求。从长远来看,这些NIC可能会决定英伟达的未来。关于计算能力与CPU的配置问题,也面临着同样的问题。如果能效较高的话,这将会是一个很好的选择。
关于客户而言,提高成本效益,节约TCO成本是一件非常重要的事情。利用PCIe总线和200G加速器连接不同的NIC,这些技术可以帮助Meta、微软、甲骨文、X.AI和Coreweave等公司部署NVL72节点。由于NIC的需求会影响能效,因此英伟达可能会推出NVL36产品。GPU的处理能力可能会对能效产生影响。总而言之,如果能够在数据中心中实现更高的效率,这将有助于降低总体成本。
总而言之,对于GB300,模块化可以有效解决性能和可扩展性问题。如果能够灵活地配置相关模块,并实现更高的性能,进而推动Astera Labs PCIe产品的迭代,这将会是非常有帮助的。使用类似的模块配置,并充分利用HVM产品中的K2V6400G NIC,数据中心运营商能够灵活地部署NVL72节点,同时降低总体成本。
总而言之,计算模块的价格、容量和通信协议是关键要素。关键点在于,是否能够充分利用计算硬件的性能(例如Meta的TPU加速器)。更高的计算效率意味着更低的能耗,从而降低数据中心的运营成本。英伟达和其它公司已经能够部署了GB300级别的计算硬件,而且它们也在不断地改进GB200。
最后,总结一下相关信息。相关技术仍然面临着挑战,而且相关硬件的性能还有很大的提升空间。ODM厂商比英伟达公司更了解最终的客户的需求。
参考链接:https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/
快讯中提到的AI工具

致力于创造对全人类有益的安全 AGI