全球最快AI推理服务震撼发布：速度飙升20倍，成本大幅降低！

摘要：

应对 AI 推理需求，Cerebras Systems 推出了一款全新的推理方案，旨在赋能企业利用 AI 进行 […]

应对 AI 推理需求，Cerebras Systems 推出了一款全新的推理方案，旨在赋能企业利用 AI 进行推理。2024 年 8 月 27 日，该公司正式发布了 Cerebras Inference，这是一款面向大规模 AI 推理的解决方案。Cerebras Inference 的加速性能远超 GPU，能够提供高达 20 倍的吞吐量提升，从而显著提高 AI 应用的响应速度。

Cerebras 的推理解决方案专门针对加速 AI 模型而设计，特别是大型语言模型 (LLMs)。对于 Llama3.1 等模型，该方案能以极高的效率进行推理，例如，8B 参数模型可以达到每秒 1800 个 token 的处理速度，而 70B 参数模型也能达到每秒 450 个 token。相比之下，NVIDIA GPU 的性能要逊色 20 倍。Cerebras Inference 的高带宽能力使其能够处理超过 10 个 token，而 70B 参数模型则能处理 60 个 token，远超传统 GPU 的性能，性能提升高达 100 倍。

总而言之，Cerebras Inference 能够显著缩短获得结果所需的时间，从而加快业务决策的制定。凭借更快的推理速度和更高的效率，Cerebras 解决方案允许在单个服务器上运行推理，而无需依赖多个 GPU。据相关机构估计，Cerebras 在 Meta 的 Llama3.1 模型上实现了高达 1,800 个输出 token 的吞吐量，显著提升了性能。

AI 推理是 AI 工作负载中至关重要的一环，它占用了数据中心 40% 的算力。Cerebras 凭借其卓越的性能，能够显著降低延迟，提高工作效率，并最终加速 AI 技术的应用。通过大幅降低 AI 模型的运行成本，Cerebras Inference 有望为各种规模的企业带来更大的价值，助力 AI 技术的普及和发展。

Cerebras Inference 提供了多种关键特性：易用性、高性能和灵活性。易用性体现在其简单的 API 调用上，用户可以轻松地将现有模型集成到系统中。高性能意味着更高的推理速度和吞吐量，灵活性则体现在对各种模型和框架的支持上。

从硬件层面来看，Cerebras Inference 依赖于 Cerebras CS-3 系统，该系统搭载了强大的 Wafer Scale Engine 3 (WSE-3) 处理器。这款 AI 加速器在性能和效率方面都表现出色，其单芯片的计算能力相当于 7000 个 NVIDIA H100 芯片。

Cerebras Systems 致力于推动 AI 计算的发展，其解决方案涵盖了科学、医药、金融、能源等多个领域。凭借其在 AI 领域的创新技术，Cerebras 正在重塑企业利用 AI 的方式，为各行各业带来新的机遇。