NVIDIA与Hugging Face合作推出高效推理服务，AI模型Token处理效率提升5倍

摘要：

近来，Hugging Face 与 NVIDIA 宣布了一项合作，旨在简化生成式 AI 的部署流程，即推理即服 […]

NVIDIA与Hugging Face合作推出高效推理服务，AI模型Token处理效率提升5倍的封面图

近来，Hugging Face 与 NVIDIA 宣布了一项合作，旨在简化生成式 AI 的部署流程，即推理即服务 (Inference-as-a-Service)，此服务将基于 NVIDIA 的 NIM 推理微服务。这项合作的目标是让开发者能更轻松地利用 Hugging Face Hub 上托管的各种 AI 模型，从而加速创新并降低开发门槛。

这一合作成果将在 SIGGRAPH 2024 大会上正式亮相。届时，双方将详细介绍如何利用 NVIDIA 和 Hugging Face 的技术优势，为开发者提供更强大的 AI 模型部署能力。通过此服务，开发者可以更便捷地部署和扩展各类大型语言模型 (LLMs)，例如 Llama2 和 Mistral AI 模型，这些模型都可在 NVIDIA 的 NIM 推理平台上高效运行。

值得一提的是，NIM 的早期性能测试结果显示，在配备 NVIDIA H100 Tensor Core GPU 的服务器上，Llama3 模型的推理速度提升了 70%。此外，该推理服务还与 “在 DGX Cloud 上训练” 功能相结合，使得开发者可以直接在 Hugging Face 平台上进行模型训练。

NVIDIA 的 NIM 是一套全面的 AI 推理微服务，它整合了 NVIDIA 的 AI 软件堆栈和各种预训练模型。借助 API 调用来获取 Token 数量的实时数据，开发者可以更好地控制 NVIDIA DGX Cloud 的资源使用，优化 AI 应用的性能和成本。

NVIDIA DGX Cloud 旨在简化 AI 模型的开发流程，让开发者能够更专注于模型创新，而无需过多关注底层基础设施。Hugging Face 与 NVIDIA 的合作将进一步推动开源 AI 社区的发展，助力开发者充分利用双方的技术优势。例如，Hugging Face 上的开发者现在可以访问超过 22 万个模型，其中包括 SmolLM 这种小型的语言模型。