苹果与NVIDIA合作，AI模型训练效率暴增近3倍

11个月前发布AI俱乐部

摘要：

现今，为了应对大语言模型（LLM）的复杂推理需求，人们正在寻求各种优化技术。我们在此介绍一种与NVIDIA相关 […]

现今，为了应对大语言模型（LLM）的复杂推理需求，人们正在寻求各种优化技术。我们在此介绍一种与NVIDIA相关的技术，旨在提升大型语言模型的性能。

在此背景下，NVIDIA实验室推出了一项名为“Recurrent Drafter”(ReDrafter)的创新技术，它能够通过复用先前步骤的计算结果，从而显著提升推理过程的速度。该技术旨在减少模型生成文本时所需的计算量。

具体而言，这种大型语言模型推理过程中的优化方法，能够有效利用先前生成的token信息和隐藏状态，从而避免重复计算。在2024年初，ReDrafter已经集成到NVIDIA的TensorRT-LLM中，从而实现了对token生成效率和整体性能的显著提升，最多可将3.5倍的性能提升。

更进一步地，为了使更多人能够体验到NVIDIA的ReDrafter技术，NVIDIA已经将其整合到TensorRT-LLM开源库中。这意味着，开发者可以充分利用NVIDIA GPU的强大计算能力，在推理过程中显著提升ReDrafter的效率。值得一提的是，通过对多个GPU上的计算任务进行智能调度，可以进一步优化资源利用率，从而在保证模型准确性的前提下，实现更快的推理速度。

与NVIDIA的持续投入相一致的是，ReDrafter技术的应用不仅加速了token的生成过程，还在保证模型精度的前提下，将整体推理速度提升了高达2.7倍。这种性能的提升对于需要在短时间内处理大量文本数据的应用场景至关重要，例如实时对话和内容生成等。

值得注意的是，除了NVIDIA的技术，亚马逊也在积极探索提升推理效率的方法。他们最近宣布，其Trainium2加速器在处理大型语言模型方面，能够将性能提升高达50%。这进一步证明了业界对于优化大型语言模型推理的重视程度。

参考链接：https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/dpctj1k1