苹果研究团队推出LazyLLM,提升大型语言模型长文本推理效率

9个月前发布AI俱乐部
7 0 0
苹果研究团队推出LazyLLM,提升大型语言模型长文本推理效率的封面图

近期,一家名为 Meta AI 的公司推出了一款名为 LazyLLM 的创新型工具,旨在提升大型语言模型(LLM)在推理过程中的效率。

众所周知,大型语言模型在进行复杂推理时,计算成本非常高昂,这主要是因为它们需要处理大量的文本数据,消耗大量的计算资源。LazyLLM 的目标是通过智能地选择性地执行 LLM 的计算,从而减少所需的 token 数量。具体来说,在处理 Llama2 模型时,LazyLLM 能够将 token 的计算量平均降低 21% 到 23%。

简单来说,LazyLLM 是一种更为经济高效的方式,它只对那些对生成最终结果至关重要的 token 进行计算,从而优化 LLM 的推理过程。LazyLLM 的核心在于其缓存机制,通过存储和重复利用先前计算过的 token 的结果,来避免冗余计算。更具体地说,LazyLLM 采用了一种名为 Aux Cache 的辅助缓存结构,用于存储先前计算过的 token 的中间状态,以便后续推理过程能够快速访问和重用这些信息。

通过这种方式,LazyLLM 可以在保证推理质量的前提下,显著降低计算成本。其基本原理是:并非所有中间步骤对于最终结果都具有同等的重要性,因此,选择性地执行 LLM 的计算,可以节省大量的计算资源。LazyLLM 的缓存策略能够智能地识别和存储那些对后续推理至关重要的 token,从而实现更高效的计算。

在实际应用中,LazyLLM 在提升推理速度的同时,Time To First Token (TTFT) 方面也取得了显著的提升,在使用 Llama2 模型时提升了 2.89%,在使用 XGen 模型时提升了 4.77%,这表明 LazyLLM 不仅能减少计算量,还能加快响应速度。总而言之,通过优化中间步骤的计算,LazyLLM 提供了一种更快速、更经济的 LLM 推理方案。

参考链接:https://arxiv.org/abs/2407.14057

总结:

LazyLLM 通过选择性地计算 token,降低了 LLM 的计算负担,从而提升了推理效率。

该方法通过优化计算过程,显著提升了 TTFT,最高可达 4.77%。

LazyLLM 避免了对所有中间步骤进行完全计算,从而降低了计算成本。

© 版权声明:
本文地址:https://aidh.net/kuaixun/k5ba1gfn

暂无评论

none
暂无评论...