微软亚研院开源新技术:手机跑大模型速度提升5倍,CPU也能享受极速体验!

9个月前发布AI俱乐部
4 0 0
微软亚研院开源新技术:手机跑大模型速度提升5倍,CPU也能享受极速体验!的封面图

在当今快速发展的技术领域,我们经常需要处理大量的数据和信息。为了满足这种需求,研究人员不断探索新的方法,以提高大型语言模型(LLMs)的效率和性能。这是因为,高效地处理和利用这些数据,对于推动人工智能的进步至关重要。

本文将介绍一种名为T-MAC的创新技术。T-MAC,全称为”基于表格查找的MAC”,是一种利用预计算的激活值,在CPU上加速大型语言模型推理的技术,旨在提升计算效率。它的核心思想是预先计算并存储激活值,从而减少运行时的计算量。

大型语言模型依赖于复杂的数学运算,例如矩阵乘法,来进行推理。通过预先计算这些运算的结果,并将其存储在查找表中,T-MAC可以显著减少计算需求。这种方法允许模型快速检索预先计算的值,而不是在每次需要时都重新计算。尤其是在重复计算相同激活值的情况下,这种方法特别有效。与此同时,这种优化策略可以显著减少计算时间。

T-MAC的关键优势在于它能够利用预先计算的查找表(LUT)来加速计算过程。通过提前计算和存储结果,T-MAC避免了在运行时进行昂贵的计算。这种方法不仅减少了计算时间,还提高了整体效率,使得在资源受限的环境中部署大型语言模型成为可能。

总而言之,T-MAC带来了以下关键优势:

减少计算需求,将复杂的计算转换为简单的查找操作。

优化了模型推理过程,通过查找表直接获取结果,无需重复计算。

在实际应用中,T-MAC能够显著提升大型语言模型的性能。例如,在llama.cpp的测试中,T-MAC在启用后,性能提高了高达70%。这意味着,在同样的硬件条件下,模型能够更快地生成结果。更值得一提的是,即使在Raspberry Pi5这样的资源受限设备上,也能实现显著的性能提升,这对于边缘计算应用来说至关重要。

T-MAC不仅在性能方面有所提升,而且在能源效率方面也表现出色。通过减少计算量,T-MAC降低了能源消耗,使得模型更加环保。尤其是在数据中心和移动设备等对能源效率有较高要求的场景中,T-MAC具有显著的优势。总而言之,T-MAC能够实现更高效、更绿色的计算。

T-MAC技术为在CPU上加速大型语言模型的推理提供了一种有前景的解决方案。它通过利用预计算的激活值,显著减少了计算需求,提高了性能。无论是在需要高性能的数据中心,还是在资源受限的移动设备上,T-MAC都有望实现更高效、更经济的计算。它的创新之处在于,它将复杂的计算过程转化为简单的查找操作,从而大大提高了效率。

项目地址:https://github.com/microsoft/T-MAC

论文地址:https://www.arxiv.org/pdf/2407.00088

© 版权声明:
本文地址:https://aidh.net/kuaixun/r7uqmjrk

暂无评论

none
暂无评论...