

Google DeepMind发布了名为Mixture的全新模型,它是一种基于Transformer架构的先进专家混合模型。
如今,一个常见的问题是,一个拥有数万亿参数的模型是否真的优于其他模型?这正是DeepMind的最新研究试图解答的。这种模型的一个显著特点是其庞大的参数规模,这使得它能够处理更复杂的任务,并超越以往的Transformer模型的性能。
要理解其中的奥妙,关键在于MoE架构,它允许网络动态地选择激活一部分参数,从而有效地扩展了模型的容量。这意味着并非所有参数都会在每次计算中都被激活,而是根据输入数据的特性选择最相关的部分。因此,尽管整体参数数量巨大,但实际参与计算的参数数量相对较少。
具体来说,PEER模型引入了一种新颖的专家选择机制,它将前馈网络(FFW)、门控MoE以及乘积密钥记忆(PKM)等多种技术融合在一起,以实现高效的模型扩展。如果不考虑通信开销,我们可以认为PEER在理论上能够支持无限的模型大小。实际上,通过在分布式设备上运行PEER,可以实现大规模的模型并行性和数据并行性,从而提升PEER模型的性能。
关于该模型的研究者,Xu He (Owen)是Google DeepMind的研究科学家,他的研究重点是人工智能加速领域。根据他的介绍,该模型旨在解决大规模和高成本的模型部署问题。展望未来,他们希望继续探索如何利用PEER在语音和视觉领域实现更大的突破。
论文链接:https://arxiv.org/abs/2407.04153
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/6qk9si5e暂无评论...