

Sakana AI 正在开发一种有潜力革新人工智能领域的新技术,这项技术被称为 Transformer²(Transformer-squared),它是一种新颖的模型架构。该架构旨在通过整合多个现有的预训练大型语言模型(LLM)的优势,从而提升性能。
Transformer² 的独特之处在于它采用了双层 Transformer 结构,通过这种方式,模型能够学习并概括其他模型的行为。具体来说,该技术利用奇异值分解(SVD)等方法将多个 LLM 的知识进行压缩和整合。与直接训练大型模型相比,Transformer² 能够更快地适应新的任务和数据集,从而加速了模型的开发过程。此外,该架构还支持诸如 LoRA(Low-Rank Adaptation)之类的参数高效微调技术,进一步降低了计算成本。
Transformer-squared(相关技术:SVF)以及 LoRA 的详细信息,请参考 arXiv 上的研究论文。
Sakana AI 在 GitHub 上分享了 Transformer² 架构的详细信息,旨在促进人工智能社区对该技术的理解和应用,并鼓励更多研究者参与到相关工作中来。
尽管当前的大型语言模型(LLM)在许多任务上都表现出色,但其训练和部署成本仍然是一个重要的限制因素。Transformer² 旨在通过结合多个现有 LLM 的优点,从而在不显著增加计算资源的情况下,提升模型的性能。与谷歌的 Titans 等其他模型集成方法类似,Transformer² 可以在现有的 LLM 基础上进行扩展,从而更高效地利用已有的知识和资源。这种集成方法有可能降低 LLM 在实际应用中的门槛,并推动人工智能技术的普及。
Sakana AI 的 Transformer² 技术代表了一种将现有模型进行组合的新思路,通过这种方式,可以创建出性能更强大、适应性更广的人工智能系统,从而为各个领域的应用带来新的可能性,包括自然语言处理、图像识别等。