韩国团队发布新型Transformer架构，大模型解码速度提升20倍

Transformer模型因其卓越的性能而备受瞩目，尤其是在处理序列数据方面，已成为众多任务的首选架构。目前，包括国内外的科技巨头如华为、LG和DeepMind都在积极投入Transformer的研发，力求在这一领域取得新的突破，例如我们今天要介绍的Block Transformer，据称能够将序列长度扩展到惊人的10到20倍！

那么，这究竟是如何实现的呢？关键在于，Block Transformer巧妙地借鉴了“分而治之”的思想。简单来说，它通过将Transformer模型中的计算分解为更小的Token块，并仅保留每个Token块中一部分关键的KV（Key-Value）缓存信息，从而显著降低了计算复杂度。

研究人员发现，在传统的Transformer模型中，GPU的算力利用率通常不足1%，剩余的99%的算力都消耗在了中间特征的存储上。而Block Transformer的出现，通过将原始的Transformer架构分解为多个块，分别处理不同范围的计算和存储，有效地解决了这个问题，从而大幅提升了计算效率和模型性能。

具体来说，Block Transformer的核心设计包含以下几个关键组件：全局共享的Embedder负责将输入数据转换为统一的嵌入表示，并为后续的块处理提供基础；Block Decoder则负责处理各个数据块内部的依赖关系，并提取块级别的特征；Token Decoder则进一步处理块内的Token特征，最终生成Token级别的输出。

这种架构设计不仅能够有效扩展序列长度，还能显著提升计算效率。因为减少了中间特征的存储需求，使得模型能够更好地利用GPU的并行计算能力，从而加速训练过程。此外，这种模块化的设计也使得模型更易于扩展和定制，以适应不同的应用场景。

总而言之，Block Transformer通过一种创新的方式，解决了传统Transformer在处理长序列时面临的计算瓶颈，为进一步提升模型性能和扩展应用范围提供了新的思路。它的核心在于分解计算和存储，将原本庞大的计算任务拆分成更小的块，从而实现更高效的并行处理。

实验结果表明，Block Transformer在处理长序列数据时表现出色。在相同的计算资源下，它可以将序列长度扩展到16倍，同时将GPU的算力利用率从1%提升到44%。

论文链接：https://arxiv.org/abs/2406.02657