

在深度学习领域,归一化层被视为现代神经网络不可或缺的组成部分。近期,由 Meta FAIR 研究科学家刘壮主导的一项研究——“没有归一化层的 Transformer”引发了广泛关注。这项研究不仅提出了一种名为动态 tanh(Dynamic Tanh,DyT)的新技术,还展示了在不依赖传统归一化层的情况下,Transformer 架构仍然能够实现高效的训练与推理。
归一化层,尤其是层归一化(Layer Normalization,LN),在过去十年中对优化深度学习模型发挥了至关重要的作用。LN 层通过对输入激活进行缩放与压缩,从而加速模型的收敛。然而,研究者们发现 LN 层的广泛应用并非唯一选择。研究始于对 LN 层行为的观察,进而提出了一种新的替代方案,即 DyT。这一元素级运算不仅可以模拟 LN 层的缩放与压缩效果,且省去了传统激活数据计算的复杂性。
在实验中,研究团队以 DyT 替代多个 Transformer 架构中的传统归一化层,结果显示使用 DyT 的模型能够实现稳定训练并获得更高的最终性能。更为令人振奋的是,此新方法通常无需对原有架构进行超参数调整,从而降低了模型训练的复杂性。
通过对三种不同 Transformer 模型的前向传播过程进行深入分析,研究者们发现早期的 LN 层表现出线性关系,而在更深层次的 LN 层中,输入与输出之间的关系展现了类似于 tanh 函数的 S 型曲线。这一发现令研究团队感到惊讶,为 DyT 的有效性提供了实证支持。
刘壮表示,这项研究增进了他对归一化层作用的理解,并期待 DyT 能为降低模型训练与推理的成本带来新机遇。展望未来,DyT 有望成为以效率为导向的网络设计中的重要候选方案,推动深度学习领域的进一步发展。
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/14669ran暂无评论...