

考虑到计算资源和时间成本,高分辨率视频生成的挑战依然存在,尤其是在处理长视频时。现有的生成模型难以兼顾全局一致性和精细的局部细节。最近,Transformer架构(DiTs)在图像和视频生成领域展现出了强大的能力,因为它能够捕捉长程依赖关系,并生成高质量的内容,从而受到了广泛关注。为了应对上述挑战,Meta AI的研究人员推出了一种名为AdaCache的创新方法来优化DiTs。
AdaCache的核心思想是引入一种“自适应缓存机制”,它能够动态地将一部分中间特征存储起来,并在后续的生成过程中重复利用。这种方式一方面降低了计算负担,避免了对所有帧都进行重复计算,另一方面也提高了生成效率,使得模型能够更加关注需要精细处理的部分。通过这种方式,AdaCache可以显著提升视频生成的速度,同时保持较高的视觉质量。Meta AI 的研究人员已经证明了一种名为 AdaCache 的缓存加速技术可以提高视频生成 DiTs 的效率。
研究人员还引入了一种新的训练策略,称为动量正则化(MoReg),与 AdaCache 相结合,可以进一步提高生成视频的质量。 动量正则化能够鼓励视频帧之间以及不同层级之间特征表示的一致性,从而提高生成视频的连贯性和视觉效果。实践证明,MoReg 不仅提升了视频的整体质量,还有助于减少伪影的产生。
在实验评估中,AdaCache 展现出了卓越的性能(例如,在 Open-Sora 720p -2s 视频生成中实现了 4.7 倍的加速),同时保证了出色的生成质量。 结果表明,AdaCache 可以成功应用于各种不同的 DiT 模型,如 Open-Sora、Open-Sora-Plan 以及 Latte。 其他的研究结果也表明,AdaCache 在加速和生成质量方面均有显著提升。
总而言之,这些研究成果表明,AdaCache 是一种有前途的视频生成加速方法,它不仅能够显著提高生成效率,而且能够保持较高的视觉质量。 这项技术有望推动视频生成领域的发展,并为未来的研究提供新的思路。Meta AI 致力于进一步优化 AdaCache,并探索其在更多视频生成任务中的应用。
论文:https://arxiv.org/abs/2411.02397
项目主页:
https://adacache-dit.github.io/
GitHub:
https://github.com/AdaCache-DiT/AdaCache
快讯中提到的AI工具

OpenAI 开发的文本到视频生成模型