智谱AI开源CogVideoX v1.5：支持5秒/10秒视频生成

回顾过去的一年，视频生成领域取得了显著的进展，尤其是清华大学的 CogVideoX 模型，它已经演进到了一个全新的阶段——CogVideoX v1.5，实现了全面的性能提升。在过去的8个月里，该模型持续突破了多项技术瓶颈，成功地将高质量的视频内容与高效的生成速度相结合，为用户带来了前所未有的创作体验。最新版本的 CogVideoX v1.5 引入了多项创新技术，从而显著提升了生成视频的质量。

本次发布的模型包括两个版本：CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V。与此同时，为了满足用户在音频方面的需求，还推出了 CogSound 音频生成模型，它能够实现与视频内容高度匹配的音频生成，并支持包括音乐生成、环境音效添加以及通过 AI 技术进行语音创作等多种功能。

在技术层面，CogVideoX v1.5 优化并采用了多项关键技术，例如，它集成了 CogVLM2-caption 模型，用于提升视频内容的理解能力，从而能够更准确地生成与内容相关的描述信息，进而提升生成视频的质量和相关性。此外，该模型还创新性地采用了三维变分自编码器（3D VAE）结构来改善其运动建模能力，同时融合了时间和空间上的 Transformer 架构，实现了更加精细的运动控制，从而能够生成更连贯和逼真的视频内容。

值得一提的是，CogVideoX v1.5 在模型训练过程中采用了独特的技术方案，从而能够有效地提高训练效率，同时降低对计算资源的需求。研究人员还深入研究了 scaling law 在视频生成模型中的应用，并探索了如何在保证模型性能的同时，有效降低计算成本，从而为未来视频生成技术的发展奠定了坚实的基础。

项目地址：https://github.com/thudm/cogvideo

模型地址：https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/9619p7bb