智谱AI开源CogVideoX v1.5:支持5秒/10秒视频生成

4个月前发布AI俱乐部
3 0 0
智谱AI开源CogVideoX v1.5:支持5秒/10秒视频生成的封面图

回顾过去的一年,视频生成领域取得了显著的进展,尤其是清华大学的 CogVideoX 模型,它已经演进到了一个全新的阶段——CogVideoX v1.5,实现了全面的性能提升。在过去的8个月里,该模型持续突破了多项技术瓶颈,成功地将高质量的视频内容与高效的生成速度相结合,为用户带来了前所未有的创作体验。最新版本的 CogVideoX v1.5 引入了多项创新技术,从而显著提升了生成视频的质量。

本次发布的模型包括两个版本:CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V。与此同时,为了满足用户在音频方面的需求,还推出了 CogSound 音频生成模型,它能够实现与视频内容高度匹配的音频生成,并支持包括音乐生成、环境音效添加以及通过 AI 技术进行语音创作等多种功能。

在技术层面,CogVideoX v1.5 优化并采用了多项关键技术,例如,它集成了 CogVLM2-caption 模型,用于提升视频内容的理解能力,从而能够更准确地生成与内容相关的描述信息,进而提升生成视频的质量和相关性。此外,该模型还创新性地采用了三维变分自编码器(3D VAE)结构来改善其运动建模能力,同时融合了时间和空间上的 Transformer 架构,实现了更加精细的运动控制,从而能够生成更连贯和逼真的视频内容。

值得一提的是,CogVideoX v1.5 在模型训练过程中采用了独特的技术方案,从而能够有效地提高训练效率,同时降低对计算资源的需求。研究人员还深入研究了 scaling law 在视频生成模型中的应用,并探索了如何在保证模型性能的同时,有效降低计算成本,从而为未来视频生成技术的发展奠定了坚实的基础。

项目地址:https://github.com/thudm/cogvideo

模型地址:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

© 版权声明:
本文地址:https://aidh.net/kuaixun/9619p7bb

暂无评论

none
暂无评论...