

近日,备受瞩目的跨模态视频生成模型 CogVideoX 迎来 v1.5 版本,并已正式开源。据悉,这一版本在 8 月份便已完成,是 CogVideoX 项目中的又一重大进展。
值得一提的是,新版本不仅支持生成指定时长的视频内容,还能够处理生成时长在 5 秒到 10 秒之间的视频片段,并支持生成 768P 分辨率的高清视频,最长可达 16 秒。同时,I2V(图像到视频)功能也得到了显著改进,能够更流畅地从静态图像生成动态视频。
CogVideoX v1.5 包含两个核心模型:CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V,它们均向公众开放,供研究者和开发者免费使用。
与以往版本相比,CogVideoX v1.5 实现了多项重要突破,它还引入了 CogSound 音频生成模型,实现了“视频 + 音频”的协同创作。这一功能可以提升视频内容的表现力,实现更逼真的视听效果,支持生成 10 秒、4K、60 帧的优质视频内容。
主要功能亮点:
视频生成:能够根据文本描述生成视频,并对视频的内容、风格和场景进行精细控制。
高清视频生成:支持生成 10 秒、4K、60 帧的优质视频内容。
图像转视频:能够根据单张图像生成视频,实现静态图像的动态化。
多片段视频生成:能够通过组合多个片段生成更长的视频。
AI 音频生成:可以通过文本生成与视频内容相匹配的音频。
除了上述亮点之外,CogVideoX 模型还集成了视频生成所需的多种关键技术,从而降低了用户的使用门槛,简化了视频创作流程。它还采用了来自 CogVLM2-caption 的视频描述生成技术,用于生成更具表现力的视频内容。通过该模型的运用,即使是初学者也能轻松地生成高质量的视频内容。
在技术实现方面,CogVideoX 采用了三维变分自编码器(3D VAE)结构,提升了视频生成过程中的时空一致性。此外,该模型还利用了高效的 Transformer 架构,从而实现了对视频内容和风格的精准把控,最终生成高质量的视频作品。
总而言之,CogVideoX 项目的开源为相关领域的研究和应用带来了新的机遇,降低了视频生成的技术门槛。CogVideoX v1.5 版本的发布进一步提升了模型的性能,为用户提供了更强大的创作工具。
项目地址:https://github.com/thudm/cogvideo
模型地址:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
总结:
✨ CogVideoX v1.5 版本的发布,支持生成 5/10 秒视频,以及 768P 高清视频,时长可达 16 秒。
🎬 引入 CogSound 音频生成模型,可以生成 4K 高清视频内容。
📚 采用视频描述生成技术,可以更好地控制视频的生成和编辑。