智谱AI发布CogVideoX v1.5:10秒生成4K高清视频,尽享“新清影”体验

4个月前发布AI俱乐部
3 0 0
智谱AI发布CogVideoX v1.5:10秒生成4K高清视频,尽享“新清影”体验的封面图

近日,备受瞩目的跨模态视频生成模型 CogVideoX 迎来 v1.5 版本,并已正式开源。据悉,这一版本在 8 月份便已完成,是 CogVideoX 项目中的又一重大进展。

值得一提的是,新版本不仅支持生成指定时长的视频内容,还能够处理生成时长在 5 秒到 10 秒之间的视频片段,并支持生成 768P 分辨率的高清视频,最长可达 16 秒。同时,I2V(图像到视频)功能也得到了显著改进,能够更流畅地从静态图像生成动态视频。

CogVideoX v1.5 包含两个核心模型:CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V,它们均向公众开放,供研究者和开发者免费使用。

与以往版本相比,CogVideoX v1.5 实现了多项重要突破,它还引入了 CogSound 音频生成模型,实现了“视频 + 音频”的协同创作。这一功能可以提升视频内容的表现力,实现更逼真的视听效果,支持生成 10 秒、4K、60 帧的优质视频内容。

主要功能亮点:

  • 视频生成:能够根据文本描述生成视频,并对视频的内容、风格和场景进行精细控制。

  • 高清视频生成:支持生成 10 秒、4K、60 帧的优质视频内容。

  • 图像转视频:能够根据单张图像生成视频,实现静态图像的动态化。

  • 多片段视频生成:能够通过组合多个片段生成更长的视频。

  • AI 音频生成:可以通过文本生成与视频内容相匹配的音频。

除了上述亮点之外,CogVideoX 模型还集成了视频生成所需的多种关键技术,从而降低了用户的使用门槛,简化了视频创作流程。它还采用了来自 CogVLM2-caption 的视频描述生成技术,用于生成更具表现力的视频内容。通过该模型的运用,即使是初学者也能轻松地生成高质量的视频内容。

在技术实现方面,CogVideoX 采用了三维变分自编码器(3D VAE)结构,提升了视频生成过程中的时空一致性。此外,该模型还利用了高效的 Transformer 架构,从而实现了对视频内容和风格的精准把控,最终生成高质量的视频作品。

总而言之,CogVideoX 项目的开源为相关领域的研究和应用带来了新的机遇,降低了视频生成的技术门槛。CogVideoX v1.5 版本的发布进一步提升了模型的性能,为用户提供了更强大的创作工具。

项目地址:https://github.com/thudm/cogvideo

模型地址:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

总结:

✨ CogVideoX v1.5 版本的发布,支持生成 5/10 秒视频,以及 768P 高清视频,时长可达 16 秒。

🎬 引入 CogSound 音频生成模型,可以生成 4K 高清视频内容。

📚 采用视频描述生成技术,可以更好地控制视频的生成和编辑。

© 版权声明:
本文地址:https://aidh.net/kuaixun/ekvdh4h8

暂无评论

none
暂无评论...