智谱开源CogVideoX-5B:打造更高质量、更具视觉冲击力的视频生成模型

7个月前发布AI俱乐部
3 0 0
智谱开源CogVideoX-5B:打造更高质量、更具视觉冲击力的视频生成模型的封面图

为了配合ModelScope开源社区,我们发布了一款与国内领先水平相当的文生视频模型——CogVideoX-5B。

相对于之前的CogVideoX-2B版本,本次发布的模型在生成视频的质量和整体效果上都有了显著提升。

CogVideoX-5B采用了一种新颖的架构DiT (diffusion transformer),它能够更有效地学习视频数据的潜在分布。该架构结合了3D因果变分自编码器(3D causal VAE)以及Transformer结构,实现了对视频内容和风格的精确控制。同时,引入的3D-RoPE能够处理视频的空间信息,确保生成视频在时间维度上的连贯性和一致性。

此外,该模型还具备生成长时序视频的能力,从而能够生成更具故事性和表现力的视频内容。

模型链接:

https://modelscope.cn/models/ZhipuAI/CogVideoX-5b

© 版权声明:
本文地址:https://aidh.net/kuaixun/c1r1var9

暂无评论

none
暂无评论...