

为了配合ModelScope开源社区,我们发布了一款与国内领先水平相当的文生视频模型——CogVideoX-5B。
相对于之前的CogVideoX-2B版本,本次发布的模型在生成视频的质量和整体效果上都有了显著提升。
CogVideoX-5B采用了一种新颖的架构DiT (diffusion transformer),它能够更有效地学习视频数据的潜在分布。该架构结合了3D因果变分自编码器(3D causal VAE)以及Transformer结构,实现了对视频内容和风格的精确控制。同时,引入的3D-RoPE能够处理视频的空间信息,确保生成视频在时间维度上的连贯性和一致性。
此外,该模型还具备生成长时序视频的能力,从而能够生成更具故事性和表现力的视频内容。
模型链接:
https://modelscope.cn/models/ZhipuAI/CogVideoX-5b
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/c1r1var9暂无评论...