

近日,清华大学发布了新的AI视频生成模型CogVideoX-5B,该模型在视频生成质量上超越了以往的CogVideoX-2B,并且其训练所需的计算资源远低于其他同类模型。即使使用普通的GTX1080Ti显卡也能进行部分体验,而商业级别的"炼丹"设备,如RTX3060,则可以运行完整的模型。
CogVideoX-5B 与 CogVideoX-2B 的技术亮点:
其中一项关键技术是DiT(扩散transformer),它被用作生成视频的基础架构。另一种创新是3D因果VAE,通过该VAE可以学习高压缩的视频潜在空间,进而实现更高效的视频生成。
此外,专家Transformer的设计能够区分不同类型的视频片段,并结合3D-RoPE相对位置编码,利用专家知识优化时间建模,从而实现了在3D空间中生成连贯视频内容的能力。
项目地址:https://top.aibase.com/tool/cogvideox
模型下载:https://huggingface.co/THUDM/CogVideoX-5b
论文链接:https://arxiv.org/pdf/2408.06072
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/pge7s33b暂无评论...