智谱AI新模型开源：老显卡也能轻松驾驭视频生成，开启AI视频创作新纪元

11个月前发布AI俱乐部

近日，清华大学发布了新的AI视频生成模型CogVideoX-5B，该模型在视频生成质量上超越了以往的CogVideoX-2B，并且其训练所需的计算资源远低于其他同类模型。即使使用普通的GTX1080Ti显卡也能进行部分体验，而商业级别的”炼丹”设备，如RTX3060，则可以运行完整的模型。

CogVideoX-5B 与 CogVideoX-2B 的技术亮点：

其中一项关键技术是DiT（扩散transformer），它被用作生成视频的基础架构。另一种创新是3D因果VAE，通过该VAE可以学习高压缩的视频潜在空间，进而实现更高效的视频生成。

此外，专家Transformer的设计能够区分不同类型的视频片段，并结合3D-RoPE相对位置编码，利用专家知识优化时间建模，从而实现了在3D空间中生成连贯视频内容的能力。

项目地址：https://top.aibase.com/tool/cogvideox

模型下载：https://huggingface.co/THUDM/CogVideoX-5b

论文链接：https://arxiv.org/pdf/2408.06072

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/pge7s33b

暂无评论

暂无评论...