智谱AI新模型开源:老显卡也能轻松驾驭视频生成,开启AI视频创作新纪元

7个月前发布AI俱乐部
3 0 0
智谱AI新模型开源:老显卡也能轻松驾驭视频生成,开启AI视频创作新纪元的封面图

近日,清华大学发布了新的AI视频生成模型CogVideoX-5B,该模型在视频生成质量上超越了以往的CogVideoX-2B,并且其训练所需的计算资源远低于其他同类模型。即使使用普通的GTX1080Ti显卡也能进行部分体验,而商业级别的"炼丹"设备,如RTX3060,则可以运行完整的模型。

CogVideoX-5B 与 CogVideoX-2B 的技术亮点:

其中一项关键技术是DiT(扩散transformer),它被用作生成视频的基础架构。另一种创新是3D因果VAE,通过该VAE可以学习高压缩的视频潜在空间,进而实现更高效的视频生成。

此外,专家Transformer的设计能够区分不同类型的视频片段,并结合3D-RoPE相对位置编码,利用专家知识优化时间建模,从而实现了在3D空间中生成连贯视频内容的能力。

项目地址:https://top.aibase.com/tool/cogvideox

模型下载:https://huggingface.co/THUDM/CogVideoX-5b

论文链接:https://arxiv.org/pdf/2408.06072

© 版权声明:
本文地址:https://aidh.net/kuaixun/pge7s33b

暂无评论

none
暂无评论...