通义万相开源视频生成模型Wan2.1:仅需8.2G显存即可生成480P视频

2周前发布AI俱乐部
2 0 0
通义万相开源视频生成模型Wan2.1:仅需8.2G显存即可生成480P视频的封面图

基于Diffusion Transformer,我们推出了全新AI视频生成模型Wan2.1。

Wan2.1在Vbench基准测试中取得了86.22%的领先成绩,超越了Sora、Minimax、Luma、Gen3和Pika等模型。

Wan2.1采用DiT架构,并创新性地应用了Flow Matching技术,显著提升了生成效率和图像质量,有效解决了现有模型的诸多痛点。

值得一提的是,Wan2.1使用了3D VAE技术,其分辨率高达256×256像素,并具备优异的图像生成能力,轻松应对各种风格和场景的生成需求,生成结果也更稳定可靠,平均节省了29%的计算资源,高效且节省成本。

在硬件方面,我们使用了A800 GPU进行训练,显著提升了训练速度,并降低了训练成本,模型参数量减少至2.5倍,提高了训练效率。

Wan2.1的Diffusion Transformer架构采用Full Attention机制,使得模型能够更好地捕捉图像细节,生成更高质量的视频,并有效提升了生成效率。

模型训练时长缩短至6天,参数量显著减少,并支持高效的并行化训练,显著提升了训练效率,降低了训练成本,并增强了模型的稳定性。

此外,Wan2.1已在GitHub和Hugging Face平台开源,并提供用户友好的Gradio交互界面,方便用户进行测试和应用,还支持xDiT模型,进一步提升用户体验;也支持Diffusers和ComfyUI等常用工具,并已适配阿里云通义平台,让更多开发者能够便捷地使用该模型。

  • Github:https://github.com/Wan-Video
  • HuggingFace:https://huggingface.co/Wan-AI
  • 阿里云通义平台:https://tongyi.aliyun.com/wanxiang

快讯中提到的AI工具

Pika
Pika

AI创意视频制作平台,重新定义视频创作

Hugging Face
Hugging Face

机器学习和人工智能技术的平台

Sora
Sora

OpenAI 开发的文本到视频生成模型

© 版权声明:
本文地址:https://aidh.net/kuaixun/7d4gnpb1

暂无评论

none
暂无评论...