

基于Diffusion Transformer,我们推出了全新AI视频生成模型Wan2.1。
Wan2.1在Vbench基准测试中取得了86.22%的领先成绩,超越了Sora、Minimax、Luma、Gen3和Pika等模型。
Wan2.1采用DiT架构,并创新性地应用了Flow Matching技术,显著提升了生成效率和图像质量,有效解决了现有模型的诸多痛点。
值得一提的是,Wan2.1使用了3D VAE技术,其分辨率高达256×256像素,并具备优异的图像生成能力,轻松应对各种风格和场景的生成需求,生成结果也更稳定可靠,平均节省了29%的计算资源,高效且节省成本。
在硬件方面,我们使用了A800 GPU进行训练,显著提升了训练速度,并降低了训练成本,模型参数量减少至2.5倍,提高了训练效率。
Wan2.1的Diffusion Transformer架构采用Full Attention机制,使得模型能够更好地捕捉图像细节,生成更高质量的视频,并有效提升了生成效率。
模型训练时长缩短至6天,参数量显著减少,并支持高效的并行化训练,显著提升了训练效率,降低了训练成本,并增强了模型的稳定性。
此外,Wan2.1已在GitHub和Hugging Face平台开源,并提供用户友好的Gradio交互界面,方便用户进行测试和应用,还支持xDiT模型,进一步提升用户体验;也支持Diffusers和ComfyUI等常用工具,并已适配阿里云通义平台,让更多开发者能够便捷地使用该模型。
- Github:https://github.com/Wan-Video
- HuggingFace:https://huggingface.co/Wan-AI
- 阿里云通义平台:https://tongyi.aliyun.com/wanxiang
快讯中提到的AI工具
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/7d4gnpb1暂无评论...