通义万相开源视频生成模型Wan2.1：仅需8.2G显存即可生成480P视频

5个月前发布AI俱乐部

基于Diffusion Transformer，我们推出了全新AI视频生成模型Wan2.1。

Wan2.1在Vbench基准测试中取得了86.22%的领先成绩，超越了Sora、Minimax、Luma、Gen3和Pika等模型。

Wan2.1采用DiT架构，并创新性地应用了Flow Matching技术，显著提升了生成效率和图像质量，有效解决了现有模型的诸多痛点。

值得一提的是，Wan2.1使用了3D VAE技术，其分辨率高达256×256像素，并具备优异的图像生成能力，轻松应对各种风格和场景的生成需求，生成结果也更稳定可靠，平均节省了29%的计算资源，高效且节省成本。

在硬件方面，我们使用了A800 GPU进行训练，显著提升了训练速度，并降低了训练成本，模型参数量减少至2.5倍，提高了训练效率。

Wan2.1的Diffusion Transformer架构采用Full Attention机制，使得模型能够更好地捕捉图像细节，生成更高质量的视频，并有效提升了生成效率。

模型训练时长缩短至6天，参数量显著减少，并支持高效的并行化训练，显著提升了训练效率，降低了训练成本，并增强了模型的稳定性。

此外，Wan2.1已在GitHub和Hugging Face平台开源，并提供用户友好的Gradio交互界面，方便用户进行测试和应用，还支持xDiT模型，进一步提升用户体验；也支持Diffusers和ComfyUI等常用工具，并已适配阿里云通义平台，让更多开发者能够便捷地使用该模型。

快讯中提到的AI工具

Pika

AI创意视频制作平台，重新定义视频创作

Hugging Face

机器学习和人工智能技术的平台

Sora

OpenAI 开发的文本到视频生成模型

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/7d4gnpb1