阿里通义万相2.1视频生成模型今晚开源，首次实现中文文字生成视频功能

据新浪科技援引知情人士透露，阿里巴巴计划于今晚全面开源其视频生成模型万相 2.1。

今年一月，阿里通义万相发布了 2.1 版本模型升级，该版本在视频生成和图像生成两方面均实现了显著提升。

在视频生成能力方面，通义万相 2.1 采用了自主研发的高效 VAE 和 DiT 架构，从而增强了时空上下文建模能力，实现了对无限长度 1080P 视频的高效编解码，并首次实现了中文文字视频生成功能，在 VBench 榜单上名列前茅。

据悉，通义万相 2.1 既支持中文视频，也支持英文视频，均可一键生成艺术字，同时提供多种视频特效选项以增强视觉表现力，如过渡效果、粒子效果以及模拟效果等。此外，该模型还支持复杂的运镜，能够还原碰撞、反弹、切割、挤压等真实世界的物理规律，例如模拟雨滴落在伞上溅起水花的效果。

官方曾表示，通义万相 2.1 支持中英文一键生成艺术字，并提供多种视频特效选项，包括过渡、粒子效果和模拟等。

根据 AI 工具库此前的报道，通义万相于去年九月宣布支持文生视频、图生视频等功能，并具备插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化能力。

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...