
2024年2月18日,昆仑万维宣布开源中国首个面向人工智能短剧创作的视频生成模型SkyReels-V1,以及首个SOTA级别的基于视频基座模型的表情动作可控算法SkyReels-A1。

- 开源地址:
SkyReels-V1: https://github.com/SkyworkAI/SkyReels-V1
SkyReels-A1: https://github.com/SkyworkAI/SkyReels-A1
- 技术报告:https://skyworkai.github.io/skyreels-a1.github.io/report.pdf
- SkyReels官网:skyreels.ai
针对当前全球人工智能视频生成模型和产品存在的非开源、高费用和使用不便等问题,昆仑万维通过开源SkyReels-V1和SkyReels-A1两个SOTA级别的模型和算法,以此回馈开源社区和AIGC用户,并推动AI短剧创作技术的发展。这一开源计划标志着我们在AI视频领域的起步,未来将陆续推出更多优秀的AI短剧相关研究成果。
SkyReels-V1:以人为本的视频基础模型
中国首个面向AI短剧创作的开源视频生成模型
人工智能短剧创作需要对角色的语言和肢体动作进行精细控制,这就要求对口型生成、表情生成和肢体生成等多个维度的能力进行结合,形成综合生成效果。现阶段,用户在口型生成方面的体验相对较好,因为口型生成与音频信息的映射关系更加紧密,从而实现较高的精准度和用户满意度。
图 1. SkyReels-V1 文生视频指标对比(来源:昆仑万维 SkyReels)
SkyReels-V1能达到这一SOTA级别,得益于昆仑万维SkyReels团队在自研数据清洗和人工标注方面的优势,构建了上千万级的高质量电影、电视剧及纪录片数据集。另外,团队自研的「以人为本」的视频理解多模态大模型大幅提升了对视频中人物的理解能力,尤其是其先进的人物智能解析系统。
因此,得益于扎实的数据基础和先进的人物解析技术,SkyReels-V1具备了以下能力:
- 影视化表情识别体系:能够理解11种影视作品中的人物表情,例如不屑、不耐烦、无助、厌恶等;
- 人物空间位置感知:运用人体三维重建技术理解视频中多人的空间相对关系,助力生成影视级人物站位;
- 行为意图理解:构建超过400种行为语义单元,实现对人物行为的精准理解;
- 表演场景理解:实现人物、服装、场景及剧情之间的关联分析。
SkyReels-V1不仅是全球为数不多的开源视频生成模型之一,也是性能领先的围绕人物表演开发的视频生成解决方案。
在自研推理优化框架「SkyReels-Infer」的支持下,该模型显著提高了推理效率,可以在544p分辨率下,单台4090显卡推理时间缩短至80秒,并支持分布式多卡并行,兼容Context Parallel、CFG Parallel和VAE Parallel。此外,通过采用FP8量化和参数级别卸载技术,满足低显存用户显卡的运行需求,同时还引入Flash Attention和SageAttention等技术,进一步降低了延迟,基于开源的Diffuser库,提升了易用性。
如图2所示,在同等RTX4090资源下(四卡对比),SkyReels-Infer版本的端到端延迟比HunyuanVideo官方版本减少58.3%(293.3秒对比464.3秒);SkyReels-Infer版本具备更为鲁棒的部署策略,支持单卡至八卡的用户级显卡推理部署。
图 2. 在相同RTX4090卡数下,SkyReels-Infer版本的端到端延迟优于HunyuanVideo官方版本(XDIT)58.3%
在相同A800资源下的对比中,SkyReels-Infer版本的端到端延迟减少了14.7%至28.2%,展现出更为健壮的多卡部署策略。tion>SkyReels-A1:首个 SOTA 级别的基于视频基座模型的表情动作可控算法
为了实现更为精确可控的人物视频生成,昆仑万维推出了开源的 SOTA 级别表情动作可控算法 SkyReels-A1,旨在与 Runway 的 Act-One 竞争。SkyReels-A1 支持视频驱动的电影级表情捕捉,能够高保真地还原微表情。
SkyReels-A1 能够基于各种人体比例(包括肖像、半身和全身构图)生成极具真实感的人物动态视频。其真实感来源于对人物表情变化、情绪表现、皮肤质感以及身体动作跟随等多维度细节的精准模拟与深度还原。
如视频所示,SkyReels-A1 将参考人物图片(上图)和驱动视频(左下)作为输入,生成了一段新视频——将驱动视频中的面部表情和表演细节 “移植” 到参考图片中的人物身上。生成的视频(下中)无失真,完美还原了驱动视频的微表情和肢体表演,效果明显优于 Runway Act-One 生成的视频(右下)。SkyReels-A1 不仅支持侧脸表情控制生成,还能实现更为细腻的眉眼微表情,并支持更大幅度的头部和身体自然动作。
例如在同一句台词表演的不同版本中,可以看到最右边的人物表现出现明显失真,难以与原始人物形象保持一致,而 SkyReels-A1 支持的驱动表演不仅人物形象得以保持,且表演细节更加真实,能够实现情感与身体动作的自然完美融合。
此外,SkyReels-A1 还能实现更为复杂的人物表情驱动。从下面的视频中可以看出,与无法生成复杂表情的 Runway Act-One 相比,SkyReels-A1 更能迁移复杂的表情动作,生成的人物面部表情能够与其肢体语言及画面内容相辅相成,呈现出更加栩栩如生的表演。
以开源之姿,以破局之势昆仑万维致力于推动全球 AI 短剧创作生态的繁荣与发展
昆仑万维始终坚持开源理念,推动技术的平等共享。自 2023 年 8 月 23 日推出国内首款 AI 搜索产品「天工 AI 搜索」以来,该公司持续回馈开发者和行业,以开源形式发布大模型。
早在 2023 年 10 月,昆仑万维便宣布开源百亿级大语言模型 Skywork-13B,并同时发布了包含 600GB、150B Tokens 的超大高质量开源中文数据集。自 2024 年以来,公司陆续开源了涵盖数字智能体全面研发的工具包 AgentStudio、4000 亿参数的 "天工大模型 3.0" MoE 超级模型、200 亿稀疏大模型 Skywork-MoE、以及 Skywork-o1-Open 等多种模型。
视频生成模型是 AI 短剧创作中最具挑战性的环节。尽管过去一年行业内模型生成能力已显著提升,但仍然面临视频生成成本高昂的问题。
昆仑万维实现了 SOTA 级别的 SkyReels-V1 和 SkyReels-A1 的开源,这在 AI 短剧行业尚属首例,也是昆仑万维 SkyReels 系列对行业的一项重要回馈,推动了 AI 短剧创作和视频生成行业的蓬勃发展。
我们相信,通过推理优化的升级与可控算法的开源,这些新技术将为用户提供更具成本效益和更强可控性的 AIGC 能力。昆仑万维期望通过更多优秀的视频生成模型的开源,结合极致的 AI 短剧产品能力,为用户提供以低成本实现 AI 短剧创作的可能性,并突破目前行业在视频生成一致性方面所面临的挑战,让用户能够通过个人设备生成精细且可控的人物表演。
昆仑万维董事长兼 CEO 方汉表示:“AIGC 能力的崛起,尤其是我们当前的视频生成能力,必将显著降低高质量电影的制作成本,从目前的一亿美元降至几十万甚至几千美金,未来甚至有可能降至几百美金。这将使全球各语言地区的人们都能够利用 AI 创作具有本民族特色的内容产品。这样的变革将实现文化的平等共享,而这一红利很可能由中国企业率先获得。”
此次开源的视频大模型不仅是技术上的一次突破,也是全球内容产业数字鸿沟缩小的重要一步,更是推动文化产业生产力革命的举措。未来,短剧与游戏、虚拟现实等领域的跨界合作将加速产业融合,AI 短剧将有望从“技术实验”转向“主流创作”,成为全球文化输出的重要载体。长注入活力。
相关AI热点
