国内首个短剧创作大模型开源，单人即可拍摄80秒短剧，成就大片新体验

2024年2月18日，昆仑万维宣布开源中国首个面向人工智能短剧创作的视频生成模型SkyReels-V1，以及首个SOTA级别的基于视频基座模型的表情动作可控算法SkyReels-A1。

开源地址：

SkyReels-V1: https://github.com/SkyworkAI/SkyReels-V1
SkyReels-A1: https://github.com/SkyworkAI/SkyReels-A1

技术报告：https://skyworkai.github.io/skyreels-a1.github.io/report.pdf
SkyReels官网：skyreels.ai

针对当前全球人工智能视频生成模型和产品存在的非开源、高费用和使用不便等问题，昆仑万维通过开源SkyReels-V1和SkyReels-A1两个SOTA级别的模型和算法，以此回馈开源社区和AIGC用户，并推动AI短剧创作技术的发展。这一开源计划标志着我们在AI视频领域的起步，未来将陆续推出更多优秀的AI短剧相关研究成果。

SkyReels-V1：以人为本的视频基础模型
中国首个面向AI短剧创作的开源视频生成模型

人工智能短剧创作需要对角色的语言和肢体动作进行精细控制，这就要求对口型生成、表情生成和肢体生成等多个维度的能力进行结合，形成综合生成效果。现阶段，用户在口型生成方面的体验相对较好，因为口型生成与音频信息的映射关系更加紧密，从而实现较高的精准度和用户满意度。国内首个短剧创作大模型开源，单人即可拍摄80秒短剧，成就大片新体验
^{图 1. SkyReels-V1 文生视频指标对比（来源：昆仑万维 SkyReels）}

SkyReels-V1能达到这一SOTA级别，得益于昆仑万维SkyReels团队在自研数据清洗和人工标注方面的优势，构建了上千万级的高质量电影、电视剧及纪录片数据集。另外，团队自研的「以人为本」的视频理解多模态大模型大幅提升了对视频中人物的理解能力，尤其是其先进的人物智能解析系统。

因此，得益于扎实的数据基础和先进的人物解析技术，SkyReels-V1具备了以下能力：

影视化表情识别体系：能够理解11种影视作品中的人物表情，例如不屑、不耐烦、无助、厌恶等；
人物空间位置感知：运用人体三维重建技术理解视频中多人的空间相对关系，助力生成影视级人物站位；
行为意图理解：构建超过400种行为语义单元，实现对人物行为的精准理解；
表演场景理解：实现人物、服装、场景及剧情之间的关联分析。

SkyReels-V1不仅是全球为数不多的开源视频生成模型之一，也是性能领先的围绕人物表演开发的视频生成解决方案。

在自研推理优化框架「SkyReels-Infer」的支持下，该模型显著提高了推理效率，可以在544p分辨率下，单台4090显卡推理时间缩短至80秒，并支持分布式多卡并行，兼容Context Parallel、CFG Parallel和VAE Parallel。此外，通过采用FP8量化和参数级别卸载技术，满足低显存用户显卡的运行需求，同时还引入Flash Attention和SageAttention等技术，进一步降低了延迟，基于开源的Diffuser库，提升了易用性。

如图2所示，在同等RTX4090资源下（四卡对比），SkyReels-Infer版本的端到端延迟比HunyuanVideo官方版本减少58.3%（293.3秒对比464.3秒）；SkyReels-Infer版本具备更为鲁棒的部署策略，支持单卡至八卡的用户级显卡推理部署。
国内首个短剧创作大模型开源，单人即可拍摄80秒短剧，成就大片新体验
^{图 2. 在相同RTX4090卡数下，SkyReels-Infer版本的端到端延迟优于HunyuanVideo官方版本（XDIT）58.3%}

在相同A800资源下的对比中，SkyReels-Infer版本的端到端延迟减少了14.7%至28.2%，展现出更为健壮的多卡部署策略。tion>SkyReels-A1：首个 SOTA 级别的基于视频基座模型的表情动作可控算法
为了实现更为精确可控的人物视频生成，昆仑万维推出了开源的 SOTA 级别表情动作可控算法 SkyReels-A1，旨在与 Runway 的 Act-One 竞争。SkyReels-A1 支持视频驱动的电影级表情捕捉，能够高保真地还原微表情。
SkyReels-A1 能够基于各种人体比例（包括肖像、半身和全身构图）生成极具真实感的人物动态视频。其真实感来源于对人物表情变化、情绪表现、皮肤质感以及身体动作跟随等多维度细节的精准模拟与深度还原。
如视频所示，SkyReels-A1 将参考人物图片（上图）和驱动视频（左下）作为输入，生成了一段新视频——将驱动视频中的面部表情和表演细节 “移植” 到参考图片中的人物身上。生成的视频（下中）无失真，完美还原了驱动视频的微表情和肢体表演，效果明显优于 Runway Act-One 生成的视频（右下）。国内首个短剧创作大模型开源，单人即可拍摄80秒短剧，成就大片新体验 SkyReels-A1 不仅支持侧脸表情控制生成，还能实现更为细腻的眉眼微表情，并支持更大幅度的头部和身体自然动作。例如在同一句台词表演的不同版本中，可以看到最右边的人物表现出现明显失真，难以与原始人物形象保持一致，而 SkyReels-A1 支持的驱动表演不仅人物形象得以保持，且表演细节更加真实，能够实现情感与身体动作的自然完美融合。国内首个短剧创作大模型开源，单人即可拍摄80秒短剧，成就大片新体验此外，SkyReels-A1 还能实现更为复杂的人物表情驱动。从下面的视频中可以看出，与无法生成复杂表情的 Runway Act-One 相比，SkyReels-A1 更能迁移复杂的表情动作，生成的人物面部表情能够与其肢体语言及画面内容相辅相成，呈现出更加栩栩如生的表演。国内首个短剧创作大模型开源，单人即可拍摄80秒短剧，成就大片新体验 以开源之姿，以破局之势昆仑万维致力于推动全球 AI 短剧创作生态的繁荣与发展
昆仑万维始终坚持开源理念，推动技术的平等共享。自 2023 年 8 月 23 日推出国内首款 AI 搜索产品「天工 AI 搜索」以来，该公司持续回馈开发者和行业，以开源形式发布大模型。
早在 2023 年 10 月，昆仑万维便宣布开源百亿级大语言模型 Skywork-13B，并同时发布了包含 600GB、150B Tokens 的超大高质量开源中文数据集。自 2024 年以来，公司陆续开源了涵盖数字智能体全面研发的工具包 AgentStudio、4000 亿参数的 “天工大模型 3.0” MoE 超级模型、200 亿稀疏大模型 Skywork-MoE、以及 Skywork-o1-Open 等多种模型。
视频生成模型是 AI 短剧创作中最具挑战性的环节。尽管过去一年行业内模型生成能力已显著提升，但仍然面临视频生成成本高昂的问题。
昆仑万维实现了 SOTA 级别的 SkyReels-V1 和 SkyReels-A1 的开源，这在 AI 短剧行业尚属首例，也是昆仑万维 SkyReels 系列对行业的一项重要回馈，推动了 AI 短剧创作和视频生成行业的蓬勃发展。
我们相信，通过推理优化的升级与可控算法的开源，这些新技术将为用户提供更具成本效益和更强可控性的 AIGC 能力。昆仑万维期望通过更多优秀的视频生成模型的开源，结合极致的 AI 短剧产品能力，为用户提供以低成本实现 AI 短剧创作的可能性，并突破目前行业在视频生成一致性方面所面临的挑战，让用户能够通过个人设备生成精细且可控的人物表演。
昆仑万维董事长兼 CEO 方汉表示：“AIGC 能力的崛起，尤其是我们当前的视频生成能力，必将显著降低高质量电影的制作成本，从目前的一亿美元降至几十万甚至几千美金，未来甚至有可能降至几百美金。这将使全球各语言地区的人们都能够利用 AI 创作具有本民族特色的内容产品。这样的变革将实现文化的平等共享，而这一红利很可能由中国企业率先获得。”
此次开源的视频大模型不仅是技术上的一次突破，也是全球内容产业数字鸿沟缩小的重要一步，更是推动文化产业生产力革命的举措。未来，短剧与游戏、虚拟现实等领域的跨界合作将加速产业融合，AI 短剧将有望从“技术实验”转向“主流创作”，成为全球文化输出的重要载体。长注入活力。