开源视频大模型Open-Sora 2.0强势来袭，挑战Sora，降低成本，提升速度

5个月前发布AI俱乐部

标签：Open-Sora2.0 OpenAISora 潞晨科技视频生成模型

OpenAI Sora以其高昂的训练成本闻名业界，而潞晨科技近日宣布开源其视频生成模型Open-Sora 2.0，该模型以仅20万美元的成本（相当于224张GPU的投入）实现了110亿参数的商业级性能，与OpenAI Sora等行业标杆产品相比，展现出极强的竞争力。

开源视频大模型Open-Sora 2.0强势来袭，挑战Sora，降低成本，提升速度

Open-Sora 2.0在权威评测VBench和用户偏好测试中均取得了优异成绩，多项关键指标可与那些耗资数百万美元训练的闭源模型媲美。尤其值得关注的是，其在VBench评测中与OpenAI Sora的性能差距已从之前的4.52%大幅缩小至0.69%，几乎实现了性能上的全面追平，并在部分指标上甚至超越了腾讯的HunyuanVideo和商业模型Runway Gen-3 Alpha。

开源视频大模型Open-Sora 2.0强势来袭，挑战Sora，降低成本，提升速度

低成本高性能的实现策略

Open-Sora 2.0的低成本高性能并非偶然，其背后蕴含着多项关键技术：

模型架构优化：沿用Open-Sora 1.2的3D自编码器和Flow Matching训练框架，并引入3D全注意力机制，提升视频生成质量。
成本优化策略：
- 数据筛选： 严格筛选高质量训练数据，提升训练效率。
- 低分辨率优先训练： 优先进行低分辨率训练，高效学习运动信息，显著降低计算成本。
- 图生视频优先训练： 加速模型收敛，并通过文本生图再生视频（T2I2V）的方式，在推理阶段获得更精细的视觉效果。
- 高效并行训练： 结合ColossalAI和系统级优化，例如高效的序列并行、ZeroDP、细粒度控制的Gradient Checkpointing和训练自动恢复机制等，大幅提升计算资源利用率。

据估计，市面上参数量超过100亿的开源视频模型，单次训练成本通常高达数百万美元，而Open-Sora 2.0将此成本降低了5-10倍。

开源共享，共建繁荣生态

Open-Sora 2.0不仅开源了模型代码和权重，还开源了全流程训练代码，这将有力推动开源生态发展。据第三方技术平台统计，Open-Sora的学术论文引用量在半年内接近百次，在全球开源影响力排名中位居前列，成为全球影响力最大的开源视频生成项目之一。

此外，团队积极探索高压缩比视频自编码器的应用，成功训练出一款高压缩比（4×32×32）的视频自编码器，将单卡生成768px、5秒视频的推理时间从近30分钟缩短至3分钟以内，速度提升了10倍。

总而言之，潞晨科技的Open-Sora 2.0以其低成本、高性能和全面开源的特性，为视频生成领域带来了革新，显著降低了高质量视频生成的门槛，并有望推动该领域的技术发展。

🔗 GitHub 开源仓库: https://github.com/hpcaitech/Open-Sora

📄 技术报告: https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf

快讯中提到的AI工具

Runway

新推出的 Gen-3 Alpha 是一个高速、高保真、可控的视频生成工具

Sora

OpenAI 开发的文本到视频生成模型

OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明：

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/gi2k7sg6

暂无评论

none

暂无评论...

字节跳动火山引擎发布：豆包音乐模型及同声传译模型重磅亮相

6浏览 0点赞 10个月前

字节跳动火山引擎发布：豆包音乐模型及同声传译模型重磅亮相

字节跳动9月24日重磅发布：豆包大模型视频生成技术引爆期待！

5浏览 0点赞 11个月前

字节跳动9月24日重磅发布：豆包大模型视频生成技术引爆期待！

字节跳动联合香港大学发布Goku模型，直接生成虚拟数字人视频

11浏览 0点赞 6个月前

字节跳动联合香港大学发布Goku模型，直接生成虚拟数字人视频

智谱AI发布CogVideoX v1.5：10秒生成4K高清视频，尽享“新清影”体验

5浏览 0点赞 9个月前

智谱AI发布CogVideoX v1.5：10秒生成4K高清视频，尽享“新清影”体验

OpenAI因产能限制暂缓发布Sora API，或错失市场先机。

6浏览 0点赞 8个月前

OpenAI因产能限制暂缓发布Sora API，或错失市场先机。

Adobe与麻省理工学院合作推出CausVid视频生成模型，首帧延迟仅需1.3秒！

6浏览 0点赞 8个月前

Adobe与麻省理工学院合作推出CausVid视频生成模型，首帧延迟仅需1.3秒！

谷歌Veo 2升级：4K分辨率AI视频生成，人类偏好评分超越Sora

5浏览 0点赞 8个月前

谷歌Veo 2升级：4K分辨率AI视频生成，人类偏好评分超越Sora

潞晨科技发布Open-Sora 2.0：全流程开源的全新视频生成模型

7浏览 0点赞 5个月前

潞晨科技发布Open-Sora 2.0：全流程开源的全新视频生成模型