开源视频大模型Open-Sora 2.0强势来袭,挑战Sora,降低成本,提升速度

2个月前发布AI俱乐部
7 0 0

OpenAI Sora以其高昂的训练成本闻名业界,而潞晨科技近日宣布开源其视频生成模型Open-Sora 2.0,该模型以仅20万美元的成本(相当于224张GPU的投入)实现了110亿参数的商业级性能,与OpenAI Sora等行业标杆产品相比,展现出极强的竞争力。

开源视频大模型Open-Sora 2.0强势来袭,挑战Sora,降低成本,提升速度

Open-Sora 2.0在权威评测VBench和用户偏好测试中均取得了优异成绩,多项关键指标可与那些耗资数百万美元训练的闭源模型媲美。尤其值得关注的是,其在VBench评测中与OpenAI Sora的性能差距已从之前的4.52%大幅缩小至0.69%,几乎实现了性能上的全面追平,并在部分指标上甚至超越了腾讯的HunyuanVideo和商业模型Runway Gen-3 Alpha。

开源视频大模型Open-Sora 2.0强势来袭,挑战Sora,降低成本,提升速度

低成本高性能的实现策略

Open-Sora 2.0的低成本高性能并非偶然,其背后蕴含着多项关键技术:

  • 模型架构优化:沿用Open-Sora 1.2的3D自编码器和Flow Matching训练框架,并引入3D全注意力机制,提升视频生成质量。
  • 成本优化策略:
    • 数据筛选: 严格筛选高质量训练数据,提升训练效率。
    • 低分辨率优先训练: 优先进行低分辨率训练,高效学习运动信息,显著降低计算成本。
    • 图生视频优先训练: 加速模型收敛,并通过文本生图再生视频(T2I2V)的方式,在推理阶段获得更精细的视觉效果。
    • 高效并行训练: 结合ColossalAI和系统级优化,例如高效的序列并行、ZeroDP、细粒度控制的Gradient Checkpointing和训练自动恢复机制等,大幅提升计算资源利用率。

据估计,市面上参数量超过100亿的开源视频模型,单次训练成本通常高达数百万美元,而Open-Sora 2.0将此成本降低了5-10倍。

开源共享,共建繁荣生态

Open-Sora 2.0不仅开源了模型代码和权重,还开源了全流程训练代码,这将有力推动开源生态发展。据第三方技术平台统计,Open-Sora的学术论文引用量在半年内接近百次,在全球开源影响力排名中位居前列,成为全球影响力最大的开源视频生成项目之一。

此外,团队积极探索高压缩比视频自编码器的应用,成功训练出一款高压缩比(4×32×32)的视频自编码器,将单卡生成768px、5秒视频的推理时间从近30分钟缩短至3分钟以内,速度提升了10倍。

总而言之,潞晨科技的Open-Sora 2.0以其低成本、高性能和全面开源的特性,为视频生成领域带来了革新,显著降低了高质量视频生成的门槛,并有望推动该领域的技术发展。

🔗 GitHub 开源仓库: https://github.com/hpcaitech/Open-Sora

📄 技术报告: https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf

快讯中提到的AI工具

Runway
Runway

新推出的 Gen-3 Alpha 是一个高速、高保真、可控的视频生成工具

Sora
Sora

OpenAI 开发的文本到视频生成模型

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/gi2k7sg6

暂无评论

none
暂无评论...