

Colossal-AI团队推出了名为Open-Sora的开源Sora架构,该架构实现了高达46%的训练加速,并成功处理了包含819K个patches的大规模数据集。Sora模型的设计灵感来源于Sora的潜在机制,它采用了一种能够处理不同持续时间、分辨率和尺寸的视频数据的潜在扩散Transformer架构。Open-Sora旨在通过提供一个完整的训练pipeline,复现Sora的视频生成能力,从而简化相关研究和实验的流程。目前,Open-Sora能够支持Sora架构的训练,包括大规模的视频tokens生成,以及扩散Transformer模型的训练和推理。初步实验结果显示,在配备H800 SXM 8*80GB GPU的硬件环境下,使用DiT-XL/2模型,处理600K tokens的数据集时,Open-Sora的训练效率相比原生实现提高了40%。获取Open-Sora的更多信息,请访问:https://github.com/hpcaitech/Open-Sora。
快讯中提到的AI工具

Sora
OpenAI 开发的文本到视频生成模型
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/ln7efala暂无评论...