开源Sora复现方案：成本降幅达46%，序列长度扩展至819K patches

Colossal-AI团队推出了名为Open-Sora的开源Sora架构，该架构实现了高达46%的训练加速，并成功处理了包含819K个patches的大规模数据集。Sora模型的设计灵感来源于Sora的潜在机制，它采用了一种能够处理不同持续时间、分辨率和尺寸的视频数据的潜在扩散Transformer架构。Open-Sora旨在通过提供一个完整的训练pipeline，复现Sora的视频生成能力，从而简化相关研究和实验的流程。目前，Open-Sora能够支持Sora架构的训练，包括大规模的视频tokens生成，以及扩散Transformer模型的训练和推理。初步实验结果显示，在配备H800 SXM 8*80GB GPU的硬件环境下，使用DiT-XL/2模型，处理600K tokens的数据集时，Open-Sora的训练效率相比原生实现提高了40%。获取Open-Sora的更多信息，请访问：https://github.com/hpcaitech/Open-Sora。