OpenAI内测Sora：全新图像生成器或预示DALL-E 4到来？

摘要：

当前，OpenAI 推出了一项引人注目的技术：名为 Sora 的文本生成视频模型，它能够根据用户的文字描述，创 […]

当前，OpenAI 推出了一项引人注目的技术：名为 Sora 的文本生成视频模型，它能够根据用户的文字描述，创造出令人惊叹的视频内容，并将其融入现实世界中。这种技术承诺将文本转化为生动的视觉体验。

从技术角度来看，Sora 的卓越之处在于它能够制作具有高度细节的场景，并且模拟出复杂的相机运动。用户可以在设定的范围内，轻松地调整生成视频的各个方面。

关于文本生成视频的质量，Sora 展现了在文本理解和视频保真度方面的巨大进步。其“最佳”和“顶级”的评价反映了在捕捉细微差别以及确保结果与提示一致性上的能力。“最佳”通常意味着在特定类别中表现出色，而“顶级”则强调模型在特定任务中的竞争力。这些特性共同提升了 Sora 生成视频的整体质量。

与 DALL-E3 的文本生成图像技术相比，这种进步显得尤为重要。DALL-E3 在图像生成方面已经表现出色，但 Sora 将其能力扩展到了动态视频领域。值得注意的是，尽管 Midjourney 在特定情况下可能仍然具有优势，但 Sora 的视频生成能力代表了该领域的一大飞跃。“Images demixing”的概念是实现高质量视频生成的基础。

展望未来，这项技术的潜力可能超越 DALL-E4，OpenAI 有望继续提升其生成能力。值得关注的是，Sora 在文本生成视频领域的应用可能超越 DALL-E4，甚至可能出现名为“sora-turbo”的增强版本。此外，ChatGPT 已经集成了 GPT-4o 的音频处理能力，这表明 Sora 的未来发展可能会更加注重多模态的集成。

值得注意的是，Sora 在理解文本提示方面的能力也得到了提升，例如能够准确理解“papaya”等词汇，并将其转化为逼真的视觉元素。与 DALL-E3 相比，即使面对复杂的场景，它也能保持视频内容的一致性和质量。