谷歌Veo 2升级：4K分辨率AI视频生成，人类偏好评分超越Sora

11个月前发布AI俱乐部

摘要：

谷歌推出了全新的视频生成模型 Veo2，旨在与 OpenAI 的 Sora 一较高下。据官方介绍，Veo2 在 […]

谷歌推出了全新的视频生成模型 Veo2，旨在与 OpenAI 的 Sora 一较高下。据官方介绍，Veo2 在视频生成方面实现了显著提升，能够创作出更具电影质感和情感表现力的影片。与以往模型相比，它更能准确理解用户的指令，生成更加贴合需求的内容。

Veo2 的主要特点：

根据官方说法，Veo2 可以“将文字提示转化为能够逼真地模拟真实世界，并且带有情感色彩的视频短片”。它与 Google Labs 的 VideoFX 工具类似，但功能更为强大和先进。值得一提的是，Google 也在不断改进其视频生成技术，并致力于将相关功能整合到各个产品之中。

从技术角度来看，该模型能够生成更高分辨率的视频，并且在理解镜头运动、风格以及视觉效果方面均有提升。更重要的是，Veo2 现在能够生成分辨率高达 4K 的视频内容。

此外，得益于 Veo 模型与 Vertex AI 的集成，Veo2 生成的视频可以使用谷歌官方提供的数字水印技术 SynthID 进行标记，从而便于识别 AI 生成的内容。

据悉，Veo2 目前还处于早期阶段，官方正在积极探索如何将其应用于更广泛的领域，例如为电影制作提供强大的创意工具，或者帮助品牌打造引人入胜的宣传内容。

根据官方博客的信息，Veo2 能够生成“具有电影质感”的视频（包含复杂的摄影技巧），并且能够理解“时间推移”等概念（即视频随时间推移而产生的变化），这使得 Veo 在某些方面超越了 Sora 和其他同类模型。

Veo2 体验地址：https://labs.google/fx/tools/video-fx

技术地址：https://deepmind.google/technologies/veo/veo-2/

AI 视频生成技术正在快速发展。

尽管 AI 视频生成领域竞争激烈，但 OpenAI 凭借其强大的技术实力和创新能力，仍然占据着领先地位。除了谷歌之外，RunwayML 和 Luma AI 等公司也在积极开发和完善各自的 AI 视频生成模型。

最近，RunwayML 发布了 Gen-3 Alpha Turbo 模型，进一步提升了视频的质量。而 Pika Labs 则推出了 Pika 2.0，致力于通过 AI 技术赋能更广泛的创意表达。

总而言之，AI 视频生成技术的进步速度令人惊叹。Sora 的出现引发了人们对未来视频创作方式的无限遐想，推动了行业对视频质量以及内容真实性的更高追求。与此同时，如何平衡技术发展与伦理规范，也成为了一个重要的议题。

值得一提的是，谷歌也在积极探索 Veo2 的商业化应用，例如将其集成到 YouTube 平台，或者通过 VideoFX 工具为用户提供视频编辑和创作功能，从而更好地服务于创作者。

Imagen3 的相关信息：

除了 Veo2 之外，谷歌还在图像生成领域取得了新的进展，推出了 Imagen3 模型，它在图像质量和细节表现力方面均有显著提升。与之前的 Imagen 模型相比，Imagen3 能够生成更加逼真、更具细节的图像，并且更好地理解用户的文本描述。Imagen3 在处理复杂场景和细节纹理方面表现出色，能够生成具有丰富细节和高度真实感的图像。目前，该模型主要用于内部研究，尚未向公众开放。