谷歌计划整合Gemini和Veo AI模型，助力智能助手发展

摘要：

近期，谷歌 DeepMind 的首席执行官米斯・哈萨比斯在一档播客节目中透露，谷歌计划将其 Gemini 人工 […]

近期，谷歌 DeepMind 的首席执行官米斯・哈萨比斯在一档播客节目中透露，谷歌计划将其 Gemini 人工智能模型与视频生成模型 Veo 结合，以提升 Gemini 对物理世界的理解能力。哈萨比斯指出，Gemini 最初就是为多模态设计而生，旨在构建一个“通用数字助手”，能够真正辅助用户在现实世界中的各种场景中。

哈萨比斯强调，人工智能领域正朝着拥有广泛理解和合成多种媒体形式能力的“全能”模型发展。例如，谷歌的 Gemini 模型不仅可生成文本和图像，还具备生成音频的能力。而 OpenAI 在 ChatGPT 中的默认模型也能够原生创建图像。另外，亚马逊也宣布将推出一款“任何到任何”的模型。

要实现这些全能模型，需要大量的训练数据，包括图像、视频、音频和文本等。哈萨比斯透露，Veo 模型的训练数据主要来源于谷歌旗下的 YouTube 平台。他表示，通过观看大量YouTube视频，Veo2能够学习到现实世界的物理规律。

之前，谷歌曾表明其模型“可能”会依据与YouTube创作者的协议，从“部分”YouTube内容中进行训练。根据报告显示，谷歌去年扩展了其服务条款，以获取更多数据用于训练人工智能模型。这一策略表明，谷歌积极谋求提升AI技术能力，以满足市场需求。

随着人工智能技术飞速发展，谷歌的这一计划体现了行业对多模态AI的重视和未来发展方向。结合Gemini和Veo模型将有助于为用户带来更为丰富的互动体验，使人工智能更好地融入日常生活。