

近期,谷歌 DeepMind 的首席执行官米斯・哈萨比斯在一档播客节目中透露,谷歌计划将其 Gemini 人工智能模型与视频生成模型 Veo 结合,以提升 Gemini 对物理世界的理解能力。哈萨比斯指出,Gemini 最初就是为多模态设计而生,旨在构建一个“通用数字助手”,能够真正辅助用户在现实世界中的各种场景中。
哈萨比斯强调,人工智能领域正朝着拥有广泛理解和合成多种媒体形式能力的“全能”模型发展。例如,谷歌的 Gemini 模型不仅可生成文本和图像,还具备生成音频的能力。而 OpenAI 在 ChatGPT 中的默认模型也能够原生创建图像。另外,亚马逊也宣布将推出一款“任何到任何”的模型。
要实现这些全能模型,需要大量的训练数据,包括图像、视频、音频和文本等。哈萨比斯透露,Veo 模型的训练数据主要来源于谷歌旗下的 YouTube 平台。他表示,通过观看大量YouTube视频,Veo2能够学习到现实世界的物理规律。
之前,谷歌曾表明其模型“可能”会依据与YouTube创作者的协议,从“部分”YouTube内容中进行训练。根据报告显示,谷歌去年扩展了其服务条款,以获取更多数据用于训练人工智能模型。这一策略表明,谷歌积极谋求提升AI技术能力,以满足市场需求。
随着人工智能技术飞速发展,谷歌的这一计划体现了行业对多模态AI的重视和未来发展方向。结合Gemini和Veo模型将有助于为用户带来更为丰富的互动体验,使人工智能更好地融入日常生活。
快讯中提到的AI工具
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/rud5tplo暂无评论...