

谷歌的人工智能技术持续创新,最近宣布了一项令人振奋的计划。谷歌旗下的 DeepMind 公司首席执行官 Demis Hassabis 在 Possible 播客节目中透露,他们计划将 Gemini AI 模型与 Veo 视频生成模型相结合。这一举措的目的是提升 Gemini 模型对物理世界的理解能力,从而开发出一个真正能够在现实生活中为用户提供帮助的通用数字助手。
Hassabis 指出,Gemini 模型最初就被设计为一个多模态系统,能够处理多种类型的数据和信息。他表示:“我们的愿景是构建一个能够整合各种媒体形式的助手,这样它才能更好地理解和与世界互动。” 目前,Gemini 模型已经展示出强大的多模态能力,能够生成图像、文本和音频。
值得注意的是,整个人工智能行业都在朝着“全能”模型的方向发展,许多公司都在研究类似的方向。例如,OpenAI 的 ChatGPT 不仅可以处理文本对话,还能生成艺术风格的图像。此外,亚马逊也计划推出一款全新的“任意到任意”模型,旨在实现更高水平的多模态功能。
Hassabis 透露,Veo 模型的训练数据主要来自谷歌旗下的 YouTube 平台。通过分析大量 YouTube 视频,Veo 能够有效学习世界的物理规律。他指出:“Veo 通过观看大量视频,能够更好地理解现实世界的运作方式。” 这表明,Veo 在训练过程中所使用的数据不仅丰富,而且具有实际应用价值。
谷歌去年已扩大了其服务条款,以便获取更多的 YouTube 内容用于人工智能模型的训练,以确保模型具有多样性和准确性。这样的数据获取策略将为 Gemini 和 Veo 的结合提供坚实基础,使即将推出的智能助手能够更全面、更深刻地理解和响应用户的需求。
随着技术的不断进步,谷歌计划预示着人工智能助手将不再局限于单一任务,而是能够在多个领域为用户提供实用的支持,为用户生活带来更多便利。