
谷歌DeepMind发布了其突破性成果——Gemini Robotics,一个将人工智能的强大能力与物理机器人结合的系统。这并非简单的家用机器人,而是旨在赋予机器人如同人类甚至超越人类的能力,使其在物理世界中高效运作。
功能强大的多用途机器人
Gemini Robotics的核心是先进的Gemini 2.0模型。Gemini 2.0本身具备处理文本、图像、音频和视频的强大能力,而Gemini Robotics更进一步,赋予机器人理解物理空间并采取行动的能力。这意味着它能够理解文字指令、图像、语音和视频,并将其转化为实际的物理操作。
只需简单的语音指令或图像指示,机器人即可完成家务等任务。其最显著的特点在于其强大的泛化能力。它并非仅限于执行预设程序,而是利用Gemini强大的世界知识库,即使面对全新的物体、复杂指令和未知环境,也能迅速理解并找到解决方案。
谷歌声称,在综合泛化基准测试中,Gemini Robotics的性能超过其他领先的视觉-语言-动作模型两倍以上。这意味着它能够高效应对各种突发情况。

高度交互的贴心助手
Gemini Robotics在人机交互方面也表现出色,能够理解日常口语化指令,并对指令变化和环境变化做出快速反应。它可以在接收初始指令后,在无需过多干预的情况下自主完成任务,例如,根据“收拾桌子”的指令,自主完成清理工作,并能处理诸如意外碰倒水杯等突发情况。
除了高智商,Gemini Robotics还具备高度灵活性。它能够完成许多对传统机器人来说具有挑战性的精细动作,例如折纸、打包午餐和制作沙拉等,展现出精细的动作控制和协调性。
高度适应性的多形态机器人
Gemini Robotics支持多种机器人形态,例如双臂机器人平台ALOHA 2和人形机器人Apptronik Apollo,这使其能够在不同的领域发挥作用。

除了Gemini Robotics,谷歌还推出了Gemini Robotics-ER(Embodied Reasoning,具身推理)模型。该模型侧重于提升机器人对物理空间的理解能力,并能与现有的低级别控制器集成,显著提升Gemini 2.0在物体识别和3D检测方面的能力。
ps://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/](https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/)