谷歌Gemini机器人控制模型：赋予机器人类人思维与行动能力

摘要：

谷歌DeepMind发布了其突破性成果——Gemini Robotics，一个将人工智能的强大能力与物理机器人 […]

谷歌DeepMind发布了其突破性成果——Gemini Robotics，一个将人工智能的强大能力与物理机器人结合的系统。这并非简单的家用机器人，而是旨在赋予机器人如同人类甚至超越人类的能力，使其在物理世界中高效运作。

Gemini Robotics的核心是先进的Gemini 2.0模型。Gemini 2.0本身具备处理文本、图像、音频和视频的强大能力，而Gemini Robotics更进一步，赋予机器人理解物理空间并采取行动的能力。这意味着它能够理解文字指令、图像、语音和视频，并将其转化为实际的物理操作。

只需简单的语音指令或图像指示，机器人即可完成家务等任务。其最显著的特点在于其强大的泛化能力。它并非仅限于执行预设程序，而是利用Gemini强大的世界知识库，即使面对全新的物体、复杂指令和未知环境，也能迅速理解并找到解决方案。

谷歌声称，在综合泛化基准测试中，Gemini Robotics的性能超过其他领先的视觉-语言-动作模型两倍以上。这意味着它能够高效应对各种突发情况。

Gemini Robotics在人机交互方面也表现出色，能够理解日常口语化指令，并对指令变化和环境变化做出快速反应。它可以在接收初始指令后，在无需过多干预的情况下自主完成任务，例如，根据“收拾桌子”的指令，自主完成清理工作，并能处理诸如意外碰倒水杯等突发情况。

除了高智商，Gemini Robotics还具备高度灵活性。它能够完成许多对传统机器人来说具有挑战性的精细动作，例如折纸、打包午餐和制作沙拉等，展现出精细的动作控制和协调性。

Gemini Robotics支持多种机器人形态，例如双臂机器人平台ALOHA 2和人形机器人Apptronik Apollo，这使其能够在不同的领域发挥作用。

除了Gemini Robotics，谷歌还推出了Gemini Robotics-ER（Embodied Reasoning，具身推理）模型。该模型侧重于提升机器人对物理空间的理解能力，并能与现有的低级别控制器集成，显著提升Gemini 2.0在物体识别和3D检测方面的能力。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/p6cvmeht

暂无评论