

在动态变化的机器人领域,涌现出了一种名为HOVER(视觉操控的具身泛化)的创新方法。它利用了从人类数据集中提取的运动先验知识,这种方法仅需少量数据便可实现。
NVIDIA的资深研究科学家Jim Fan评论说:“如果你的目标是创造能像动物一样行动的机器人,那么模仿是关键。我们使用了150万帧HOVER训练数据,这些数据均来源于人类操控视频。” 实际上,HOVER模型能够模仿各种复杂的运动,只需观察一次,就能在不同环境中复制复杂的运动,从而实现卓越的泛化能力。他还补充说:“该模型能够处理各种视觉输入,并且能够生成适用于不同具身平台的控制策略。”
据了解,HOVER的实现得益于NVIDIA Isaac Sim的支持,这个平台能够实现逼真的物理模拟,模拟规模可达10000个并行环境。
Jim Fan进一步指出,这种方法通过在模拟中进行训练,然后在真实世界中进行微调,从而将所需的真实世界数据量减少到50个epochs。他认为,这种方法展示了学习运动技能的可行途径,而无需进行大量的实际操作。
HOVER还展示了其应用于各种机器人形态的潜力,例如XR化身(例如Vision Pro),这些化身能够利用逼真的全身和RGB摄像机输入进行模仿学习,从而实现自然的交互和化身控制。Fan强调,HOVER代表着在构建能够理解非结构化视觉输入的通用机器人方面迈出了重要一步,并有望加速该领域的研究。
总而言之,HOVER代表了一种有前景的解决方案,它能够利用视觉操作和模仿学习来赋予机器人更强的适应性和通用性。该模型能够在Isaac中进行仿真训练,从而能够学习在现实世界中执行复杂的操作。
与此同时,NVIDIA正在开发一种名为GR00T的通用机器人技术,这是一种旨在处理机器人控制的基础模型。GR00T (Generalist Robot 00 Technology) 旨在实现各种机器人形态的操作,通过观察即可学习技能,并适应各种环境。它旨在利用视觉和语言输入,从而支持各种机器人应用,例如理解指令、导航复杂环境以及执行细致的操作。
论文链接:https://arxiv.org/pdf/2410.21229
核心要点:
- 🚀 NVIDIA推出了HOVER,这是一个基于150万帧人类操作视频训练的视觉操控通用机器人模型,通过模仿学习技能。
- 💡 HOVER通过在仿真中进行训练,然后进行微调,将真实世界中的训练数据需求降低至50个epochs,从而简化了机器人的技能学习。
- 🎮 HOVER 具备多功能性,可用于驱动各种机器人平台,例如XR化身,具备先进的视觉理解能力,并为机器人领域带来了前所未有的进步。