灵初智能推出端到端VLA模型Psi R0.5,凭借两小时数据实现物品与场景的全面泛化能力

近日,由Figure公司推出的端到端VLA具身大模型Helix,凭借其分层架构,实现高频控制和高泛化能力,引起了业内的广泛关注。几乎在同一时期,中国的灵初智能团队推出了基于强化学习的增强版分层架构端到端VLA模型Psi R0.5,这一成就距离灵初智能团队去年底发布的Psi R0仅相隔“两个月”。此次发布的新模型经过重大升级,在复杂场景的泛化性灵巧性CoT长程任务能力等多个关键指标上均表现出显著提升。同时,该模型完成泛化抓取训练所需的数据量仅为Helix所需数据量的0.4%,在全球范围内实现了泛化灵巧操作及训练效率的双重领先。此外,灵初智能团队还连发四篇高质量论文,全面公开了团队在高效实现泛化抓取堆叠场景中的物品检索利用外部环境辅助抓取VLA安全对齐方面的最新研究成果,充分展示了中国团队在具身智能领域的强大能力。灵初智能推出端到端VLA模型Psi R0.5,凭借两小时数据实现物品与场景的全面泛化能力                                    Psi R0.5路径演进图DexGraspVLA仅需两小时灵巧手抓取数据轻松实现物品、灯光、场景泛化并实现真正的CoTDexGraspVLA是首个用于灵巧手通用抓取的VLA(Vision-Language-Action)框架。通过极少量的训练,该框架能够在多变的环境中智慧涌现灵巧操作能力,快速且精确地拾取各类物品,仿佛如同人类一般。DexGraspVLA框架是一个融合了视觉、语言和动作的层次化结构:

  • 高层规划:通过预训练的大型视觉语言模型(VLM)实现,能够理解多样化指令并自主决定抓取策略。
  • 低层控制:其低层扩散策略通过实时视觉反馈实现,能够对目标物体进行闭环掌握,智力涌现灵巧操作能力。

这一框架的核心在于将多样化的图像输入数据通过现有的Foundation Model转换为域不变的表征,并对下层控制模型进行端到端训练。灵初智能推出端到端VLA模型Psi R0.5,凭借两小时数据实现物品与场景的全面泛化能力                                    DexGraspVLA框架图 实验结果表明,灵初智能团队仅利用约2小时的灵巧手抓取数据(2094条轨迹 × 3.5秒/条 ÷ 60秒/分钟 ÷ 60分钟/小时 ≈ 2小时),成功泛化至上千种不同物体、位置、堆叠、灯光及背景下的抓取,其数据量仅为Figure的0.4%,数据利用效率提升达250倍!此外,DexGraspVLA相较于现有方案还具备以下几个优势:

  • 根据语言指令精确识别目标物体,并处理堆叠场景中的目标物体检索和抓取
  • 强调抓取速度(所有视频无加速,且在同类研究中节奏较快),具备闭环姿态矫正与重抓取能力(ReGrasp)。
  • 具有CoT长程推理能力:自主推理抓取顺序并依次抓取所有物体。
灵初智能推出端到端VLA模型Psi R0.5,凭借两小时数据实现物品与场景的全面泛化能力
  • 官网:https://dexgraspvla.github.io/
  • 论文链接:https://arxiv.org/abs/2502.20900
  • 代码仓库:https://github.com/Psi-Robot/DexGraspVLA

检索灵巧性堆叠场景中的高效物体检索策略 强化学习底层驱动,简单奖励涌现复杂动作在多数实际应用场景中,物体通常以无规则、堆叠的形式排列。传统方法要求机器人逐个移动遮挡物,既耗时且对机器人的抓取能力提出了更高的要求。为应对这一挑战,灵初智能研发了一种基于强化学习的物体检索策略——检索灵巧性,旨在解决堆叠场景下物体检索效率低下的问题。在检索灵巧性系统中,灵初团队并没有使用真实机器的数据进行训练,而是通过在仿真环境中进行强化学习训练,直接生成复杂的堆叠场景,直至模型智力涌现出适宜的检索操作,随后再将这些操作零样本迁移至现实机器人和复杂环境中。在对超过十种形状和尺寸的生活物品进行测试的过程中,Retrieval Dexterity 显示了出色的性能,不仅能够高效完成训练对象的检索任务还能够将检索能力扩展至未见过的新物体灵初智能推出端到端VLA模型Psi R0.5,凭借两小时数据实现物品与场景的全面泛化能力

  • 论文链接:https://arxiv.org/abs/2502.18423
  • 官方网站:https://changwinde.github.io/RetrDex/

ExDex:借助外部环境的能力抓取 “不可能” 物体的创新实践 外部灵巧性解决超出机器人末端执行器最大开度的物体问题在物体底面尺寸超出机器人末端执行器最大开度的情况下,传统方法通常无法实现有效抓取,这种情形在商业场所如商场中尤为突出。为了解决此难题,灵初智能推出了ExDex—— 一种基于外部灵巧性(extrinsic dexterity)的创新抓取解决方案。ExDex 通过利用环境特征进行非夹持式操作,结合多指灵巧手的灵活性与操作能力,实现了更为丰富的环境交互方式。强化学习实现超越人类遥操作水平的灵巧操作灵初智能推出端到端VLA模型Psi R0.5,凭借两小时数据实现物品与场景的全面泛化能力左侧图示展示了传统 VLA 模型在抓取任务中的三种典型不安全行为:1)对无关物体造成严重损害,2)由于目标识别错误导致危险物体的误操作,以及 3)在执行指令时与危险物体发生交互。右侧图示通过导航路径例子,进一步展示了传统 VLA 在导航过程中的三种不安全行为。本周,北京大学 PAIR - Lab 团队与灵初智能携手推出了具身安全模型 SafeVLA,致力于通过安全对齐,使机器人在复杂场景中高效且安全地执行任务,展现出在应对对抗性干扰情境中的极高鲁棒性。SafeVLA 在设计中强调“以人为本”,不同于传统机器人仅关注任务完成它将人类安全置于首位。技术方面,引入了约束马尔可夫决策过程(CMDP)范式,将现实安全约束融合进仿真环境的广泛采样中。SafeVLA 在安全性和任务执行效果方面均取得了突破性进展分别提升了 83.58% 和 3.85%,充分证明了其在安全与效率之间的卓越平衡能力。灵初智能推出端到端VLA模型Psi R0.5,凭借两小时数据实现物品与场景的全面泛化能力                               传统 VLA 模型在完成任务过程中的高危行为团队还开发了全新仿真环境 Safety - CHORES集成安全约束功能,支持用户自定义规则,且该代码完全开源,为全球研究者和开发者提供了很大便利。此外,SafeVLA 在 12 个分布外(OOD)实验中,面对光照、材质变化和复杂环境扰动,始终保持稳定的表现,明显优于其他模型。 灵初智能推出端到端VLA模型Psi R0.5,凭借两小时数据实现物品与场景的全面泛化能力                                SafeVLA 在正常测试集和 OOD 测试集上的表现比较,显示其在 OOD 环境下依然保持良好的安全性和性能

  • 官方网站:https://sites.google.com/view/pku-safevla
© 版权声明

相关AI热点

没有相关内容!

暂无评论

none
暂无评论...