
本文将介绍人工智能领域顶级会议 ICLR 2025 接收的论文 “ET-SEED: Efficient Trajectory-Level SE (3) Equivariant Diffusion Policy”。该论文由北京大学前沿计算研究中心的董豪教授团队完成,三位共同第一作者分别是:铁宸睿(本科毕业于北京大学,现为新加坡国立大学博士生)、陈越(北京大学硕士生)及吴睿海(北京大学博士生);通讯作者董豪是北京大学的助理教授,他的实验室主要研究领域涵盖具身智能、大型模型、计算机视觉及强化学习。
- 论文链接:[https://arxiv.org/pdf/2501.00879](https://arxiv.org/pdf/2501.00879)
- 项目主页:[https://et-seed.github.io/](https://et-seed.github.io/)
- 文章代码:[https://github.com/yuechen0614/ET-SEED](https://github.com/yuechen0614/ET-SEED)
本文提出了一种轨迹级 SE (3) 等变的扩散策略(ET-SEED),它通过结合等变表示学习与扩散策略,使得机器人能够在极少的示范数据下高效学习复杂操作技能,并具备对不同物体姿态和环境的适应性。作者扩展了 SE (3) 等变扩散的理论,并在 SE (3) 流形上提出了一种高效的等变扩散过程,从而简化了建模与推理的过程。与现有方法相比,ET-SEED 在数据效率、泛化能力和计算成本上均实现了显著的突破。
尽管现有方法尝试通过数据增强或对比学习来缓解相应问题,但往往需依赖额外的任务特定知识或额外训练,且在理论上未能确保空间泛化能力。与此相比,自然界中普遍存在对称性,例如刚体运动具有 SE (3) 等变性,即若物体发生平移或旋转,相应的操作轨迹亦应进行相应变化(如图 1所示)。实例包括:
- 在不同角度的纸张上书写时,笔迹的轨迹应随纸张旋转变化;
- 在不同位置的门上执行开门操作时,轨迹应相应变化,而无须重新学习新的策略;
- 在不同初始状态的衣物上进行折叠操作时,轨迹应自动适应。
ET-SEED 正是基于这一核心概念,提出了一种轨迹级 SE (3) 等变扩散策略,使机器人能够在少量示范数据下进行高效学习,并对未见过的物体姿态和场景具有良好的泛化能力。
方法概述
ET-SEED 通过等变扩散建模和高效的去噪策略,在保持 SE (3) 等变性的前提下,提高了计算效率,核心创新点如下:
1. 轨迹级 SE (3) 等变扩散建模
传统的扩散策略通常仅适用于欧几里得空间,而 ET-SEED 直接在 SE (3) 流形上进行建模,使得轨迹在三维旋转和平移变换下保持等变性。这种建模方式与任务的内在特性高度契合,从而极大提升了泛化能力,使其适用于各种机器人操作任务。
2. 降低训练复杂度的等变扩散过程
现有的等变扩散方法要求每个去噪步骤都保持等变性,导致推理难度显著提升。ET-SEED 拓展了现有的等变扩散理论,证明仅需一个等变去噪步骤便可确保最终轨迹的等变性,从而有效降低训练复杂度,同时维持良好的泛化能力(如图 2所示)。 (图 2)
3. 结合 SE (3) Transformer 的扩散去噪策略
ET-SEED 将 SE (3) Transformer 融合至设计中,通过在 SE (3) 流形上定义动作空间,构建了一种新的等变网络架构。该架构在去噪过程中采用两阶段策略(如图 3所示):
- 第一阶段(SE (3) 不变去噪):在前 K-1 轮去噪中,网络仅执行不变变换,以减少计算与推理复杂度;
- 第二阶段(SE (3) 等变去噪):最后一轮去噪应用 SE (3) 等变变换,以确保最终轨迹符合空间等变性。
(图 3)
4. 适用于多种操作任务
ET-SEED 在多项代表性的机器人操作任务中表现出色,包括:刚体操作、关节物体操作、长程任务以及可变形物体操作,显示出方法的广泛适用性。>
- 旋转三角形:任务要求机器人将三角形推至目标姿态。
- 开瓶盖:机器人需旋转并移除瓶盖。
- 开门:机器人在处理不同门把手和方向时执行开门操作。
- 机器人书法:机器人使用毛笔书写汉字及拉丁字母。
- 折叠衣物:机器人需完成标准的衣物折叠任务。
- 甩平衣物:机器人抓住衣物的肩部,通过抖动使其平展。
(图 4)
在上述六个任务中进行的实验旨在评估本文提出的方法,并与当前最先进的技术(SOTA)进行比较。实验结果显示,我们的方法在示范数据的利用上更加高效,尤其是在示范数量较少的情况下,成功率显著提高。我们的方法在所有六个任务中均优于现有技术。此外,ET-SEED 对于在示范数据中未见的物体姿态展现出了良好的泛化能力,这表明所设计的等变过程大幅增强了扩散策略的空间泛化性能。
与此同时,我们还在四个实际机器人操作任务中评估了 ET-SEED 的性能。实验结果表明,即使在仅有20条示范轨迹的情况下,ET-SEED 依然能够在未见过的物体姿态下成功执行任务,其泛化能力远超现有方法。 拧瓶盖
开门
叠衣服
写字
总结
本文提出了一种高效的轨迹级 SE (3) 等变扩散策略 ET-SEED。通过创新的等变扩散建模,该方法使机器人能够在仅依赖有限示范数据的情况下,掌握复杂操作技能并成功泛化至不同物体姿态和场景。
ET-SEED 在多个任务的表现超越当前方法,实现了更高的成功率、强大的泛化能力以及更优的数据利用效率,为未来机器人自主操作的研究与应用提供了更为强大的工具支持。