手爪级vla和灵巧任务语义之间的差距
机器人学习受到数据稀缺的制约。没有互联网规模的语料库可供操纵,收集机器人演示需要物理世界中大量的硬件操作。以自我为中心的人类数据是显而易见的可扩展替代方案,但大多数先前的人&机器人合作训练使用的方案都过于狭隘,以提高分布性能或在执行相同任务时推广到新场景。更难的问题是,一个人形机器人是否可以继承看起来只有非人类数据的高级任务语义:排序的概念,将现有技能组合成新的行为,以及放置过程中基于规则的排序。

这是很重要的,原因有二。首先,大多数视觉-语言-动作模型,包括这里使用的π0.5基础模型,都是为具有低维动作空间的平行颌夹持器构建的。五指灵巧手每只手有29个维度,双手控制有58个维度,远远超出了模型的32维动作的能力。第二,当它依赖于反向运动学时,对齐人类和机器人动作表示本身是不可靠的。对于高自由度的手,如Tesollo (20个活动关节),IK和基于优化的指尖目标重定目标经常会产生自碰撞或不自然的姿势。
一个捕获设置记录两个实施例中对准的手指运动学
斯坦福大学和Meta的团队在Galaxea R1 Pro上建立了他们的数据管道,每个末端执行器都配备了一只Tesollo手(20个关节)或一只Inspire手(6个关节),以及一个ZED mini preose-centric视觉。对于遥控操作,Quest控制器安装在MANUS手套驱动机器人数据收集。Quest控制器可以跟踪操作者手腕相对于头显的6D姿势,而MANUS手套可以提供操作者手指关节的角度,这些角度可以映射到机器人的手部关节,以实现灵巧的控制。两种设备都以100 Hz的频率进行记录。

相同的MANUS手套和Quest控制器设置随后被用于收集人类演示,与桌面安装的ZED mini配对,没有手腕相机。对人类和机器人采集使用一个手指跟踪流使得跨实施例对准变得容易处理。Ego-Pi不是预测指尖位置并将逆运动学求解到机器人关节配置中,而是采用以机器人为中心的动作表示:MANUS手套提供的手指关节角度通过每关节偏移和缩放因子将每链接映射到机器人的关节空间。因为对齐在关节角度空间中操作,所以它避免了机器人侧IK,机器人侧IK倾向于在高自由度手上产生自碰撞或不自然的姿势,例如Tesollo。
有了一致的动作表示,Ego-Pi通过交叉动作公式来适应π0.5,该公式将左手和右手动作分布在两个令牌上,保留了预训练的动作头部,同时适应58个灵巧维度。人类和机器人数据以50/50的批量比共同训练。
在没有机器人训练数据的情况下,任务语义的成功率为90%

在机器人上从未展示目标行为的任务中,简单的联合训练有效地转移了任务语义:根据颜色对番茄进行分类的成功率为92%,基于规则的包装的成功率为90%,而只有机器人的基线分别为40%和10%。拳击任务需要对两种技能进行排序,并且是唯一的双手任务,需要子任务预测作为辅助损失,可以达到93%,高于简单联合训练的27%和仅机器人的20%,以及与骨骼覆盖相结合的100%。在所有三种行为中,该框架达到了90%或更高的成功率。
通过人类演示来扩展灵巧学习
Ego-Pi证明人类数据不仅仅可以强化内部分布行为。它还可以教会一个灵巧的人形真正新颖的任务结构,包括排序逻辑、技能链和排序规则,而无需单个机器人演示目标任务。使能基底是两个实施例共享的一致的高速手指运动流。随着人形平台汇聚在拟人化的手上,以自我为中心的捕捉变得司空见惯,教授新行为的成本从机器人远程操作时间转向更便宜的人类演示,由动作表示而不是数据源来完成对齐工作。
关于爱迪斯通
作为Manus与Tesollo的中国大陆代理商,爱迪斯通将全力为您提供优质服务。我们希望将更多标杆级与应用尖端技术的科技产品带入到蓬勃发展的国内市场中,以协助更多企业与高校拓展技术开发、探索创新领域。