
案例基于EgoScale:用不同的以自我为中心的人类数据来衡量灵巧手的操作。
挑战
像拧开盖子、使用工具和精细的手指控制等灵巧的机器人操作训练成本很高。目前的方法依赖于大量的遥操作机器人演示,这种演示速度慢,而且规模昂贵。与此同时,人类每天都会产生大量灵巧的操作数据,但将这些知识转移到机器人身上仍然具有挑战性。
解决方案
EgoScale将大规模以人为中心的视频作为主要训练资料来源,并通过以下方式将其与精确的MANUS数据手套运动校准相结合并应用于三级流水线中。
NVIDIA推出的EgoScale是一个三阶段的培训管道,用于扩展机器人遥操作灵活性。
步骤1-人工预训练
视觉-语言-动作(VLA)模型在总时长长达20,854小时动作标记的以自我为中心的人类视频上进行预训练。使用21个关键点提取人手运动,并将其重定向到22-DoF机器手关节空间,手腕运动表示为相对3D平移和旋转。
研究小组揭示了一个对数线性标度定律:随着人类数据的增加,验证损失可预见地减少,并开始与真实机器人的性能相关起来。这表明大规模人类视频是灵巧机器人学习的可扩展和监督来源。

从以动作为标签的以自我为中心的人类视频中提取了21个关键点的人类动作。
步骤2–人-机器人校准
阶段1:从无约束的人类数据中学习一般的操作,但不与机器人的传感和控制设置匹配。
阶段2:弥补了真正开始机器人时的差距。
在人类和遥操作机器人使用相同的摄像机设置执行相同的344个桌面任务的情况下,研究人员收集了小数量、仔细对齐的数据集。在此过程中,操作人员穿着MANUS手套捕捉每只手的25个关节变换高保真手指数据,Vive追踪器被用于记录手腕运动。相同的运动捕捉设置用于机器人远程操作,确保人和机器人的动作信号是直接可比较的。
利用大约50小时的对齐人类数据和4小时的机器人数据,该模型将人类操纵知识锚定到机器人控制中。

使用MANUS手套、Vive追踪器和以自我为中心的摄像机来捕捉手部动作和与机器人传感配置一致的视觉输入,从而调整人-机器人数据收集设置。
步骤3 -任务调整
在这个阶段,模型已经具有来自阶段1的一般操作和来自阶段2的机器人对齐。第三阶段针对特定任务对其进行微调。
在标准设置中,大约有100个遥控机器人演示用于使模型适应目标任务。因为基础很强,这个相对较小的数据集足以在复杂灵巧的任务上获得更好表现。
在一次性设置中,该模型只需要一个机器人演示,辅以一致的人类演示,就可以有效地进行归纳。这突出了早期阶段所实现的强大的快速记录能力。

基于流的VLA策略架构,具有VLM主干和DiT动作专家,使用腕级动作表示和轻量级体现适配器来统一人类和机器人数据。
测量结果
大规模人工预训练和人工校准的结合带来了明显的性能提升。
在五个复杂的操作训练任务中,完整的预训练和中间训练模型比没有预训练的基线提高了54%的平均成功率。在所有单项任务中,预训练和中间训练模式也明显优于从头开始的训练。在单镜头设置中,单个机器人演示能够实现高达88%的衬衫折叠成功率,展示了强大的少镜头泛化能力。
重要的是,学习到的操作在机器人之间转移。在高自由度灵巧手数据上预处理的策略可以适用于具有7自由度三指手的Unitree G1,在成功率上实现了超过30%的绝对提高,并证明了高自由度人类操作可以推广到低自由度机器人手上。

使用22自由度灵巧手的人类预训练策略同样也适用于具有7自由度三指手的Unitree G1机器人,展示了跨不同机器人机器人的通用性。

结果
EgoScale为机器人灵巧手学习建立了一个可扩展的范例,一是通过于模拟训练的方式实现MANUS手套提供人体运动空间和机器人关节空间之间的关键对齐层。其二通过充当人类运动和机器人关节空间之间的精确动作转换层,MANUS手套降低了机器人数据成本,同时加快了通用灵巧系统的部署。
关于爱迪斯通
爱迪斯通作为Manus数据手套的中国大陆代理商全力为您提供优质服务。我们希望将更多标杆级与应用尖端技术的科技产品带入到蓬勃发展的国内市场中,以协助更多企业与高校拓展技术开发、探索创新领域。