机器人灵巧手正在成为具体化人工智能的基石。运动捕捉、模拟、强化学习和自我监督基础模型的最新进展使机器人能够执行越来越像人类的操纵技能。
人手由27块骨头、几十块肌肉和肌腱以及近30个自由度组成。复制人手的精确性、适应性和触觉控制仍然是机器人领域最大的挑战之一。
建造一只与人手灵活性、灵敏性和协调性相匹配的机器人手不仅需要机械设计,还需要能够将人类运动转化为智能控制的先进训练管道。
本文比较了两个领先的培训策略,RialTo和V-JEPA 2,并概述了MANUS手套如何支持这两种方法实现遥操作机器人灵巧手。
通过模拟协调现实:一种用于遥操作的真实对比模拟仿真的方法(麻省理工学院计算机科学与人工智能实验室)
V-JEPA 2:自我监督视频模型实现理解、预测和规划(Meta AI)

两种培训策略:RialTo vs. V-JEPA 2
RialTo:从真实-模拟-真实的培训方案

RialTo将模仿学习(IL)和强化学习(RL)结合起来,为特定的操纵任务训练提供数据高效的控制策略。
该过程从真实世界的演示开始,在模拟中扩展学习,并将改进的策略用于物理部署。
它是如何工作的
捕捉专家演示:演示可以通过人类操作员通过远程操作或运动捕捉执行任务来获得,这为初始学习提供了高质量的演示数据。
建立一个数字孪生:具有精确三维物理和视觉感官真实的环境数字孪生,以创造一个适用于模拟的训练空间。
模拟训练:机器人执行强化学习试验,对物体位置、照明和物理干扰进行领域随机化,以建立稳定性。
虚拟现实部署:优化的基于视觉的策略部署在机器人上,在现实条件下保持稳定性和精确性。
这种真实到模拟到真实的循环允许机器人大规模安全训练,弥合模拟与现实之间的差距,并在动态环境中实现可靠的表现。
虚拟JEPA新策略——自我监督的世界模型

V-JEPA 2使用自我监督学习(SSL)来建立一个连接感知和物理行为的通用世界模型。
它不是掌握一项任务,而是学习运动和因果关系的广泛表示,从而能够在不熟悉的环境中进行零样本学习。
它是如何工作的
无动作预训练(V-JEPA 2):大型视觉转换器(ViT)通过预测不同在线视频中的掩蔽区域来学习对运动、外观和物理动态的总体理解。
动作条件后训练(V-JEPA-AC):一个较小的改变在来自大型机器人操作数据集中未标记机器人视频微调,以促使其能够学习已执行动作和环境变化之间的核心关系。
规划和控制:该系统使用模型预测控制(MPC)来预测未来状态,并选择使其最接近目标的行动,不需要特定任务的奖励或再培训。
这种自我监督的过程使机器人能够跨任务进行归纳,适应新环境,并在没有特定任务经验的情况下智能地行动。
通过MANUS手套捕捉人体运动

RialTo和V-JEPA 2都依靠高保真的人类和机器人运动数据来连接感知和行动。
这些数据通常通过使用高级手部跟踪解决方案的遥控操作来收集,MANUS手套可以高精度、低延迟地捕捉手指的细微动作。
通过实时记录自然的手部运动,MANUS为创建灵巧手遥操作和训练的数据集提供了基础,从而推动了应用化人工智能研究。
运动数据表示
关节角度数据
最常见的格式是将人类手指关节旋转直接映射到机器人手关节。这种方法快速简单,但是当人和机器人的运动学不同步时将会失去准确性。
指尖轨迹映射
一种新兴的方法将关注指尖位置和方向,而非关节旋转。这减少了运动不匹配,并提高了精细任务的精度,如手动操作和工具使用。
模拟策略培训
在RialTo风格的管道中,远程操作的运动数据可以传输到模拟训练中,在模拟中,强化学习和域随机化可以帮助机器人适应照明、纹理和物理动态的变化。
NVIDIA Isaac Sim等模拟平台可为机器人训练提供了安全、可扩展的环境。
有了机器人训练框架,Isaac实验室2.3,研究人员可以加速全身控制,集成多个遥操作接口(包括MANUS手套、Apple Vision Pro和Vive手部跟踪),更高效地评估策略性能。
结论
RialTo和V-JEPA 2的核心是通过捕捉到的高保真人体运动数据来训练机器人。
在RialTo中,这些数据为数字孪生模拟中的模仿学习提供了基础事实。
在V-JEPA 2中,其提供了因果基础,帮助AI理解人类运动如何影响现实世界的结果。
凭借毫米级的精确度和真实程度,MANUS手套证明了精确的动作捕捉将有巨大的潜力把人类的灵活性和机器的智能连接在一起。
随着人工智能的不断发展,人类运动和机器人学习之间的协同作用将塑造下一代更灵巧、适应性更强的机器人,实现与世界自然互动。
关于爱迪斯通
爱迪斯通作为Manus的中国大陆代理商全力为您提供优质服务。我们希望将更多标杆级与应用尖端技术的科技产品带入到蓬勃发展的国内市场中,以协助更多企业与高校拓展技术开发、探索创新领域。