探索GR-Dexter:如何用AI驱动的双手动灵巧机器人实现日常操纵
摘要
GR-Dexter是一个硬件-模型-数据框架,用于基于视觉-语言-动作(VLA)模型的双手动灵巧机器人操纵。它包括一个紧凑的21-DoF ByteDexter V2手、VR头盔和手套的直观遥操作系统,以及结合遥操作机器人轨迹、大规模视觉-语言数据、跨体现演示和人类轨迹的训练配方。在真实世界评估中,它在长时序日常操纵和泛化拾取放置任务中表现出色,成功率高达0.97,并在未见物体和指令下保持0.85以上。
想象一下,一个机器人能像人类一样,用灵活的手指拿起化妆品、操作吸尘器,甚至用钳子夹取面包——这不是科幻,而是GR-Dexter技术报告中描述的现实。作为一名长期关注机器人技术的从业者,我常常被问到:“机器人手真的能达到人类水平的灵巧吗?”答案是肯定的,但这需要巧妙的硬件设计、聪明的数据策略和先进的AI模型。今天,我们就来聊聊这份报告,它如何一步步构建出一个能处理复杂日常任务的双手动系统。别担心,我会用简单的话解释这些技术细节,让你感觉像在和朋友聊天。
为什么灵巧手机器人这么重要?
你有没有想过,为什么大多数机器人还停留在简单的夹爪阶段?报告中指出,现有的视觉-语言-动作(VLA)模型已经能让机器人根据语言指令进行长时序操纵,但它们大多局限于夹爪端执行器。转向高自由度(DoF)的灵巧手,能让机器人在杂乱的人类环境中更像人一样操作,比如捏起小物件或协调双手。但挑战巨大:控制空间爆炸式增长,手指和物体间的遮挡增多,还有收集真实机器人数据的成本高企。
GR-Dexter正是针对这些痛点设计的。它不是孤立的模型,而是 holistic 的框架,包括硬件、遥操作系统和训练配方。简单说,它让一个56-DoF的双手动机器人能完成从拾取放置到长时序日常任务的一切。报告用实际实验证明了它的潜力,比如在化妆品整理任务中,成功率高达0.97。
让我们一步步拆解这个系统,从硬件开始。
ByteDexter V2:一个紧凑而强大的21-DoF机器人手
如果你是第一次接触机器人手,可能会问:“DoF是什么意思?”DoF就是自由度,简单讲,就是关节能独立运动的维度。ByteDexter V2手总共有21-DoF,比前代V1多了1个,同时体积更小(高度219mm,宽度108mm)。它采用联动驱动的传动机制,优点是力透明、耐用、易维护。
手指设计细节
-
四个手指(食指、中指、无名指、小指):每个手指有4-DoF,包括掌指关节(MCP)的万向节(允许外展-内收和屈曲-伸展)和近端指间关节(PIP)、远端指间关节(DIP)的旋转关节。不同于ILDA手,ByteDexter V2将PIP屈曲与MCP屈曲解耦,每个PIP由专用电机独立驱动。
-
拇指:有5-DoF,使用万向节模拟人类掌腕关节(CMC)的屈曲-伸展和外展-内收,加上额外的旋转关节。这让拇指的运动范围更大,能与所有四个手指形成稳固的对立接触。报告中提到,它在Kapandji测试中得分10,展示了出色的对立能力。
-
欠驱动:四个手指的DIP关节和拇指的指间关节(IP)是欠驱动的,通过仿生四杆联动机制与PIP耦合,模仿人类手指的自然运动。
-
触觉传感:五个指尖覆盖高密度压阻式触觉阵列,能测量正常接触力,提供指尖、指垫和侧面的精细空间分辨率。可视化时,它编码接触位置和力大小,帮助机器人感知物体。
报告还展示了ByteDexter V2的抓握能力:它能执行所有33种Feix抓握类型,从力量抓到精密捏取。这意味着它不只是“抓”,而是能适应各种物体形状。

如图所示,DoF分布清晰,触觉传感器让手更“敏感”。
双手动系统:从硬件到控制
ByteDexter V2不是孤立的,它安装在两个Franka Research 3臂上,形成一个56-DoF的双手动平台。为了捕捉手-物体交互并减少遮挡,系统部署了四个全局RGB-D相机:一个主自视角和三个第三方视角。
控制方面,有两个关键部分:
-
双手动遥操作:使用Meta Quest VR头盔、Manus手套(背侧安装Meta Quest控制器)和脚踏板。操作者能同时协调两个臂和两个21-DoF手。人类运动实时重定向到关节位置命令,通过全身控制器确保运动学一致。手运动重定向 formulated as 约束优化问题,结合腕-指尖和拇指-指尖对齐项、碰撞避免约束和正则化,用序列二次规划求解。安全机制处理视觉跟踪丢失和危险操作。
-
策略 rollout:模型生成未来动作块,促进协调的臂-手运动。参数化轨迹优化器平滑动作,确保精细抓握和块间平滑过渡。
报告强调,这个系统高效、人性化且可靠。经过最小训练,遥操作者能完成从粗糙操纵(如搭积木)到精细任务(如编织)的各种活动。

图中展示了整个设置,包括VR头盔和手套。
通过这个系统,收集数据变得更高效——这是训练VLA模型的关键。
GR-Dexter模型:融合多种数据的VLA powerhouse
现在,我们聊聊“脑子”部分:GR-Dexter模型。它基于Mixture-of-Transformer架构,参数达4B。模型π_θ(a_t | l, o_t, s_t)生成k长度动作块a_t = a_{t:t+k},条件于语言指令l、观察o_t和机器人状态s_t。每个动作a_t是88维向量,包括:
-
臂关节动作(每个臂7-DoF) -
臂端执行器姿态(每个臂6D) -
手关节动作(每个手16个主动DoF) -
指尖位置(每个手指3D)
不同于GR-3的二元离散夹爪动作,这里处理连续的高维动作。
训练配方:数据金字塔
训练使用三种数据源的混合:
-
视觉-语言数据:复用GR-3的数据集,覆盖图像字幕、视觉问答、图像 grounding 和交织 grounded 图像字幕。用于训练VLM骨干,通过下一令牌预测目标。动态混合与机器人轨迹,联合目标是下一令牌预测损失 + 流匹配损失。
-
跨体现数据:为了克服高DoF平台的遥操作数据收集限制,使用开源双手动数据集:
-
Fourier ActionNet:约140小时,使用Fourier 6-DoF手的多样化人形双手动操纵数据。 -
OpenLoong Baihu:超过10万机器人轨迹,跨多种机器人体现。 -
RoboMIND:10.7万演示轨迹,479个任务,96个物体类。
-
-
人类轨迹:超过800小时的自视角视频 + 配对3D手和手指跟踪数据,使用Pico VR设备补充。人类数据提供规模和多样性,但需处理结构差异,通过掩码不可用动作维度。

如图,这个金字塔从机器人轨迹到人类数据,层层递进。
跨体现运动重定向和转移
转移技能需要对齐视觉几何、运动学和轨迹质量:
-
跨体现轨迹转移:标准化相机观察,调整图像大小和裁剪,使臂、手和物体尺度相似。严格质量控制,只保留高质量轨迹。通过指尖对齐重定向到ByteDexter V2,按任务类别重采样平衡训练语料库。
-
人类轨迹转移:过滤基于手可见性和速度。将人类轨迹映射到与机器人数据相同的视觉和运动学表示,无缝集成。
这个配方让GR-Dexter在长时序任务中表现出色。
真实世界实验:从长时序到泛化
报告通过两个任务类别评估:长时序操纵和泛化拾取放置。结果显示,GR-Dexter在域内强劲,在未见场景更鲁棒。
长时序灵巧操纵
焦点是化妆品整理任务:涉及多样形状物体和关节物体(如抽屉)。收集约20小时遥操作轨迹。GR-Dexter与视觉-语言数据共训,比较纯VLA基线(仅机器人数据)。
-
基本设置:物体布局在训练数据中。纯VLA成功率0.96,GR-Dexter 0.97。共训保留了域内能力。
-
OOD设置:五种未见布局。纯VLA降至0.64,GR-Dexter升至0.89。视觉-语言数据提升泛化。
额外定性结果:
-
吸尘:四指稳定握持桌面吸尘器,拇指按电源按钮(开/关),再按增功率,然后扫除纸屑。
-
面包服务:一手持盘,一手用钳子从容器取羊角面包,释放钳子,精确放置面包。
GR-Dexter可靠执行这些任务。

泛化拾取放置
使用20个物体训练约20小时轨迹。比较纯VLA、GR-Dexter(无跨体现)和完整GR-Dexter。每个评估批次五物体,固定布局。
-
基本设置:10个批次Seen物体。纯VLA 0.87,无跨体现GR-Dexter 0.85,完整0.93。跨体现数据提升鲁棒性。
-
未见物体:23个未见物体,10批次。完整GR-Dexter 0.85。
-
未见指令:5批次混合物体,未见语言指令。完整GR-Dexter 0.83。
这些结果证明,跨体现和视觉-语言数据让GR-Dexter把握未见物体和解释抽象指令。

相关工作:灵巧手的演进
灵巧机器人手
近年来,多指灵巧手快速发展,如Allegro、Leap、TriFinger等。商业设计多为6-DoF,少数达12+。SharpaWave有22独立DoF,Shadow手是腱驱动,Apex手21-DoF(16独立)带密集触觉。联动驱动如ILDA和ByteDexter V1有20-DoF(15独立)。ByteDexter V2升级到21-DoF,更紧凑,加指尖触觉。
VLA模型用于灵巧手操纵
VLA如GR-3、OpenVLA等强于指令跟随,但少用于灵巧手。高维控制和数据稀缺是挑战。人类视频预训如VideoDex、MimicPlay转移先验。GR00T N1结合多源数据用于6-DoF手。分层方法如DexGrasp-VLA用VLM规划,低级用DiT或RL执行。GR-Dexter扩展到21-DoF,通过混合训练实现长时序灵巧。
双手动灵巧操纵数据集
大多数数据集焦点单手静态抓握。遥操作如RoboMIND(10.7万轨迹)、OpenLoong Baihu(10万+)。人类轨迹如Ego4D、HOT3D规模大但体现差距大。GR-Dexter统一数据集,结合公共子集、专有遥操作和人类演示,通过标准化管道清洗、重定向。
局限性和结论
局限性
-
只用几百小时人类轨迹,未充分利用更多自视角数据。 -
手和臂分开控制,阻碍接触丰富行为协调。
未来:增加预训规模,构建体现无关控制抽象。
结论
GR-Dexter是硬件-模型-数据方法,扩展VLA到高DoF双手动灵巧机器人。ByteDexter V2紧凑拟人,遥操作管道高效。共训遥操作轨迹、视觉-语言、跨体现和人类数据,实现域内强性能和未见鲁棒。结果表明,这条路通向通用灵巧手操纵。
FAQ:你可能有的疑问
机器人手DoF越多越好吗?
不一定。高DoF如21-DoF增加灵活性,但也扩大控制空间。ByteDexter V2平衡了DoF和紧凑性,确保实用。
如何收集数据?
用Meta Quest头盔和Manus手套遥操作,实时重定向人类运动。补充跨体现和人类轨迹,处理差异通过掩码和对齐。
GR-Dexter在未见物体上成功率为什么高?
得益于视觉-语言数据提升泛化和跨体现数据提供多样抓握技能。在拾取放置中,未见物体成功率0.85。
这个系统能用于工业吗?
报告是研究目的,但其耐用联动驱动和触觉传感适合接触丰富任务,如制造。
训练数据怎么混合?
动态批次混合视觉-语言(下一令牌预测)和机器人轨迹(流匹配)。跨体现通过指尖对齐转移。
How-To:理解GR-Dexter的训练过程
想自己模拟类似训练?以下步骤基于报告:
-
准备数据源:
-
视觉-语言:图像字幕等数据集。 -
跨体现:如Fourier ActionNet的140小时数据。 -
人类轨迹:800+小时自视角视频 + 3D跟踪。
-
-
预处理:
-
标准化图像:调整大小、裁剪对齐尺度。 -
质量控制:过滤低质量轨迹。 -
重定向:指尖对齐到目标手,掩码不可用维度。
-
-
训练:
-
用Mixture-of-Transformer架构,4B参数。 -
联合损失:下一令牌预测 + 流匹配。 -
动态混合批次。
-
-
评估:
-
rollout 生成动作块,优化平滑。 -
测试长时序(如化妆整理)和泛化(如未见物体)。
-
通过这些,你能把握GR-Dexter的核心。

