站点图标 高效码农

揭秘GR-Dexter:一双AI驱动的“超人”之手,如何颠覆机器人日常操作?

探索GR-Dexter:如何用AI驱动的双手动灵巧机器人实现日常操纵

摘要

GR-Dexter是一个硬件-模型-数据框架,用于基于视觉-语言-动作(VLA)模型的双手动灵巧机器人操纵。它包括一个紧凑的21-DoF ByteDexter V2手、VR头盔和手套的直观遥操作系统,以及结合遥操作机器人轨迹、大规模视觉-语言数据、跨体现演示和人类轨迹的训练配方。在真实世界评估中,它在长时序日常操纵和泛化拾取放置任务中表现出色,成功率高达0.97,并在未见物体和指令下保持0.85以上。

想象一下,一个机器人能像人类一样,用灵活的手指拿起化妆品、操作吸尘器,甚至用钳子夹取面包——这不是科幻,而是GR-Dexter技术报告中描述的现实。作为一名长期关注机器人技术的从业者,我常常被问到:“机器人手真的能达到人类水平的灵巧吗?”答案是肯定的,但这需要巧妙的硬件设计、聪明的数据策略和先进的AI模型。今天,我们就来聊聊这份报告,它如何一步步构建出一个能处理复杂日常任务的双手动系统。别担心,我会用简单的话解释这些技术细节,让你感觉像在和朋友聊天。

为什么灵巧手机器人这么重要?

你有没有想过,为什么大多数机器人还停留在简单的夹爪阶段?报告中指出,现有的视觉-语言-动作(VLA)模型已经能让机器人根据语言指令进行长时序操纵,但它们大多局限于夹爪端执行器。转向高自由度(DoF)的灵巧手,能让机器人在杂乱的人类环境中更像人一样操作,比如捏起小物件或协调双手。但挑战巨大:控制空间爆炸式增长,手指和物体间的遮挡增多,还有收集真实机器人数据的成本高企。

GR-Dexter正是针对这些痛点设计的。它不是孤立的模型,而是 holistic 的框架,包括硬件、遥操作系统和训练配方。简单说,它让一个56-DoF的双手动机器人能完成从拾取放置到长时序日常任务的一切。报告用实际实验证明了它的潜力,比如在化妆品整理任务中,成功率高达0.97。

让我们一步步拆解这个系统,从硬件开始。

ByteDexter V2:一个紧凑而强大的21-DoF机器人手

如果你是第一次接触机器人手,可能会问:“DoF是什么意思?”DoF就是自由度,简单讲,就是关节能独立运动的维度。ByteDexter V2手总共有21-DoF,比前代V1多了1个,同时体积更小(高度219mm,宽度108mm)。它采用联动驱动的传动机制,优点是力透明、耐用、易维护。

手指设计细节

  • 四个手指(食指、中指、无名指、小指):每个手指有4-DoF,包括掌指关节(MCP)的万向节(允许外展-内收和屈曲-伸展)和近端指间关节(PIP)、远端指间关节(DIP)的旋转关节。不同于ILDA手,ByteDexter V2将PIP屈曲与MCP屈曲解耦,每个PIP由专用电机独立驱动。

  • 拇指:有5-DoF,使用万向节模拟人类掌腕关节(CMC)的屈曲-伸展和外展-内收,加上额外的旋转关节。这让拇指的运动范围更大,能与所有四个手指形成稳固的对立接触。报告中提到,它在Kapandji测试中得分10,展示了出色的对立能力。

  • 欠驱动:四个手指的DIP关节和拇指的指间关节(IP)是欠驱动的,通过仿生四杆联动机制与PIP耦合,模仿人类手指的自然运动。

  • 触觉传感:五个指尖覆盖高密度压阻式触觉阵列,能测量正常接触力,提供指尖、指垫和侧面的精细空间分辨率。可视化时,它编码接触位置和力大小,帮助机器人感知物体。

报告还展示了ByteDexter V2的抓握能力:它能执行所有33种Feix抓握类型,从力量抓到精密捏取。这意味着它不只是“抓”,而是能适应各种物体形状。

ByteDexter V2 DoF分布和触觉传感器

如图所示,DoF分布清晰,触觉传感器让手更“敏感”。

双手动系统:从硬件到控制

ByteDexter V2不是孤立的,它安装在两个Franka Research 3臂上,形成一个56-DoF的双手动平台。为了捕捉手-物体交互并减少遮挡,系统部署了四个全局RGB-D相机:一个主自视角和三个第三方视角。

控制方面,有两个关键部分:

  • 双手动遥操作:使用Meta Quest VR头盔、Manus手套(背侧安装Meta Quest控制器)和脚踏板。操作者能同时协调两个臂和两个21-DoF手。人类运动实时重定向到关节位置命令,通过全身控制器确保运动学一致。手运动重定向 formulated as 约束优化问题,结合腕-指尖和拇指-指尖对齐项、碰撞避免约束和正则化,用序列二次规划求解。安全机制处理视觉跟踪丢失和危险操作。

  • 策略 rollout:模型生成未来动作块,促进协调的臂-手运动。参数化轨迹优化器平滑动作,确保精细抓握和块间平滑过渡。

报告强调,这个系统高效、人性化且可靠。经过最小训练,遥操作者能完成从粗糙操纵(如搭积木)到精细任务(如编织)的各种活动。

双手动机器人系统

图中展示了整个设置,包括VR头盔和手套。

通过这个系统,收集数据变得更高效——这是训练VLA模型的关键。

GR-Dexter模型:融合多种数据的VLA powerhouse

现在,我们聊聊“脑子”部分:GR-Dexter模型。它基于Mixture-of-Transformer架构,参数达4B。模型π_θ(a_t | l, o_t, s_t)生成k长度动作块a_t = a_{t:t+k},条件于语言指令l、观察o_t和机器人状态s_t。每个动作a_t是88维向量,包括:

  • 臂关节动作(每个臂7-DoF)
  • 臂端执行器姿态(每个臂6D)
  • 手关节动作(每个手16个主动DoF)
  • 指尖位置(每个手指3D)

不同于GR-3的二元离散夹爪动作,这里处理连续的高维动作。

训练配方:数据金字塔

训练使用三种数据源的混合:

  • 视觉-语言数据:复用GR-3的数据集,覆盖图像字幕、视觉问答、图像 grounding 和交织 grounded 图像字幕。用于训练VLM骨干,通过下一令牌预测目标。动态混合与机器人轨迹,联合目标是下一令牌预测损失 + 流匹配损失。

  • 跨体现数据:为了克服高DoF平台的遥操作数据收集限制,使用开源双手动数据集:

    • Fourier ActionNet:约140小时,使用Fourier 6-DoF手的多样化人形双手动操纵数据。
    • OpenLoong Baihu:超过10万机器人轨迹,跨多种机器人体现。
    • RoboMIND:10.7万演示轨迹,479个任务,96个物体类。
  • 人类轨迹:超过800小时的自视角视频 + 配对3D手和手指跟踪数据,使用Pico VR设备补充。人类数据提供规模和多样性,但需处理结构差异,通过掩码不可用动作维度。

数据金字塔

如图,这个金字塔从机器人轨迹到人类数据,层层递进。

跨体现运动重定向和转移

转移技能需要对齐视觉几何、运动学和轨迹质量:

  • 跨体现轨迹转移:标准化相机观察,调整图像大小和裁剪,使臂、手和物体尺度相似。严格质量控制,只保留高质量轨迹。通过指尖对齐重定向到ByteDexter V2,按任务类别重采样平衡训练语料库。

  • 人类轨迹转移:过滤基于手可见性和速度。将人类轨迹映射到与机器人数据相同的视觉和运动学表示,无缝集成。

这个配方让GR-Dexter在长时序任务中表现出色。

真实世界实验:从长时序到泛化

报告通过两个任务类别评估:长时序操纵和泛化拾取放置。结果显示,GR-Dexter在域内强劲,在未见场景更鲁棒。

长时序灵巧操纵

焦点是化妆品整理任务:涉及多样形状物体和关节物体(如抽屉)。收集约20小时遥操作轨迹。GR-Dexter与视觉-语言数据共训,比较纯VLA基线(仅机器人数据)。

  • 基本设置:物体布局在训练数据中。纯VLA成功率0.96,GR-Dexter 0.97。共训保留了域内能力。

  • OOD设置:五种未见布局。纯VLA降至0.64,GR-Dexter升至0.89。视觉-语言数据提升泛化。

额外定性结果:

  • 吸尘:四指稳定握持桌面吸尘器,拇指按电源按钮(开/关),再按增功率,然后扫除纸屑。

  • 面包服务:一手持盘,一手用钳子从容器取羊角面包,释放钳子,精确放置面包。

GR-Dexter可靠执行这些任务。

化妆品整理实验设置和结果

泛化拾取放置

使用20个物体训练约20小时轨迹。比较纯VLA、GR-Dexter(无跨体现)和完整GR-Dexter。每个评估批次五物体,固定布局。

  • 基本设置:10个批次Seen物体。纯VLA 0.87,无跨体现GR-Dexter 0.85,完整0.93。跨体现数据提升鲁棒性。

  • 未见物体:23个未见物体,10批次。完整GR-Dexter 0.85。

  • 未见指令:5批次混合物体,未见语言指令。完整GR-Dexter 0.83。

这些结果证明,跨体现和视觉-语言数据让GR-Dexter把握未见物体和解释抽象指令。

拾取放置实验设置和结果

相关工作:灵巧手的演进

灵巧机器人手

近年来,多指灵巧手快速发展,如Allegro、Leap、TriFinger等。商业设计多为6-DoF,少数达12+。SharpaWave有22独立DoF,Shadow手是腱驱动,Apex手21-DoF(16独立)带密集触觉。联动驱动如ILDA和ByteDexter V1有20-DoF(15独立)。ByteDexter V2升级到21-DoF,更紧凑,加指尖触觉。

VLA模型用于灵巧手操纵

VLA如GR-3、OpenVLA等强于指令跟随,但少用于灵巧手。高维控制和数据稀缺是挑战。人类视频预训如VideoDex、MimicPlay转移先验。GR00T N1结合多源数据用于6-DoF手。分层方法如DexGrasp-VLA用VLM规划,低级用DiT或RL执行。GR-Dexter扩展到21-DoF,通过混合训练实现长时序灵巧。

双手动灵巧操纵数据集

大多数数据集焦点单手静态抓握。遥操作如RoboMIND(10.7万轨迹)、OpenLoong Baihu(10万+)。人类轨迹如Ego4D、HOT3D规模大但体现差距大。GR-Dexter统一数据集,结合公共子集、专有遥操作和人类演示,通过标准化管道清洗、重定向。

局限性和结论

局限性

  • 只用几百小时人类轨迹,未充分利用更多自视角数据。
  • 手和臂分开控制,阻碍接触丰富行为协调。

未来:增加预训规模,构建体现无关控制抽象。

结论

GR-Dexter是硬件-模型-数据方法,扩展VLA到高DoF双手动灵巧机器人。ByteDexter V2紧凑拟人,遥操作管道高效。共训遥操作轨迹、视觉-语言、跨体现和人类数据,实现域内强性能和未见鲁棒。结果表明,这条路通向通用灵巧手操纵。

FAQ:你可能有的疑问

机器人手DoF越多越好吗?

不一定。高DoF如21-DoF增加灵活性,但也扩大控制空间。ByteDexter V2平衡了DoF和紧凑性,确保实用。

如何收集数据?

用Meta Quest头盔和Manus手套遥操作,实时重定向人类运动。补充跨体现和人类轨迹,处理差异通过掩码和对齐。

GR-Dexter在未见物体上成功率为什么高?

得益于视觉-语言数据提升泛化和跨体现数据提供多样抓握技能。在拾取放置中,未见物体成功率0.85。

这个系统能用于工业吗?

报告是研究目的,但其耐用联动驱动和触觉传感适合接触丰富任务,如制造。

训练数据怎么混合?

动态批次混合视觉-语言(下一令牌预测)和机器人轨迹(流匹配)。跨体现通过指尖对齐转移。

How-To:理解GR-Dexter的训练过程

想自己模拟类似训练?以下步骤基于报告:

  1. 准备数据源

    • 视觉-语言:图像字幕等数据集。
    • 跨体现:如Fourier ActionNet的140小时数据。
    • 人类轨迹:800+小时自视角视频 + 3D跟踪。
  2. 预处理

    • 标准化图像:调整大小、裁剪对齐尺度。
    • 质量控制:过滤低质量轨迹。
    • 重定向:指尖对齐到目标手,掩码不可用维度。
  3. 训练

    • 用Mixture-of-Transformer架构,4B参数。
    • 联合损失:下一令牌预测 + 流匹配。
    • 动态混合批次。
  4. 评估

    • rollout 生成动作块,优化平滑。
    • 测试长时序(如化妆整理)和泛化(如未见物体)。

通过这些,你能把握GR-Dexter的核心。

退出移动版