站点图标 高效码农

GEN-0:机器人智能的革命性突破,如何实现真实世界的高效操作?

在人工智能的浪潮中,大型语言模型如GPT系列已经展示了通过大量数据和计算资源实现能力飞跃的惊人潜力。然而,在机器人技术领域,这种“缩放定律”一直难以实现——直到现在。

今天,我们将深入探讨GEN-0(在部分文献中也被称为GEN-θ),这是由Generalist AI团队开发的一款革命性embodied foundation models。不同于传统方法,GEN-0直接在真实世界的高保真物理交互数据上进行训练,标志着机器人智能新时代的到来。

什么是embodied foundation models?

要理解GEN-0的革命性,首先需要明白什么是embodied foundation models。

在传统AI中,模型主要处理抽象信息——文本、图像或语音。而embodied AI则关注智能体在物理环境中的具体表现:如何抓取物体、如何行走、如何与环境互动。这就像是区别 between 知道“苹果”这个词的含义,和实际能够从树上摘下苹果。

GEN-0正是这样一种模型:它不仅仅理解指令,还能在物理世界中执行复杂的操作任务。想象一个机器人能够从零开始组装相机套件——放置清洁布到盒子中、折叠纸板托盘、从塑料袋中取出相机、将其放入盒子并关闭——所有动作一气呵成,不需要明确的子任务分解。

为什么机器人智能一直难以规模化?

多年来,机器人研究面临一个根本性挑战:如何让机器人的智能随着数据和计算资源的增加而可靠提升?在自然语言处理领域,这一点已经通过大型语言模型的缩放定律得到证实——模型越大、数据越多,性能就越强。

然而,在机器人领域,这一直是个难以企及的目标。主要原因包括:

  1. 数据稀缺:获取大量真实的机器人交互数据成本高昂且耗时
  2. 物理复杂性:真实世界的物理规则不像数字世界那样规整
  3. 实时性要求:机器人必须在物理规则持续演进的同时做出决策
  4. 跨平台兼容性:不同机器人的机械结构、传感器和执行器各不相同

GEN-0的突破在于它直接解决了这些根本性挑战,首次在机器人领域确立了可靠的缩放定律。

Harmonic Reasoning:思考与行动的和谐统一

GEN-0最核心的创新是其独特的“Harmonic Reasoning”(和谐推理)架构。

物理世界的根本约束

在对话AI中,模型可以花费额外时间“思考”后再回应——延迟几毫秒对人类用户来说几乎无法察觉。但在物理世界中,物理规则不会暂停等待机器人做出决定。一个在货架前“思考”太久的机器人可能会失去平衡,或者错过抓取物体的最佳时机。

Harmonic Reasoning解决了这一根本性问题,它允许模型在异步、连续时间流中同时处理感知和行动令牌。这种设计创造了感知与行动之间的“和谐”互动,使GEN-0能够扩展到非常大的模型规模,而不依赖于System1-System2架构或推理时引导控制器。

技术实现简析

在技术层面,Harmonic Reasoning通过一种新颖的训练方法实现,模型学习在连续的时间流中交错处理传感输入和行动输出。这意味着模型不是先完全感知再行动,而是在感知的同时就开始规划并执行行动,更接近人类在物理世界中的反应方式。

突破智能阈值:为什么模型大小如此重要?

Generalist AI团队在缩放实验中观察到了一个引人注目的现象:机器人智能存在一个明显的“激活阈值”。

模型大小与性能关系

实验结果显示,不同大小的GEN-0模型在吸收物理交互数据方面表现出截然不同的能力:

  • 1B参数模型:在预训练过程中难以吸收复杂多样的感觉运动数据,模型权重随着时间的推移变得无法吸收新信息,出现所谓的“僵化”现象
  • 6B参数模型:开始从预训练中受益,展现出强大的多任务能力
  • 7B+参数模型:能够内化大规模的机器人预训练数据,仅需几千步的后训练就能将知识迁移到下游任务

上图展示了不同大小的GEN-0模型在完全保留的长视野下游任务上的下一动作验证预测误差。可以清晰看到,1B参数模型早期就出现明显的性能平台,而6B和7B模型随着预训练的增加持续改进。

莫拉维克悖论的体现

这一发现与著名的“莫拉维克悖论”相呼应:对人类来说轻而易举的感知和灵巧操作,实际上需要远比抽象推理更高的计算复杂度。GEN-0实验表明,物理世界中的智能(即物理常识)在计算方面可能有更高的激活阈值,而我们现在才刚刚开始探索这个阈值以上的领域。

机器人缩放定律:数据与性能的数学关系

GEN-0最重要的突破之一是首次在机器人领域确立了可靠的缩放定律。

预训练与下游性能的关系

研究人员从GEN-0训练运行中采样了不同预训练数据子集上的检查点,然后在这些检查点上对多任务、语言条件数据进行后训练。这一监督微调阶段涵盖16个任务集,包括评估灵巧性的任务(如搭建乐高)、行业工作流程(如快餐包装)和泛化任务(包括“任意事物”风格的指令)。

跨各种任务的结果表明,更多的预训练改善了后训练期间的验证损失和下一动作预测误差。在足够的模型规模下,预训练数据集大小与下游验证误差之间的关系可以通过以下幂律形式很好地描述:

L(D) = (Dc/D)^αD

其中D是预训练中动作轨迹的数量,L(D)是下游任务上的验证误差。

缩放定律的实际应用

这一数学关系使机器人团队能够估算需要多少预训练数据才能达到目标下一动作预测误差,或者多少下游标记数据可以与额外的预训练相互替代。

例如,在衣物处理任务(包括在真实工作场所中对衣物进行分类、整理、扣扣子和悬挂)中,可以预测模型在给定10亿动作轨迹时的性能。这些估计指导了与合作任务相关的讨论,并能提供达到特定性能水平所需额外数据量的估计。


上图示出了随着预训练数据的增加(不同颜色),多任务模型在后训练期间的表现改善,包括验证损失(上图)和跨所有16个任务集的下一动作预测误差(下图4×4网格)。

上图展示了在衣物处理任务上,后训练模型的渐近下一动作预测误差与预训练数据集大小(按动作轨迹数量计)的函数关系。

数据引擎:机器人学习的生命线

GEN-0的训练基于一个前所未有的数据集:270,000小时的真实世界操作轨迹,收集自全球数千个家庭、仓库和工作场所的不同活动。

数据规模与多样性

这一数据规模令人震惊——它比迄今为止(截至2025年11月)存在的一些最大机器人数据集高出几个数量级。而且,这一数据集仍在快速增长,当前的数据操作每周提供超过10,000小时的新数据,并且还在加速。

上图直观对比了GEN-0训练数据与现有大型机器人数据集的规模差异。

操作任务的广泛覆盖

为了扩展GEN-0的能力,团队正在构建有史以来最大、最多样化的真实世界操作数据集,包括人类能想到的每一个操作任务——从削土豆皮到穿螺栓——跨越家庭、面包店、自助洗衣店、仓库、工厂等环境。

团队还开发了内部搜索工具来探索这一“操作宇宙”,通过对应语言标签嵌入的t-SNE地图,用户可以导航数据集,根据文本描述定位最近邻区域,并在该区域随机采样相关视频集合。

基础设施挑战与解决方案

支持这种规模的数据操作并非易事。团队为此构建了定制硬件、数据加载器和网络基础设施(包括铺设新的专用互联网线路),以支持来自全球不同数据收集站点的上行带宽。

技术栈包括:

  • 多云合同协商
  • 定制上传机器
  • 扩展到约10,000核心用于持续多模态数据处理
  • 压缩数十PB数据
  • 采用前沿视频基础模型背后的数据加载技术

这一系统每天能够吸收6.85年的真实世界操作经验,为GEN-0的训练提供了前所未有的数据支持。

预训练的科学:数据质量与混合的重要性

大规模消融实验揭示了一个关键见解:数据质量和多样性比纯粹的数量更重要,精心构建的数据混合可以导致不同的预训练模型特性。

评估指标

性能通过两个主要指标衡量:

  1. 验证预测均方误差:MSE_val = ||a* – â||₂²,衡量下一动作的预测准确性
  2. 反向KL散度:更好地衡量模式寻求行为,通过蒙特卡洛估计器计算

数据混合的实验结果

实验比较了8个不同的预训练数据集,这些数据集与多个数据工厂合作伙伴共同收集,跨越数据收集的不同分类(即模式):

  • Class 1:涉及特定任务的数据
  • Class 3:涉及“做任何事”类型的数据
  • Class 2:介于两者之间的一切

不同合作伙伴也有不同的操作,这些实验可用于评估合作伙伴之间的情况,迭代并提供关于收集什么数据、如何收集以及哪些方法最改进模型的反馈。

实验结果表格显示,具有低预测误差和低反向KL的模型往往在监督微调的后训练中表现更好,而具有高预测误差和低反向KL的模型在分布上更加多模态,这可能有助于后训练的强化学习。

拥有多种大规模数据收集策略使团队能够持续A/B测试哪些数据最改进预训练。

跨embodiment设计:通用性的关键

GEN-0架构在设计上适用于不同的机器人。团队已经在6DoF、7DoF和16+DoF半人形机器人上测试了模型,使得单个预训练运行能够服务异构机器人舰队。

这种跨embodiment的能力极大地提高了模型的实用性和可扩展性,意味着同一核心智能可以部署在多种物理形态的机器人上,从简单的机械臂到复杂的人形机器人。

GEN-0在行动:实际任务展示

GEN-0的能力在多个复杂任务中得到了验证,其中一个典型例子是组装相机套件:

这是一个长视野的灵巧任务,涉及将清洁布放入盒子中、折叠纸板托盘、拿起相机并从塑料袋中取出、将其放入盒子中、关闭盒子(并插入小 flap),然后丢弃塑料袋。重要的是,模型不维护任何明确的子任务概念,而是在单个和谐推理流中执行所有操作。

这种表现展示了GEN-0在理解复杂任务、规划长期行动序列以及在物理世界中精确执行方面的卓越能力。

未来展望与影响

GEN-0代表了embodied foundation models的新起点,其能力可以通过物理交互数据——不仅仅是文本、图像或模拟,而是真实世界——可靠地扩展。

这一突破对多个行业具有深远影响:

  • 制造业:灵活适应不同生产线的通用机器人
  • 物流:能够处理各种包装和分拣任务的智能系统
  • 家庭服务:协助日常家务的机器人助手
  • 医疗保健:支持康复和护理任务的灵敏机器

随着数据集的持续扩大和模型架构的进一步优化,机器人智能有望在未来几年实现如今大型语言模型般的快速发展。

常见问题解答

GEN-0与传统的机器人控制方法有何不同?

传统机器人通常针对特定任务进行编程或训练,而GEN-0作为基础模型,通过大规模预训练获得了广泛的物理常识和操作技能,能够通过少量后训练适应新任务,实现了从“专用”到“通用”的转变。

Harmonic Reasoning与传统的分层规划有何区别?

传统分层规划通常将感知、规划和执行分为离散阶段,而Harmonic Reasoning在连续时间流中交织这些过程,更接近生物系统在动态环境中的反应方式,允许更流畅、自适应的行为。

为什么模型会在1B参数时出现僵化?

僵化现象表明,当模型容量不足时,它无法有效吸收和整合大规模多样化数据中的复杂模式。这类似于试图用小容器装大量水——容量不足导致溢出或停滞。更大的模型提供足够的“空间”来组织和学习物理交互中的细微模式。

GEN-0需要多少数据才能达到人类水平的操作能力?

虽然目前难以精确量化,但缩放定律提供了预测框架。根据现有趋势,达到人类水平的操作能力可能需要数亿小时的多样化操作数据,结合适当规模的模型架构。当前270,000小时的数据只是这一旅程的起点。

跨embodiment如何实现?

GEN-0通过抽象的动作和感知表示实现跨embodiment,这些表示不特定于任何机器人平台。在训练期间,模型学习物理交互的基本原理,而非特定机器人的运动学,使其能够适应不同的机械结构。

数据质量如何影响模型性能?

实验表明,数据质量和多样性对最终模型特性有显著影响。精心策划的数据混合可以产生更适合监督微调或强化学习的模型。不同来源的数据会培养模型不同的“特长”,如灵巧性、泛化能力或特定应用技能。

结语

GEN-0标志着机器人技术的一个转折点——首次证明了embodied AI可以通过大规模真实世界数据可靠地扩展。通过Harmonic Reasoning架构、跨embodiment设计和前所未有的数据操作,GEN-0为通用机器人智能奠定了坚实基础。

随着数据集的持续增长和模型规模的进一步扩大,我们正站在机器人智能新时代的门槛上——一个机器人能够像今天的大型语言模型处理文本那样,熟练地处理物理世界的复杂挑战。

这一进展不仅具有技术意义,更预示着各行各业将迎来前所未有的自动化和智能化水平,最终扩展人类在物理世界中的能力和效率。


本文内容基于Generalist AI团队发布的GEN-0技术文档和研究报告,所有信息均来自公开可用资料。

退出移动版