V-JEPA 2:Meta 发布世界模型新突破,让AI像人类一样理解物理世界

无需预先训练即可操控陌生物体,65%-80%成功率革新机器人学习范式

引言:人类为何天生懂物理?

想象将网球抛向空中——我们本能地知道它会被地心引力拉回地面。若网球突然悬停、转向或变成苹果,任何人都会感到震惊。这种物理直觉并非来自教科书,而是人类幼年通过观察世界建立的内在世界模型。它让我们能:

  • 预测行为后果(避开拥挤人群)
  • 预判事件发展(冰球运动员冲向冰球即将到达的位置)
  • 规划最优路径(调节炉火控制烹饪进度)

Meta 今日发布的 V-JEPA 2 世界模型,正是让AI获得这种能力的里程碑突破。作为首个基于视频训练的十亿级参数世界模型(12亿参数),它实现了:

  • 视频理解与预测的业界最佳性能
  • 零样本(zero-shot)跨环境机器人规划
  • 物理推理三大新评测基准开源

一、世界模型:AI的“物理直觉”引擎

为何世界模型是AGI的核心?

人类行动前会在大脑内模拟结果:“如果碰倒水杯,液体将洒向笔记本”——这种内部模拟器正是世界模型的核心价值。AI要真正理解物理世界,必须具备三种能力:

能力维度 人类案例 AI实现要求
理解 识别视频中的物体、动作 解析视频语义信息
预测 预判松手后苹果如何下落 推演环境状态变化
规划 设计避开障碍物的行走路径 生成达成目标的动作序列

传统AI的瓶颈:现有模型需海量标注数据训练特定任务,遇到新物体/环境就失效。而V-JEPA 2通过自监督学习,直接从620万小时视频中学习物理规律,无需人工标注。


二、V-JEPA 2 技术架构解密

双引擎驱动:编码器+预测器

graph LR
A[原始视频] --> B(编码器)
B --> C[语义嵌入向量]
C --> D(预测器)
D --> E[未来状态预测]
E --> F{规划决策}
  1. 编码器(世界观察者)
    将视频帧转化为语义嵌入向量(保留物体属性、运动轨迹等关键信息)

  2. 预测器(未来模拟器)
    基于当前状态嵌入,预演不同动作的后果(例:机器人抓取力度对物体滑落的影响)

两阶段训练:从理解到操控

阶段1:无动作预训练(620万小时视频+图像)

  • 学习基础物理规律:重力作用、物体碰撞、人机交互
  • 关键成果:

    • Something-Something v2 动作识别任务达到SOTA
    • Epic-Kitchens-100 动作预测准确率破纪录
    • 视频问答(Perception Test)性能领先

阶段2:动作微调(仅62小时机器人数据)

  • 注入动作-结果关联知识(DROID数据集)
  • 实现零样本机器人控制:

    # 伪代码展示规划逻辑
    current_state = encoder(now_frame) 
    goal_state = encoder(target_frame)
    
    for action in candidate_actions:
        predicted_state = predictor(current_state, action) 
        score = distance(predicted_state, goal_state)  # 评估动作效果
    execute(top_scored_action)  # 执行最优动作
    

三、零样本机器人控制实战

新环境+陌生物体的突破性表现

在Meta实验室测试中,V-JEPA 2操控机械臂完成从未训练过的任务:

  1. 短时任务(抓取/放置)

    • 输入:当前画面 + 目标画面
    • 动作规划:实时评估200+候选动作
    • 成功率:78%(对比传统模型<40%)
  2. 长时任务(取物→放置→归位)

    • 采用视觉子目标分解(模仿人类学习模式)
    • 在全新场景操作陌生物体成功率65%-80%
      示例:将从未见过的异形积木放入对应凹槽

颠覆性价值:传统机器人模型需针对特定环境训练,而V-JEPA 2在开源数据集预训练后,直接部署到真实机器人即实现跨环境迁移。


四、物理推理三大新基准:填补AI认知鸿沟

Meta同步开源评测套件,暴露当前模型与人类物理直觉的差距:

基准名称 评测目标 人类准确率 顶尖AI准确率
IntPhys 2 物理合理性判断 95% ≈50%
MVPBench 抗干扰物理理解 92% 61%
CausalVQA 因果推理(反事实/预判) 85% 48%

关键技术亮点

1. IntPhys 2:物理版“大家来找茬”

  • 生成物理规则违背视频对(例:球穿墙而过 vs 球正常反弹)
  • 当前模型表现接近随机猜测
  • 下载数据集

2. MVPBench:防作弊视频QA

  • 首创最小差异对抗对设计:

    视频A:玻璃杯从桌边推出 → 自由落体  
    视频B:玻璃杯从桌边推出 → 悬浮空中  
    相同问题:“杯子会摔碎吗?” → 答案相反
    
  • 要求模型同时答对原题与对抗题才计分
  • 访问项目

3. CausalVQA:因果链推理挑战

  • 测试三类核心能力:

    graph TB
    A[反事实推理] -->|“若当时推左边积木...”| B[结果预测]
    C[事件预判] -->|“接下来会发生...”| D[状态推演]
    E[行动规划] -->|“要移开障碍物需...”| F[动作序列]
    
  • 现有模型擅长描述已发生事件(“发生了什么”),但弱于推演可能性(“可能发生什么”)
  • 论文地址

实时排行榜Hugging Face物理推理榜单 持续追踪进展


五、通向AGI的下一站

V-JEPA 2 的三大进化方向

  1. 多尺度时空建模
    当前模型处理单一时间粒度,未来将实现:

    • 宏观:规划“烘焙蛋糕”任务流
    • 微观:控制“搅拌面糊”手腕角度
  2. 多模态感知融合
    整合视觉/听觉/触觉信号,构建全息世界模型(例:通过敲击声判断物体材质)

  3. 开放社区协作

    • 完整模型/代码已开源:GitHub仓库
    • 商业应用授权:企业可免费部署

结语:物理智能的觉醒之路

V-JEPA 2 的突破性在于用自监督学习破解物理规律编码

“就像孩童观看十万小时世界录像后,突然理解重力与摩擦力——
现在AI通过620万小时视频预训练+62小时动作微调,获得了操控陌生物体的能力”

随着三大评测基准开源,学术界首次拥有物理直觉量化标尺。正如Meta首席AI科学家Yann LeCun所言:“预测是世界模型的核心” ,当AI学会在行动前推演后果,真正通用的机器智能将不再遥远。

资源导航