V-JEPA 2:Meta 发布世界模型新突破,让AI像人类一样理解物理世界
无需预先训练即可操控陌生物体,65%-80%成功率革新机器人学习范式
引言:人类为何天生懂物理?
想象将网球抛向空中——我们本能地知道它会被地心引力拉回地面。若网球突然悬停、转向或变成苹果,任何人都会感到震惊。这种物理直觉并非来自教科书,而是人类幼年通过观察世界建立的内在世界模型。它让我们能:
-
预测行为后果(避开拥挤人群) -
预判事件发展(冰球运动员冲向冰球即将到达的位置) -
规划最优路径(调节炉火控制烹饪进度)
Meta 今日发布的 V-JEPA 2 世界模型,正是让AI获得这种能力的里程碑突破。作为首个基于视频训练的十亿级参数世界模型(12亿参数),它实现了:
-
视频理解与预测的业界最佳性能 -
零样本(zero-shot)跨环境机器人规划 -
物理推理三大新评测基准开源
一、世界模型:AI的“物理直觉”引擎
为何世界模型是AGI的核心?
人类行动前会在大脑内模拟结果:“如果碰倒水杯,液体将洒向笔记本”——这种内部模拟器正是世界模型的核心价值。AI要真正理解物理世界,必须具备三种能力:
传统AI的瓶颈:现有模型需海量标注数据训练特定任务,遇到新物体/环境就失效。而V-JEPA 2通过自监督学习,直接从620万小时视频中学习物理规律,无需人工标注。
二、V-JEPA 2 技术架构解密
双引擎驱动:编码器+预测器
graph LR
A[原始视频] --> B(编码器)
B --> C[语义嵌入向量]
C --> D(预测器)
D --> E[未来状态预测]
E --> F{规划决策}
-
编码器(世界观察者)
将视频帧转化为语义嵌入向量(保留物体属性、运动轨迹等关键信息) -
预测器(未来模拟器)
基于当前状态嵌入,预演不同动作的后果(例:机器人抓取力度对物体滑落的影响)
两阶段训练:从理解到操控
阶段1:无动作预训练(620万小时视频+图像)
-
学习基础物理规律:重力作用、物体碰撞、人机交互 -
关键成果: -
Something-Something v2 动作识别任务达到SOTA -
Epic-Kitchens-100 动作预测准确率破纪录 -
视频问答(Perception Test)性能领先
-
阶段2:动作微调(仅62小时机器人数据)
-
注入动作-结果关联知识(DROID数据集) -
实现零样本机器人控制: # 伪代码展示规划逻辑 current_state = encoder(now_frame) goal_state = encoder(target_frame) for action in candidate_actions: predicted_state = predictor(current_state, action) score = distance(predicted_state, goal_state) # 评估动作效果 execute(top_scored_action) # 执行最优动作
三、零样本机器人控制实战
新环境+陌生物体的突破性表现
在Meta实验室测试中,V-JEPA 2操控机械臂完成从未训练过的任务:
-
短时任务(抓取/放置)
-
输入:当前画面 + 目标画面 -
动作规划:实时评估200+候选动作 -
成功率:78%(对比传统模型<40%)
-
-
长时任务(取物→放置→归位)
-
采用视觉子目标分解(模仿人类学习模式) -
在全新场景操作陌生物体成功率65%-80%
示例:将从未见过的异形积木放入对应凹槽
-
颠覆性价值:传统机器人模型需针对特定环境训练,而V-JEPA 2在开源数据集预训练后,直接部署到真实机器人即实现跨环境迁移。
四、物理推理三大新基准:填补AI认知鸿沟
Meta同步开源评测套件,暴露当前模型与人类物理直觉的差距:
关键技术亮点
1. IntPhys 2:物理版“大家来找茬”
-
生成物理规则违背视频对(例:球穿墙而过 vs 球正常反弹) -
当前模型表现接近随机猜测 -
下载数据集
2. MVPBench:防作弊视频QA
-
首创最小差异对抗对设计: 视频A:玻璃杯从桌边推出 → 自由落体 视频B:玻璃杯从桌边推出 → 悬浮空中 相同问题:“杯子会摔碎吗?” → 答案相反
-
要求模型同时答对原题与对抗题才计分 -
访问项目
3. CausalVQA:因果链推理挑战
-
测试三类核心能力: graph TB A[反事实推理] -->|“若当时推左边积木...”| B[结果预测] C[事件预判] -->|“接下来会发生...”| D[状态推演] E[行动规划] -->|“要移开障碍物需...”| F[动作序列]
-
现有模型擅长描述已发生事件(“发生了什么”),但弱于推演可能性(“可能发生什么”) -
论文地址
实时排行榜:Hugging Face物理推理榜单 持续追踪进展
五、通向AGI的下一站
V-JEPA 2 的三大进化方向
-
多尺度时空建模
当前模型处理单一时间粒度,未来将实现:-
宏观:规划“烘焙蛋糕”任务流 -
微观:控制“搅拌面糊”手腕角度
-
-
多模态感知融合
整合视觉/听觉/触觉信号,构建全息世界模型(例:通过敲击声判断物体材质) -
开放社区协作
-
完整模型/代码已开源:GitHub仓库 -
商业应用授权:企业可免费部署
-
结语:物理智能的觉醒之路
V-JEPA 2 的突破性在于用自监督学习破解物理规律编码:
“就像孩童观看十万小时世界录像后,突然理解重力与摩擦力——
现在AI通过620万小时视频预训练+62小时动作微调,获得了操控陌生物体的能力”
随着三大评测基准开源,学术界首次拥有物理直觉量化标尺。正如Meta首席AI科学家Yann LeCun所言:“预测是世界模型的核心” ,当AI学会在行动前推演后果,真正通用的机器智能将不再遥远。
资源导航: