多模态生成式推理到底测什么?

——一份给普通人的 MMGR 技术说明书

如果你只想知道结论,可以直接跳到最后「一分钟速读」。
如果你想弄懂“为什么我的 AI 视频总穿墙、数独填错格、迷宫走到死胡同”,请慢慢往下看。


1. 先回答最常被问的 5 个问题

问题 一句话答案
MMGR 是什么? 一份专门给“视频/图片大模型”做的“物理+逻辑+空间”体检报告。
它测哪些能力? 五大维度:物理常识、抽象逻辑、3D 空间、2D 空间、时间因果。
为什么我连 Sora-2 都能挂科? 因为考题是“真的会做物理题”,而不是“看起来像在做题”。
得分低会怎样? 模型会“穿墙”、把数独填成 9 个 9、把抛物线画成折线。
普通人需要关心吗? 如果你用 AI 做教学、仿真、导航、游戏,它就是“翻车预警器”。

2. 把论文“拆”成 3 张图

图 1:三大任务域

抽象推理 ── 迷宫、数独、ARC-AGI、数学题  
具身导航 ── 全景/俯视/3D/同步定位与建图  
物理常识 ── 固体碰撞、流体飞溅、滑雪旋转

图 2:五大核心能力

物理常识 → 苹果会落地  
逻辑推理 → 如果 A 则 B  
3D 空间 → 知道楼梯能上楼  
2D 空间 → 看得懂地图  
时间因果 → 先点火再爆炸

图 3:谁被拉来考试

视频组:Veo-3、Sora-2、Wan-2.2  
图片组:Nano-banana、Nano-banana Pro、GPT-4o-image、Qwen-image  
考官:Gemini-2.5-Pro(自动)+ 6 位人类裁判(人工)

3. 抽象推理——“数独做成 GIF 为什么全错?”

3.1 实验怎么玩

  • 给你一张 9×9 空白格,附一句“把数独解出来”。
  • 视频模型要一帧一帧把数字填进去;图片模型一次出图。
  • 只要出现“同一行两个 7”或把初始提示改了,直接判 0 分。

3.2 结果冷知识

模型 4×4 简单题 9×9 标准题 人类复核后
Veo-3 11 % 3 % 0 %(全部 0)
Nano-banana Pro 66 % 30 %

为什么视频模型全军覆没?

  • 时间漂移:第 5 帧把第 2 帧写对的 3 又涂成 4。
  • 约束健忘:模型不记得“行唯一、列唯一、宫唯一”。
  • 视觉幻觉:数字边缘发虚,人类复核时直接当“错字”。

4. 具身导航——“AI 眼里的房子为什么漏风?”

4.1 四个子任务

  1. 全景最后一公里(360° 找红点)
  2. 俯视全局路径(看 2D 地图走迷宫)
  3. 3D 穿楼层导航(楼梯、跃层、挑空客厅)
  4. SLAG——边走边画地图(3D 走,2D 同步生成轨迹)

4.2 评分“七连击”

指标 含义 常见翻车点
Success Score 到没到终点 停在门口 0.5 m 外
Oracle Score 途中有没有路过 绕路 3 圈
Object Semantic 撞没撞墙 直接穿墙而过
Agent Consistency 人形是否瞬移 一秒后出现在二楼
Scene Consistency 家具动不动 沙发自己飘走
Destination Integrity 终点红标变没变 红标被涂成绿标
Spatial Alignment 朝向对不对 面朝北却横着走

4.3 数据“惊心”对比

场景 自动评分 人类评分 差距根源
全景简单房 73 % 25 % 算法没发现“穿墙”
3D 复式楼 25 % 3 % 楼梯被模型“切”成滑梯
SLAG 对齐 44 % 9 % 2D 轨迹与 3D 路线南辕北辙

5. 物理常识——“为什么水花像果冻?”

5.1 考什么

  • 固体碰撞:台球互撞、咖啡研磨
  • 固-液互动:跳水入水、雨伞甩雨
  • 液-液混合:牛奶倒咖啡、墨水扩散
  • 运动连锁:保龄球全中、滑雪回旋

5.2 评分 4 件套

维度 0 分典型表现
Physics Accuracy 球撞后反向加速
Motion Quality 一帧跳 5 m
Visual Realism 影子方向相反
Prompt Adherence 让“滑雪”却给出“滑冰”

5.3 结果小结

  • Sora-2 总分 70 % 最高,靠“人体运动”题库。
  • Veo-3 在“固体碰撞”直接 0 %——模型不懂“弹性+动量”。
  • Wan-2.2 视觉最漂亮(96 % 逼真度),但物理错得离谱,再次证明“好看 ≠ 正确”。

6. 人类 vs 机器打分——“谁更严格?”

模型 任务 自动分 人工分 差异解释
Veo-3 数独 11 % 0 % 人工更严:数字写糊就算错
Veo-3 物理 51 % 80 % 自动太严:把轻微抖动当“不自然”
平均 导航 37 % 10 % 自动漏检“穿墙”——人类一眼看出

结论

  • 逻辑题(数独、ARC)人工更苛刻;
  • 物理题人工更宽容——“肉眼级”合理就能过;
  • 导航题自动评分“放水”最严重,必须加人工复核。

7. 三大瓶颈(作者原话,通俗翻译)

原文 翻译
Training Data Imbalance 物理视频一抓一大把,符号题库却少得可怜。
Architectural Limitations 模型只顾“下一帧像不像”,不管“全局合不合理”。
Optimization Objective Gaps 损失函数只鼓励“像真画”,不奖励“逻辑对”。

8. 开发者能带走的 4 条行动清单

  1. 数据:给模型喂“带公式的步骤图”,而不是“只有答案的成品图”。
  2. 结构:把“逻辑状态”单独缓存,别让扩散过程把它洗没。
  3. 损失:加一条“物理一致性”损失,穿墙就重罚。
  4. 评测:上线前跑一遍 MMGR,别只看 FVD(画面清晰度)自欺。

9. 一分钟速读(给真的赶时间的你)

  • MMGR = 视频/图片大模型的“物理+逻辑”五维体检。
  • 抽象推理:视频模型时间漂移,数独/ARC 几乎 0 分。
  • 具身导航:自动评分高估 3 倍,穿墙、瞬移、家具漂移是常态。
  • 物理常识:Sora-2 靠人体动作题库拿 70 %,硬碰撞全军覆没。
  • 根源:缺符号数据、缺全局监督、缺物理损失。
  • 建议:喂步骤图、加物理损失、上线前跑 MMGR。