多模态生成式推理（MMGR）大揭秘：为什么Sora做不对数独、穿墙而过还自认合理？

高效码农

3 月前

多模态生成式推理到底测什么？

——一份给普通人的 MMGR 技术说明书

如果你只想知道结论，可以直接跳到最后「一分钟速读」。
如果你想弄懂“为什么我的 AI 视频总穿墙、数独填错格、迷宫走到死胡同”，请慢慢往下看。

1. 先回答最常被问的 5 个问题

问题	一句话答案
MMGR 是什么？	一份专门给“视频/图片大模型”做的“物理+逻辑+空间”体检报告。
它测哪些能力？	五大维度：物理常识、抽象逻辑、3D 空间、2D 空间、时间因果。
为什么我连 Sora-2 都能挂科？	因为考题是“真的会做物理题”，而不是“看起来像在做题”。
得分低会怎样？	模型会“穿墙”、把数独填成 9 个 9、把抛物线画成折线。
普通人需要关心吗？	如果你用 AI 做教学、仿真、导航、游戏，它就是“翻车预警器”。

2. 把论文“拆”成 3 张图

图 1：三大任务域

抽象推理 ── 迷宫、数独、ARC-AGI、数学题  
具身导航 ── 全景/俯视/3D/同步定位与建图  
物理常识 ── 固体碰撞、流体飞溅、滑雪旋转

图 2：五大核心能力

物理常识 → 苹果会落地  
逻辑推理 → 如果 A 则 B  
3D 空间 → 知道楼梯能上楼  
2D 空间 → 看得懂地图  
时间因果 → 先点火再爆炸

图 3：谁被拉来考试

视频组：Veo-3、Sora-2、Wan-2.2  
图片组：Nano-banana、Nano-banana Pro、GPT-4o-image、Qwen-image  
考官：Gemini-2.5-Pro（自动）+ 6 位人类裁判（人工）

3. 抽象推理——“数独做成 GIF 为什么全错？”

3.1 实验怎么玩

给你一张 9×9 空白格，附一句“把数独解出来”。
视频模型要一帧一帧把数字填进去；图片模型一次出图。
只要出现“同一行两个 7”或把初始提示改了，直接判 0 分。

3.2 结果冷知识

模型	4×4 简单题	9×9 标准题	人类复核后
Veo-3	11 %	3 %	0 %（全部 0）
Nano-banana Pro	66 %	30 %	—

为什么视频模型全军覆没？

时间漂移：第 5 帧把第 2 帧写对的 3 又涂成 4。
约束健忘：模型不记得“行唯一、列唯一、宫唯一”。
视觉幻觉：数字边缘发虚，人类复核时直接当“错字”。

4. 具身导航——“AI 眼里的房子为什么漏风？”

4.1 四个子任务

全景最后一公里（360° 找红点）
俯视全局路径（看 2D 地图走迷宫）
3D 穿楼层导航（楼梯、跃层、挑空客厅）
SLAG——边走边画地图（3D 走，2D 同步生成轨迹）

4.2 评分“七连击”

指标	含义	常见翻车点
Success Score	到没到终点	停在门口 0.5 m 外
Oracle Score	途中有没有路过	绕路 3 圈
Object Semantic	撞没撞墙	直接穿墙而过
Agent Consistency	人形是否瞬移	一秒后出现在二楼
Scene Consistency	家具动不动	沙发自己飘走
Destination Integrity	终点红标变没变	红标被涂成绿标
Spatial Alignment	朝向对不对	面朝北却横着走

4.3 数据“惊心”对比

场景	自动评分	人类评分	差距根源
全景简单房	73 %	25 %	算法没发现“穿墙”
3D 复式楼	25 %	3 %	楼梯被模型“切”成滑梯
SLAG 对齐	44 %	9 %	2D 轨迹与 3D 路线南辕北辙

5. 物理常识——“为什么水花像果冻？”

5.1 考什么

固体碰撞：台球互撞、咖啡研磨
固-液互动：跳水入水、雨伞甩雨
液-液混合：牛奶倒咖啡、墨水扩散
运动连锁：保龄球全中、滑雪回旋

5.2 评分 4 件套

维度	0 分典型表现
Physics Accuracy	球撞后反向加速
Motion Quality	一帧跳 5 m
Visual Realism	影子方向相反
Prompt Adherence	让“滑雪”却给出“滑冰”

5.3 结果小结

Sora-2 总分 70 % 最高，靠“人体运动”题库。
Veo-3 在“固体碰撞”直接 0 %——模型不懂“弹性+动量”。
Wan-2.2 视觉最漂亮（96 % 逼真度），但物理错得离谱，再次证明“好看 ≠ 正确”。

6. 人类 vs 机器打分——“谁更严格？”

模型	任务	自动分	人工分	差异解释
Veo-3	数独	11 %	0 %	人工更严：数字写糊就算错
Veo-3	物理	51 %	80 %	自动太严：把轻微抖动当“不自然”
平均	导航	37 %	10 %	自动漏检“穿墙”——人类一眼看出

结论：

逻辑题（数独、ARC）人工更苛刻；
物理题人工更宽容——“肉眼级”合理就能过；
导航题自动评分“放水”最严重，必须加人工复核。

7. 三大瓶颈（作者原话，通俗翻译）

原文	翻译
Training Data Imbalance	物理视频一抓一大把，符号题库却少得可怜。
Architectural Limitations	模型只顾“下一帧像不像”，不管“全局合不合理”。
Optimization Objective Gaps	损失函数只鼓励“像真画”，不奖励“逻辑对”。

8. 开发者能带走的 4 条行动清单

数据：给模型喂“带公式的步骤图”，而不是“只有答案的成品图”。
结构：把“逻辑状态”单独缓存，别让扩散过程把它洗没。
损失：加一条“物理一致性”损失，穿墙就重罚。
评测：上线前跑一遍 MMGR，别只看 FVD（画面清晰度）自欺。

9. 一分钟速读（给真的赶时间的你）

MMGR = 视频/图片大模型的“物理+逻辑”五维体检。
抽象推理：视频模型时间漂移，数独/ARC 几乎 0 分。
具身导航：自动评分高估 3 倍，穿墙、瞬移、家具漂移是常态。
物理常识：Sora-2 靠人体动作题库拿 70 %，硬碰撞全军覆没。
根源：缺符号数据、缺全局监督、缺物理损失。
建议：喂步骤图、加物理损失、上线前跑 MMGR。

退出移动版