多模态生成式推理到底测什么?
——一份给普通人的 MMGR 技术说明书
如果你只想知道结论,可以直接跳到最后「一分钟速读」。
如果你想弄懂“为什么我的 AI 视频总穿墙、数独填错格、迷宫走到死胡同”,请慢慢往下看。
1. 先回答最常被问的 5 个问题
问题
一句话答案
MMGR 是什么?
一份专门给“视频/图片大模型”做的“物理+逻辑+空间”体检报告。
它测哪些能力?
五大维度:物理常识、抽象逻辑、3D 空间、2D 空间、时间因果。
为什么我连 Sora-2 都能挂科?
因为考题是“真的会做物理题”,而不是“看起来像在做题”。
得分低会怎样?
模型会“穿墙”、把数独填成 9 个 9、把抛物线画成折线。
普通人需要关心吗?
如果你用 AI 做教学、仿真、导航、游戏,它就是“翻车预警器”。
2. 把论文“拆”成 3 张图
图 1:三大任务域
抽象推理 ── 迷宫、数独、ARC-AGI、数学题
具身导航 ── 全景/俯视/3D/同步定位与建图
物理常识 ── 固体碰撞、流体飞溅、滑雪旋转
图 2:五大核心能力
物理常识 → 苹果会落地
逻辑推理 → 如果 A 则 B
3D 空间 → 知道楼梯能上楼
2D 空间 → 看得懂地图
时间因果 → 先点火再爆炸
图 3:谁被拉来考试
视频组:Veo-3、Sora-2、Wan-2.2
图片组:Nano-banana、Nano-banana Pro、GPT-4o-image、Qwen-image
考官:Gemini-2.5-Pro(自动)+ 6 位人类裁判(人工)
3. 抽象推理——“数独做成 GIF 为什么全错?”
3.1 实验怎么玩
给你一张 9×9 空白格,附一句“把数独解出来”。
视频模型要一帧一帧把数字填进去;图片模型一次出图。
只要出现“同一行两个 7”或把初始提示改了,直接判 0 分。
3.2 结果冷知识
模型
4×4 简单题
9×9 标准题
人类复核后
Veo-3
11 %
3 %
0 %(全部 0)
Nano-banana Pro
66 %
30 %
—
为什么视频模型全军覆没?
时间漂移:第 5 帧把第 2 帧写对的 3 又涂成 4。
视觉幻觉:数字边缘发虚,人类复核时直接当“错字”。
4. 具身导航——“AI 眼里的房子为什么漏风?”
4.1 四个子任务
SLAG——边走边画地图(3D 走,2D 同步生成轨迹)
4.2 评分“七连击”
指标
含义
常见翻车点
Success Score
到没到终点
停在门口 0.5 m 外
Oracle Score
途中有没有路过
绕路 3 圈
Object Semantic
撞没撞墙
直接穿墙而过
Agent Consistency
人形是否瞬移
一秒后出现在二楼
Scene Consistency
家具动不动
沙发自己飘走
Destination Integrity
终点红标变没变
红标被涂成绿标
Spatial Alignment
朝向对不对
面朝北却横着走
4.3 数据“惊心”对比
场景
自动评分
人类评分
差距根源
全景简单房
73 %
25 %
算法没发现“穿墙”
3D 复式楼
25 %
3 %
楼梯被模型“切”成滑梯
SLAG 对齐
44 %
9 %
2D 轨迹与 3D 路线南辕北辙
5. 物理常识——“为什么水花像果冻?”
5.1 考什么
5.2 评分 4 件套
维度
0 分典型表现
Physics Accuracy
球撞后反向加速
Motion Quality
一帧跳 5 m
Visual Realism
影子方向相反
Prompt Adherence
让“滑雪”却给出“滑冰”
5.3 结果小结
Sora-2 总分 70 % 最高,靠“人体运动”题库。
Veo-3 在“固体碰撞”直接 0 %——模型不懂“弹性+动量”。
Wan-2.2 视觉最漂亮(96 % 逼真度),但物理错得离谱,再次证明“好看 ≠ 正确”。
6. 人类 vs 机器打分——“谁更严格?”
模型
任务
自动分
人工分
差异解释
Veo-3
数独
11 %
0 %
人工更严:数字写糊就算错
Veo-3
物理
51 %
80 %
自动太严:把轻微抖动当“不自然”
平均
导航
37 %
10 %
自动漏检“穿墙”——人类一眼看出
结论 :
7. 三大瓶颈(作者原话,通俗翻译)
原文
翻译
Training Data Imbalance
物理视频一抓一大把,符号题库却少得可怜。
Architectural Limitations
模型只顾“下一帧像不像”,不管“全局合不合理”。
Optimization Objective Gaps
损失函数只鼓励“像真画”,不奖励“逻辑对”。
8. 开发者能带走的 4 条行动清单
数据:给模型喂“带公式的步骤图”,而不是“只有答案的成品图”。
结构:把“逻辑状态”单独缓存,别让扩散过程把它洗没。
评测:上线前跑一遍 MMGR,别只看 FVD(画面清晰度)自欺。
9. 一分钟速读(给真的赶时间的你)
MMGR = 视频/图片大模型的“物理+逻辑”五维体检。
抽象推理:视频模型时间漂移,数独/ARC 几乎 0 分。
具身导航:自动评分高估 3 倍,穿墙、瞬移、家具漂移是常态。
物理常识:Sora-2 靠人体动作题库拿 70 %,硬碰撞全军覆没。