揭秘GPT-5最怕的终极试炼场VisGym：视觉交互的17道难关，为何最强AI也频频折戟？

高效码农

2 月前

VisGym：下一代视觉语言模型的终极试炼场——为何前沿模型在多步视觉交互中表现不佳？

本文欲回答的核心问题： 尽管视觉语言模型（VLM）在静态图像识别上表现出色，但它们在涉及感知、记忆和行动的长时视觉交互任务中到底行不行？为什么目前最强大的前沿模型在看似简单的多步任务中也会频繁失败？

在人工智能飞速发展的今天，视觉语言模型已经成为了连接计算机视觉与自然语言处理的桥梁。从识别一张图片中的物体到回答关于图像的复杂问题，这些模型的表现令人惊叹。然而，当我们把目光从“看图说话”转向“看图做事”——即在一个复杂的环境中通过观察图像来制定计划、执行操作并记住历史状态时，情况就变得截然不同了。

人类在操作复杂的设备、解决拼图或探索未知的迷宫时，依赖于对环境的深度感知、对过往步骤的记忆以及对未来行动的规划。对于AI来说，这种能力的缺失是目前的一大短板。为了系统性地诊断和解决这一问题，加州大学伯克利分校的研究团队推出了 VisGym。这是一个包含17个多样化环境的测试与训练平台，专门用于评估和提升VLMs在长时视觉决策中的能力。

本文将深入剖析VisGym的设计理念、技术架构，以及对GPT-5、Gemini 2.5 Pro等前沿模型的测试结果，揭示这些模型在视觉交互中的具体弱点，并探讨如何通过针对性的微调来提升它们的性能。

图片来源：Unsplash

什么是 VisGym？17个环境揭秘

本段欲回答的核心问题： VisGym到底长什么样？它如何通过多样化的任务设计来全面考察模型的多模态决策能力？

VisGym不仅仅是一个简单的测试集，它更像是一个高度定制化的“健身房”，里面摆放了各种各样针对不同能力的“训练器材”。与传统的单一任务基准不同，VisGym构建了一个统一且多样化的生态系统，旨在隔离并测试那些影响视觉交互决策的通用因素，而不仅仅是针对特定领域的表现。

VisGym的核心价值在于其多样性。它包含了17个精心设计的长时环境，涵盖了符号逻辑、真实图像理解、导航和机械臂操控等多个领域。这些任务虽然背景各异，但都要求模型能够整合视觉输入、语言指令和操作历史来做出正确的决策。

为了更清晰地了解VisGym的构成，我们可以将这些环境大致分为几个类别，并查看它们的具体参数配置：

环境分类与特征概览

环境名称	领域	可观测性	动力学	难度参数	可用操作示例
Colorization (填色)	真实图像	完全	已知	1	旋转(θ), 调整饱和度(δ), 停止()
Counting (计数)	真实图像	完全	已知	2	标记(x, y), 撤销(), 猜测(N), 停止()
Jigsaw (拼图)	真实图像	完全	已知	2	交换位置((r1,c1),(r2,c2)), 重新排序([…]), 停止()
Matchstick Equation (火柴棒算式)	合成图像	完全	已知	1	移动火柴棒([i,s,j,t]), 撤销(), 停止()
Maze 2D (2D迷宫)	合成图像	完全	已知	2	移动(d), 停止()
Maze 3D (3D迷宫)	合成图像	部分	已知	2	移动(0), 转向(d), 停止()
Mental Rotation 2D/3D (心理旋转)	真实/合成	完全/部分	已知	1-3	旋转([dy,dp,dr]), 停止()
Pick & Place / Reach (机械臂操作)	合成图像	部分	未知	0	移动([x,y,z]), 抓取, 停止()
Video Unshuffle (视频乱序还原)	真实图像	完全	已知	3	交换(i,j), 重新排序([…]), 停止()
Zoom-In Puzzle (缩放拼图)	真实图像	完全	已知	5	交换(i,j), 重新排序([…]), 停止()

注：上述表格基于VisGym提供的环境配置数据整理，涵盖了从简单的符号操作到复杂的机器人控制任务。

核心设计差异：与其他框架的对比

VisGym并不是市面上唯一的视觉交互测试框架，但它填补了以往工具的许多空白。与LIBERO（主要关注机器人操作）或OSWorld（主要关注计算机操作）不同，VisGym强调的是“跨域”的诊断能力。

它支持结构化观测（如ASCII字符）和非结构化观测（如像素图像）的对比，支持部分可观测马尔可夫决策过程（POMDP），即环境状态被隐藏，模型必须通过历史推断状态。更重要的是，VisGym不仅支持评估，还支持监督微调（SFT）和在线强化学习，这意味着研究人员可以利用它生成的大规模演示数据来实际训练模型，而不仅仅是给它们打分。

图片来源：Unsplash

作者反思

在审视这17个环境时，最让我印象深刻的是它们在“可观测性”和“动力学”上的巧妙组合。例如，2D迷宫是完全可观测的，而3D迷宫则是部分可观测的；机械臂任务不仅部分可观测，其动力学还是未知的。这种设计迫使模型必须具备处理不确定性的能力，而这恰恰是通往通用智能的必经之路。单纯的图像理解能力在这里远远不够，模型必须学会像一个真正探索世界的智能体一样去思考和行动。

技术架构与核心设计：如何让模型“玩”起来

本段欲回答的核心问题： VisGym是如何将复杂的视觉交互任务转化为VLMs能够理解和执行的指令的？它在技术实现上有哪些创新？

VisGym基于广泛使用的Gymnasium框架构建，这使其与MuJoCo和Atari等经典强化学习环境保持兼容。然而，为了适应现代VLMs的特性，VisGym引入了关键的增强功能，使得模型能够通过自然语言交互来控制环境。

1. 函数条件化的操作空间

传统的强化学习环境通常使用离散的动作ID或连续的向量来表示动作。这种方式对人类不友好，对VLMs也不直观。VisGym将操作空间重新定义为带有参数的函数调用。

例如，在拼图任务中，模型不需要输出Action ID: 5，而是直接输出("swap", (1, 2))。这种抽象利用了VLMs强大的函数调用能力，允许模型跨领域组合策略。例如，它可以在一个任务中调用move(x, y)，在另一个任务中调用rotate(theta)，这种语义级的抽象大大降低了模型的学习难度。

2. 函数指令与环境反馈

为了实现零样本交互，VisGym在每个任务开始前会提供一套自然语言描述的函数指令，详细说明了每个函数的作用和参数约束。例如，它会告诉模型：“move函数接受一个方向参数，可以是’up’, ‘down’, ‘left’, ‘right’。”

此外，环境不仅提供视觉反馈（图像变化），还会提供文本反馈。每一步操作后，环境会返回一段文本描述，例如“invalid format”（格式错误）、“out of bounds”（越界）或“executed”（执行成功）。这对于视觉感知能力较弱的模型来说，起到了关键的辅助作用。

3. 神谕求解器与数据生成

这是VisGym的一大亮点。为了保证环境的可解性并为监督微调提供数据，研究团队为每个环境实现了基于启发式的多步求解器。这些求解器能够利用可用的操作完成每个任务，并且支持多种求解策略和随机性。这意味着VisGym不仅能跑评估，还能自动生成海量的、高质量的结构化演示数据，用于训练模型。

# 伪代码示例：VisGym环境交互流程
# 初始化环境
env = VisGym("Matchstick_Equation")
observation = env.reset()

# 获取函数指令
instructions = env.get_function_instructions()
# 指令示例: "move([i, s, j, t]): 将第i根火柴移动到位置j，方向s..."

# 开始多轮交互
for step in range(max_steps):
    # 模型基于历史信息和当前观察生成动作
    # 这里模型输出的是结构化的函数调用
    action = model.predict(history=history, obs=observation, instructions=instructions)
    
    # 执行动作，获得新观察、反馈和奖励
    observation, feedback, reward, done, info = env.step(action)
    
    # 记录历史
    history.append((observation, action, feedback))
    
    if done:
        break

图片来源：Unsplash

前沿模型大考：GPT-5、Gemini 2.5 Pro 的真实战力

本段欲回答的核心问题： 目前公认的AI界“天花板”模型——GPT-5、Gemini 2.5 Pro等，在面对这些长时视觉任务时，究竟能拿出什么样的成绩单？

VisGym对12个最先进的视觉语言模型进行了严格的评估。这些模型包括闭源的专有模型（如GPT-5, Gemini 2.5 Pro, Claude Sonnet 4, Grok 4 Fast）以及开源模型（如Qwen3-VL, GLM-4.5V, Llama-4-Maverick）。评估分为简单和困难两种配置，每个模型在每种配置下进行70个回合的测试。

整体表现：不及格的“学霸”

结果显示，即使是表现最好的专有模型，在VisGym上的成绩也远未达到人类水平。

最佳模型（Gemini 3 Pro）： 在简单配置下的平均成功率仅为 46.61%。
困难配置： 即使是最佳模型，成功率也降至 26.00%。

这意味着，在更困难的设置中，每四次尝试中就有三次是彻底失败的。这充分说明了长时视觉交互决策对于目前的VLMs来说，仍然是一个巨大的挑战。

模型性格：各有千秋的专长

虽然整体成绩不高，但不同的模型展现出了截然不同的“性格”和专长，这反映了它们训练数据和架构的差异：

GPT-5： 被证明是处理长上下文视觉交互的佼佼者。它在需要推断未知动态的任务（如火柴棒旋转）和困难设置中表现最强。它的成功轨迹往往包含更多的步数，显示了更强的耐心和规划能力。
Gemini 2.5 Pro： 表现出极强的低级视觉感知能力。它在需要紧密空间对齐、精确对应局部模式和对微妙视觉线索敏感的任务中占据统治地位，例如拼图、2D迷宫和缩放拼图。
Qwen-3-VL： 特别擅长物体定位，在“Referring Dot-Pointing”（指向指定点）任务中表现最佳。
大多数模型： 在成功路径上，步数分布集中在3-5步。一旦步数增加，成功率急剧下降。这表明大多数模型在处理需要超过5个步骤的复杂任务时显得力不从心。

常见的失败模式

通过分析失败轨迹，研究团队总结了四个跨任务的常见失败类型：

操作空间受限与循环： 模型倾向于重复单一操作或固定幅度的操作。例如，在机械臂抓取任务中不断向同一方向移动，或者总是使用“swap”而不是更高效的“reorder”。
状态管理混乱： 模型无法维护或更新内部状态。它们会忽略文本或环境反馈，重复探索已探索的区域，或者在多次收到“撞墙”反馈后继续撞墙。
过早终止： 模型在未达到目标时过早地发出了“stop”指令，导致任务失败。
忽视视觉或空间信息： 模型直接忽略了提供的视觉信息。例如，目标物体移出画面后模型无动于衷，或者在心理旋转任务中完全忽略了视觉上的未对齐状态。

深度诊断：为什么模型会失败？

本段欲回答的核心问题： 究竟是什么具体因素限制了VLMs在长时视觉决策中的表现？是上下文长度太长？是视觉识别不够准？还是缺乏反馈机制？

VisGym最大的价值在于其强大的可控性。研究团队通过控制变量的方法，对模型失败的原因进行了精细的诊断。以下是几个关键发现，这些发现对于未来的模型改进具有极强的指导意义。

1. 上下文长度的“倒U型”陷阱

通常我们认为，给模型提供更多的历史信息（更长的上下文）能帮助它做出更好的决策。然而，在VisGym的实验中，情况并非总是如此。

实验表明，模型的表现与保留的对话历史轮次呈现出倒U型关系：

短期提升： 保留1到4个之前的轮次时，模型的表现会提升，因为它能利用之前的反馈或视觉变化。
长期下降： 当提供完整的、无限制的历史记录时，模型的表现反而下降。这表明过时的观测信息和冗余的视觉数据干扰了模型的判断。

这说明，目前的VLMs并不善于从冗长的视觉历史中提取关键信息，它们需要更有效的“记忆压缩”机制。

2. 视觉与文本表示的巨大鸿沟

为了测试模型是缺乏“视觉理解力”还是缺乏“逻辑推理力”，研究人员将部分视觉任务（如火柴棒算式、2D迷宫）转换成了纯文本的ASCII艺术图。

结果令人惊讶：

GPT-5： 在大多数任务中，成功率提升了3到4倍。这说明GPT-5的主要瓶颈在于视觉 grounding（将像素映射到语义）的能力，而不在于逻辑推理。
文本并非总是赢家： 在“Matchstick Equation”任务中，视觉表现反而优于文本。这可能是由于ASCII艺术的不规则形状和间距造成的字符扭曲，增加了模型的识别难度。

这揭示了一个深刻的教训：对于当前的VLMs，将任务渲染成视觉图像往往会让它变得更难。 纯逻辑任务如果被强制通过视觉通道处理，往往会引入不必要的噪音。

3. 对文本反馈的病态依赖

人类可以通过看到物体碰撞来理解“过不去”，而不需要别人告诉他“撞墙了”。但VLMs能做到吗？

通过移除环境提供的文本反馈（只保留视觉状态转换），所有模型的性能都出现了一致且显著的下降。这意味着，目前的VLMs极其依赖显式的文本说明来推断动作的有效性，它们几乎无法从纯粹的画面变化中推断出物理规则或约束条件（如“撞墙”、“非法移动”）。

4. 目标观测的双刃剑效应

如果在任务开始时，直接把“最终目标画面”给模型看（例如拼图的完成图），应该会降低难度。实验也证实了这一点，模型普遍表现提升。

但是，这也存在风险。在“Zoom-In Puzzle”和“Matchstick Equation”中，GPT-5和Gemini 2.5 Pro在看到目标图后，表现反而下降了。进一步分析发现，这是由于视觉误判造成的——模型错误地认为当前的初始状态已经和目标图“完全一样”了（例如Gemini 2.5 Pro在Zoom-In Puzzle中错误率为80%），从而过早终止任务。

这是一个有趣的悖论：显式的目标观察可以提高理论上限，但如果视觉感知能力不足，它反而会成为误导源。

训练与微调：如何让模型变强？

本段欲回答的核心问题： 既然现有模型表现不佳，我们能否利用VisGym生成的数据，通过监督微调（SFT）来显著提升它们在多步视觉决策中的表现？

VisGym不仅是一个考场，也是一个训练场。利用内置的神谕求解器，研究团队生成了大量的演示轨迹，并进行了监督微调实验。

1. 微调带来的巨大收益

无论是单任务微调还是混合任务微调，经过微调的模型（基于Qwen2.5-VL-7B-Instruct）在大多数任务上都达到了当时的“最先进（SOTA）”水平。这验证了两个事实：

VisGym设计的任务是可学习的。
结构化的求解器演示数据对于提升VLM的视觉交互能力极其有效。

2. 越新的模型，泛化能力越强

实验比较了Qwen2.5-VL和Qwen3-VL两个不同代际的基座模型。虽然它们都在“简单”难度的数据上训练，但在从未见过的“困难”难度测试中：

Qwen2.5-VL在困难任务上的成功率大幅下降。
Qwen3-VL虽然也在困难任务上表现下降，但幅度远小于上一代模型，成功率几乎是Qwen2.5-VL的两倍。

这表明，随着大模型架构和训练数据的进步，现代VLMs在多步视觉决策领域的分布外泛化能力正在显著增强。

3. 视觉与语言：谁更重要？

研究者试图分离“视觉编码器”和“LLM主干”的贡献。通过对比只微调视觉部分、只微调LLM部分和同时微调的结果，发现：

大多数任务从两个部分的微调中都有获益。
LLM的贡献通常更大，尤其是在那些具有部分可观测性或未知动力学的任务中。
视觉微调主要在需要精细感知的任务（如Zoom-In Puzzle）中起决定性作用。

这暗示了目前的主要瓶颈可能不在于“看不清楚”，而在于“记不住”和“理不清”。

4. 信息揭示行为：数据质量大于数量

这是本研究中最具洞察力的发现之一。在具有未知动力学或部分可观测性的环境中，并非所有的演示数据都有用。

标准数据： 只是展示了如何完成任务（例如直接走到终点）。
信息揭示数据： 故意在解决过程中展示隐藏状态。例如，在未知动力力的火柴棒旋转任务中，先试探性地做小幅度移动以了解“转多少度”的关系，然后再进行最终对齐；在部分可观测的3D心理旋转中，先完整转一圈看清物体全貌，再对齐目标。

实验结果显示，使用“信息揭示”数据进行训练，成功率从32.9%飙升至70.0%。这告诉我们：在数据稀缺或环境复杂的情况下，教会模型“如何探索”比教会模型“如何操作”更重要。

图片来源：Unsplash

总结与展望：通向通用视觉智能的路径

VisGym为我们提供了一个极其宝贵的视角，让我们看清了当前VLMs在视觉交互决策中的真实水平。尽管GPT-5和Gemini 2.5 Pro等模型在聊天和代码生成上令人惊叹，但在VisGym这面镜子前，它们暴露出了长时上下文处理能力弱、视觉感知脆弱、严重依赖文本反馈等软肋。

然而，通过系统的诊断和有针对性的微调，我们也能看到显著的性能提升。特别是“信息揭示”数据的重要性，为未来的AI智能体训练提供了新的方向：智能体不仅需要学会做事，更需要学会在未知的世界中如何通过行动来获取信息。

VisGym作为一个开源、可扩展的框架，为全球的研究人员提供了一个统一的竞技场。在这个竞技场中，我们不再是仅仅比拼谁能识别出更多的物体，而是比拼谁能像一个真正的智能体一样，在复杂、动态且部分不可知的视觉世界中，感知、记忆、思考并最终行动。

实用摘要 / 操作清单

基于VisGym的研究发现，如果您正在开发或评估视觉交互智能体，以下建议值得参考：

重视上下文管理： 不要盲目向模型投喂无限的历史图像。尝试截断过时的历史，或开发专门的记忆压缩模块，只保留与当前决策相关的关键帧。
提供必要的文本反馈： 如果你的环境允许，务必提供文本反馈（如“执行成功”、“撞墙了”）。目前的VLMs极其依赖这些线索来理解视觉变化背后的逻辑。
谨慎使用目标图： 给定目标图虽然能提供方向，但要注意视觉误判导致的反向效果。对于精细任务，确保模型具有高精度的感知能力后再引入目标观测。
优先训练LLM的推理能力： 如果计算资源有限，优先微调LLM部分（语言模型主干），因为当前的主要瓶颈往往在于对状态序列的推理而非单一的视觉特征提取。
生成“信息揭示”式的演示数据： 在准备微调数据时，不要只录“高手通关”的视频。要录那些包含“观察环境”、“试探边界”等探索性行为的轨迹。这些数据能教会模型如何处理不确定性。
关注视觉 vs 文本的模态转换： 如果你的任务是纯逻辑的，考虑将其保留在文本模态中处理，不要强制将其转化为图像，除非你非常确定模型的视觉 grounding 能力足够强。

一页速览（One-page Summary）

VisGym是什么？ 一个包含17个多样化环境（迷宫、拼图、机器人等）的测试与训练平台，专门用于评估VLM在长时、多步视觉交互任务中的表现。
核心发现： 目前最强的模型（GPT-5, Gemini 2.5 Pro）在简单任务中的成功率不到50%，在困难任务中仅约26%。
主要瓶颈：
1. 长上下文失效： 太多的历史图像会干扰模型。
2. 视觉感知脆弱： 相比于文本，视觉渲染增加了任务难度。
3. 反馈依赖： 模型无法仅凭画面变化推断物理规则，必须依赖文本说明。
训练启示：
1. SFT有效： 使用求解器生成的数据进行微调能显著提升性能。
2. 新模型泛化更强： Qwen3-VL比Qwen2.5-VL在未见过困难任务上表现更好。
3. 数据质量关键： 包含“探索”和“信息揭示”行为的演示数据，比单纯的“直接解法”数据更有价值。
结论： VisGym揭示了通向通用视觉智能的差距，并提供了一套系统的方法来诊断和弥补这些差距。

常见问答（FAQ）

Q1: VisGym与其他AI基准（如ImageNet或VideoGameBench）有什么区别？
A: ImageNet主要测试静态图像分类，VideoGameBench虽然涉及交互但多专注于特定领域。VisGym是一个跨域、统一的框架，不仅评估性能，还支持监督微调，并且专门设计用于诊断影响视觉交互决策的通用因素（如上下文长度、反馈形式）。

Q2: 为什么GPT-5在长上下文任务中表现更好？
A: 研究发现GPT-5在需要推断未知动力学（如火柴棒旋转）的任务中表现更强，且其成功轨迹往往包含更多步骤。这表明GPT-5在处理长序列信息和利用历史进行规划方面，比其他模型有更强的鲁棒性。

Q3: 为什么给模型看目标图反而会导致表现下降？
A: 这是一个视觉感知的悖论。如果模型的视觉感知精度不够，它可能会错误地判定当前的初始状态已经与目标图匹配，从而导致过早终止任务。在Zoom-In Puzzle等需要精细视觉的任务中，这种误判尤为明显。

Q4: 什么是“信息揭示”演示数据？为什么它很重要？
A: “信息揭示”数据是指那些在轨迹中故意展示隐藏状态或环境动力学信息的操作序列。例如，在移动机械臂前先试探性地动一下以了解方向，或者在旋转物体前先完整转一圈看清形状。这种数据比单纯的“直达终点”数据更能帮助模型学习如何在部分可观测或未知的环境中进行决策。

Q5: 对于开发者来说，VisGym目前最大的实用价值是什么？
A: 对于开发者而言，VisGym提供了一个现成的、高质量的、可扩展的生成式数据源（通过内置求解器）。开发者可以利用这些生成的结构化轨迹来微调自己的视觉智能体，从而在无需昂贵人工标注的情况下，显著提升模型在多步交互任务中的表现。