OpenAI Agent Mode体验：强大AI助手还是低效实习生？

高效码农

3 月前

深入体验 OpenAI 的 Agent Mode：强大助手还是谨慎实习生？

想象一下： 你刚刚雇佣了一位你见过的最聪明的实习生。他们才华横溢，充满干劲，并且极度渴望给你留下好印象。唯一的问题？他们从未使用过电脑，而且做任何事都要征求你的许可。

“我应该点击这个按钮吗？”
“我现在可以向下滚动页面了吗？”
“我找到了三种完成此任务的方法，您更喜欢哪一种？”

这就是使用 OpenAI Agent Mode 的真实感受。

它是 OpenAI 迄今为止推出的技术最复杂的工具，同时也是人类与 AI 协作仍处于“尴尬青春期”的最清晰标志。

图：OpenAI ChatGPT Agent Mode 界面示意图

Agent Mode 被设计来惊艳，它确实做到了…直到它没有

从理论上讲，Agent Mode 堪称奇迹。它不仅仅是一个聊天机器人。它是一个能够操作你的浏览器、与文件交互、自动填充复杂工作流程、并代表你发起真实世界行动的系统。

你只需告诉它执行一项任务，例如：研究竞争对手、下载数据、与定价表交叉引用、并生成一份演示文稿。它会连接 Google Drive、打开 Excel、访问 Notion，然后开始一项项地勾选任务清单。

但接着，奇怪的事情发生了。它犹豫了。它请求权限。它在基本的网页界面上磕磕绊绊。它改变路线、反复思量、并不断停下来征求你的批准。

技术本身令人印象深刻。使用体验呢？常常是令人疲惫多于带来变革。

这并非因为缺乏智能，而是源于 OpenAI 在幕后努力平衡的一种无形张力：能力与控制。

用户信任与法律风险的高空走钢丝

在幕后，OpenAI 做出了一个刻意的权衡。他们没有将 Agent Mode 设计成可以自由独立行动，而是让它在一个高度监督的环境下运行。

为什么？因为犯错的代价不再是理论上的。

随着 AI 代理具备预订航班、进行购买或发送邮件的能力，它必须像半自动驾驶汽车一样被管理：它可能驾驶得很好，但你仍然需要手放在方向盘上。一个错误的指令，一个位置不当的输入，你就可能面临真实的后果。

OpenAI 首席执行官 Sam Altman 甚至承认了一个特别有趣的风险：“提示注入攻击”（prompt injections）。有人给你发送了一条精心构造的信息，Agent Mode 打开了它，然后“砰”的一声，会话就被劫持了。

这是来自 CEO 的原话。

因此，OpenAI 没有给你一个大胆、自主的副驾驶，而是给了一个带训练轮、戴着手套、拿着对讲机、每 30 秒就要向你请示的副驾驶。

结果呢？一个能做很多事情，但几乎离不开你帮助的系统。

Agent Mode 真正发挥价值的领域

在所有吸引眼球的承诺中，Agent Mode 在一个最不起眼的领域找到了感觉：电子表格。

多年来，AI 在 Excel 周围的表现一直很笨拙。它可以解释一个基本的表格，但要生成任何公式丰富或结构特定的东西，通常都以混乱告终。这种情况终于开始改变。

Agent Mode 在数据录入、分析、公式生成、甚至跨选项卡交叉引用方面表现出令人惊讶的能力。它可以从电子邮件中提取数字，将其整理成数据透视表，并应用逻辑，其方式类似于一个初级分析师。

它不够性感，但它是真实的生产力提升。特别是对于金融、物流和运营等行业，这些领域的工作流程遵循严格的结构，可重复性就是黄金。

如果你曾经在准备一份临时的客户演示文稿的同时，还要试图协调一个包含 4 个选项卡的预算模型，那么 Agent Mode 会让你感觉像是得到了一个意想不到的升级。

缺乏直觉的“自主”

关键点在于：Agent Mode 不像人类那样进行推理。它模拟的是过程，而非目的。

它知道如何打开文件。但它不知道这是否是你想要的那份文件。
它能填写表格。但它不知道答案在上下文中是否合理。

行动与直觉之间的这种差距，在你远离结构化任务时会变得更加明显。让它去做竞争性研究，你可能会看到它打开三个浏览器标签页，生成几份摘要，然后……陷入沉默。它在等待。等什么？等你告诉它什么是“好”的结果。

与能够推断、探索、即兴发挥的人类助手不同，Agent Mode 不断地在寻求指示。

这就是为什么该系统让人感觉功能具备，却很少令人满意。它在模仿能力，却不具备判断力。它在行动，却缺乏信念。

我们获得的不仅是工具，更是训练数据集

让我们退后一步思考。为什么以这种形式发布 Agent Mode？

因为 OpenAI 不仅仅是在构建一个功能。他们正在收集训练数据。这次发布是其长期愿景的一部分，类似于特斯拉收集驾驶行为来训练其自动驾驶车队。

为了构建能够理解跨现实世界界面的多步骤任务的代理，OpenAI 需要实际使用数据。需要边界案例、错误、意外输入。他们需要你尝试使用 Agent Mode 并经历失败，这样模型才能学习本应发生什么。

换句话说：我们不仅仅是用户。我们是实验的一部分。

这本身并非坏事。这是进步的代价。但这意味着当前版本并非为取悦用户而优化，而是为观察学习而优化。

这就引出了一个关键问题：作为回报，我们得到了什么？

如果 Agent Mode 想要存在于我们的机器中、我们的文件里、以及我们的标签页之间，它应该提供的不仅仅是对未来的一瞥。它应该提供今天的实用价值。

真正的机遇所在

Agent Mode 是一个登月计划。但登月计划在进入轨道之前常常会偏离目标。

存在一个中间地带：高度专业化的代理（Hyper-specialized Agents）。

与其让一个 AI 笨拙地处理所有事情，不如让五个工具各自精通一个特定领域？

会议代理： 跨工具管理日程安排。
文档代理： 根据你的习惯格式化和归档文件。
浏览器代理： 处理表单填写、下载和特定网站的任务。

这些工具可以更快、更安全、更直观，并且对 99% 的人来说都更有用。它们可以通过专业化减少错误的可能性，并增加用户信任。

我们不需要一个“一统天下”的 AI。我们需要一个无需繁文缛节就能工作的数字工具包。

最终结论

Agent Mode 令人印象深刻。确实如此。但它也反映了 AI 仍然面临的挑战：自主性、上下文理解和用户信任。

它证明了操作计算机不仅仅是知道在哪里点击。它更在于知道为什么点击，以及当事情不按计划进行时知道该做什么。

OpenAI 在迈出大胆一步方面值得肯定。但他们也有责任向用户更清晰地描绘这个工具是什么，以及不是什么。

目前，Agent Mode 更像是一款概念车：时尚、强大、充满实验性，但尚未准备好用于你的日常通勤。

好消息是？它正朝着正确的方向前进。更好的消息是？在其影响下，许多更实用的 AI 工具正在涌现。

让我们继续推动 AI 代理的发展，让它们不仅仅是模拟智能，而是真正帮助我们更自由、更顺畅地穿梭于数字生活之中，减少那些等待行动许可的停顿时刻。

关于 OpenAI Agent Mode 的常见问题 (FAQ)

OpenAI 的 Agent Mode 是什么？
- Agent Mode 是 OpenAI 在 ChatGPT 中引入的一种高级功能模式。它超越了传统聊天机器人的范畴，能够代表用户操作计算机界面（如浏览器、文件系统、应用程序），执行多步骤、跨平台的实际任务，例如研究信息、处理数据、生成报告等。
使用 Agent Mode 的真实体验如何？
- 体验被描述为“像是在指导一个极其聪明但从未用过电脑的实习生”。它技术能力强大，能处理复杂流程，但需要频繁向用户请求操作许可（如“能点击这个吗？”、“能滚动吗？”、“哪个方法更好？”），导致体验有时显得中断和不够流畅。
为什么 Agent Mode 需要这么多权限确认？
- 主要源于 OpenAI 在“能力”与“控制/安全”之间的谨慎权衡。由于 Agent Mode 能执行具有真实后果的操作（如预订、购物、发邮件），OpenAI 优先考虑了风险控制，防止错误操作或被“提示注入”等攻击利用。这使其运行在高度监督模式下。
Agent Mode 目前最擅长做什么？
- 处理电子表格（如 Excel） 是其当前最突出的优势领域。它能有效执行数据录入、分析、复杂公式生成、跨表格引用等任务，显著提升财务、物流、运营等依赖结构化数据处理行业的效率。
Agent Mode 的主要局限性是什么？
- 缺乏人类直觉和判断力： 它能执行操作流程，但不理解操作的深层目的或上下文含义（例如，能打开文件但不确定是否用户想要的文件，能填表但不知答案是否合理）。
- 依赖明确指令： 在非结构化或开放性任务（如市场调研）中，它容易因等待用户定义“成功标准”而停滞，无法像人类助理那样主动推断、探索或即兴发挥。
- 自主性受限： 当前的“高度监督”模式极大地限制了其独立完成任务的能力，用户体验常被频繁的确认请求打断。
OpenAI 推出 Agent Mode 的主要目的是什么？
- 除了提供新功能，收集真实世界的训练数据是核心目标。用户的使用行为、遇到的边界案例、错误和意外输入，都是训练未来更强大、更自主的 AI 代理所必需的“燃料”。用户实质上在参与一个大型实验。
Agent Mode 是未来的方向吗？
- 它代表了迈向“AI 代理”的重要一步，展示了潜力。但当前形态（通用但需高度监督）可能并非最终答案。未来更可能的方向是发展 多个高度专业化（Hyper-specialized）的 AI 工具，各自在特定领域（会议管理、文档处理、浏览器操作等）做到精通、快速、安全且用户信任度高。
Agent Mode 现在值得日常使用吗？
- 它更像一个“概念验证”或“实验性工具”。对于处理复杂、结构化数据任务（尤其是电子表格）的用户，它能带来切实的效率提升。但对于期望一个完全自主、能处理各种开放式任务的“AI 副驾驶”的用户来说，其频繁的确认需求和当前局限性可能会让体验低于预期。它展示了未来，但尚未完全实现。