Claude Opus 4.7 更新:视觉处理能力提升三倍,生产任务完成量翻三倍

2024 年 4 月 16 日,Anthropic 将 Claude Opus 从 4.6 版本升级到 4.7。官方定位是“通用可用的小版本迭代”。但仔细看更新文档会发现,这次升级在多个维度上都有实质性的变化,尤其对开发者和需要处理复杂视觉信息的用户来说,影响可能比想象中更大。

Claude Opus 4.7 更新示意图

视觉处理:从“传不了”到“直接传”

Claude Opus 4.7 在视觉能力上的提升最直观。以前版本处理图片时,长边像素限制在 800 左右,遇到稍微复杂一点的图表、技术原理图或者产品界面截图,往往需要先手动压缩或裁剪才能传给模型。4.7 版本把这个上限拉高到了长边 2576 像素,换算下来大约是 3.75 兆像素,是之前的三倍多。

这个数字意味着什么?举个具体场景:化学结构图中常有密集的原子标记和键连接关系,低分辨率下模型可能看不清取代基的位置;技术原理图里的多层电路走线、产品界面的小字号标注,以前传给模型基本等于“盲猜”,现在可以直接上传原图。Anthropic 没有在官方文档里单独列出这类场景的准确率提升数据,但从像素容量翻三倍这个基础来看,模型能接收的信息量已经不可同日而语。

简单来说:你不再需要为了适配模型而牺牲图片质量。拍一张高清产品界面截图,或者扫描一页技术手册里的原理图,直接丢给 Claude Opus 4.7,它能看到的细节和你能看到的差不多。

代码能力:真实生产任务完成量翻三倍

代码这块的数据更值得关注。Anthropic 在 93 个编码任务基准上做了测试,Claude Opus 4.7 的解决率比 4.6 版本高了 13%。13% 属于常规升级的范畴,不算惊人。但另一个数字就有点意思了——在真实生产任务里,4.7 能完成的活儿是 4.6 的三倍。

这里的关键词是“真实生产任务”。基准测试是标准化的、有限的题目,而生产任务包含各种意外情况:代码库里的历史遗留问题、跨文件的不一致命名、边界条件没处理好的第三方依赖……小版本升级能在这个维度上跑出三倍的差距,说明模型在处理复杂、长上下文、非理想条件下的任务时,有了质的改变。

自我验证:写代码不再“跑偏”

4.7 在长任务一致性上的改进可以解释为什么生产任务完成率提升这么大。以前的版本让你写一个跨多个文件的项目,比如一个带后端接口的前端组件加数据库迁移脚本,模型跑到一半可能就开始偏离原始需求,或者重复造轮子——明明前面已经定义了一个工具函数,后面又自己重新写一遍。

4.7 在生成过程中加入了自我验证步骤。它写完一段代码后,会回头检查这段代码是否与之前的逻辑一致,是否符合用户最初的要求,然后自己决定要不要修改。这个机制看起来简单,但对长上下文任务的影响很大。你可以理解为模型在生成过程中多了一个“内部审稿人”,不是写完就完事,而是边写边审。

指令跟随:变得更“字面”,老 prompt 可能失效

这次升级有一个容易被忽略但影响面很广的变化:Claude Opus 4.7 对指令的理解变得更字面了。你说什么,它就做什么,不会自己多脑补一层。

举个例子,以前你写“总结这篇文章的主要观点”,模型可能会自动加上“用三段话、每段不超过 50 字”之类的格式约束,因为它从训练数据里学会了“总结”通常附带这些要求。现在你只说“总结这篇文章的主要观点”,它可能真的只给你一个简单的列表或几句话,不会主动做格式美化、去重、分类等额外操作。

这个变化对老用户来说是个坑。如果你现有的 prompt 依赖了模型之前的“自由发挥”空间,比如你只写了大概方向,默认模型会帮你补齐细节,那么换到 4.7 后,输出结果可能变得过于简略或不符合预期。Anthropic 官方文档里专门提了一句:建议用户重新调整现有的 prompt。这在大模型厂商的更新说明里不常见,通常他们更倾向于强调“向下兼容”。这次特意提醒,说明变化确实不小。

如何调整你的 prompt?

如果你原来用的是比较简短的指令,比如“分析这段代码的性能问题”,现在可以改成更具体的版本:“逐行分析以下代码,找出时间复杂度高于 O(n) 的循环,对每个问题给出优化建议,用列表形式输出。” 把你想让模型做的每一步都写清楚,而不是留给它自己猜。

价格没变,但实际成本可能上涨

Claude Opus 4.7 的 API 定价和 4.6 保持一致:输入 5 美元每百万 token,输出 25 美元每百万 token。API 里的模型标识符是 claude-opus-4-7

但是,有两件事会让你的实际账单发生变化。

第一件事:tokenizer 更新了

Tokenizer 是把文本切成 token 的工具。4.7 版本换了新的 tokenizer,同样的文本切出来的 token 数量会变多。官方给出的范围是原来的 1 到 1.35 倍。也就是说,以前你发一段 1000 个 token 的输入,现在可能需要 1000 到 1350 个 token。输入和输出都会受这个影响。

第二件事:effort 拉高后输出更长

4.7 新增了一个 xhigh effort 级别(后面会详细说)。如果你把这个级别拉高,模型会进行更深度的推理,输出内容通常也更长。输出 token 数量增加,直接乘以 25 美元每百万 token 的单价,单次调用的成本就上去了。

这两个因素叠加在一起:tokenizer 让基础消耗增加 0% 到 35%,xhigh 让输出进一步拉长。价格没变是事实,但消耗量上涨也是事实。如果你在生产环境里使用,建议先跑一小批实际任务,对比 4.6 和 4.7 的单次调用平均成本,不要只看官方报价。

新增的工具链选项:给开发者准备的四个新东西

Anthropic 这次在工具链上做了不少加法。如果你是开发者或者经常调用 API,下面四个新增功能值得了解。

1. effort 级别新增 xhigh

之前的 effort 级别有三个档位:lowmediumhigh。4.7 在最高档上面再加了一档 xhigh。推理深度更大,延迟也更高。适合那些你需要模型仔细思考、反复验证的复杂任务,比如数学证明、多步骤逻辑推理、大型代码重构。如果你的任务比较简单,用 highmedium 就够了,没必要每次都拉满。

各 effort 级别的适用场景对比:

effort 级别 适用场景 延迟 输出长度
low 简单问答、分类、提取 最低 较短
medium 常规对话、摘要 中等 中等
high 复杂分析、代码生成 较高 较长
xhigh 数学证明、深度推理、大型重构 最高 最长

2. task budget:事前控制 token 消耗

以前你只能等任务跑完看账单,才知道花了多少 token。4.7 的 task budget 功能(目前是公测版)允许你事前设定一次任务最多消耗多少 token。这对于预算敏感的生产环境很实用。比如你设置一个任务的上限是 5000 个 token,模型会在接近上限时自动收束,不会超支。

3. /ultrareview:独立的代码审查模式

这个功能集成在 Claude Code 里。以前你想让 Claude 做代码审查,需要自己写一个长长的 prompt,告诉它“请检查代码中的安全漏洞、性能问题、代码规范……”。现在有一个独立的入口 /ultrareview,专门跑代码审查任务。它会自动应用一套优化的审查策略,不需要你自己设计 prompt。审查的深度和广度都比通用模式更聚焦。

4. Auto mode:长任务自动决策

Auto mode 这次对 Max 用户开放。遇到长任务时,模型可以自己决定下一步该做什么,不需要你每一步都点确认。比如你让它“爬取这个网站的前三层链接并提取每个页面的标题和 meta 描述”,以前模型可能会每爬完一页就停下来问“是否继续?”。现在它可以自动判断继续爬取,直到完成任务或遇到需要人工介入的异常。这对手动调参爱好者来说可能少了一些控制感,但对批量处理任务来说效率提升明显。

安全方面:有升有降,如实公布

Claude Opus 4.7 在安全维度上的表现和 4.6 整体持平,但内部有涨有跌。

提升的方面:

  • 诚实度:模型在不确定时更倾向于说“不知道”,而不是强行编造。
  • 对 prompt injection 的抵抗力:恶意指令注入攻击的成功率降低。

持平的方面:

  • 欺骗率:模型主动撒谎或误导的概率没有明显变化,维持在较低水平。
  • 谄媚率:模型为了迎合用户而改变答案的倾向也没有恶化。

下降的方面:

  • 有几个关于“减害”(harm reduction)的细分场景里,4.7 的表现比 4.6 弱了一点。Anthropic 在发布说明里如实列出了这些场景的具体名称和测试数据,没有掩饰。这种写法在大厂里很少见,大多数公司会选择只说提升的部分,或者用模糊的措辞带过弱点。

另外,Claude Opus 4.7 与 Project Glasswing 那套系统联动,会自动拦截高风险的网络安全类请求,比如自动生成漏洞利用代码、指导绕过安全措施等。如果你在做正经的安全研究(不是恶意攻击),可以通过 Anthropic 的 Cyber Verification Program 申请例外访问。

常见问题

Claude Opus 4.7 和 4.6 的核心区别是什么?

视觉处理能力提升三倍(长边像素从约 800 增加到 2576);真实生产任务完成量提升三倍;指令跟随变得更字面;新增 xhigh effort 级别、task budget 公测、/ultrareview 代码审查模式、Auto mode 对 Max 用户开放;tokenizer 更新导致同样文本切出的 token 数增加。

我的现有 prompt 需要调整吗?

需要。4.7 对指令的理解更字面,不会主动“脑补”你省略的细节。如果你之前的 prompt 比较简短,依赖模型的自动补全,建议改成更具体、更步骤化的写法。Anthropic 官方也明确建议用户重新调整 prompt。

升级后我的 API 账单会变高吗?

价格没变,但实际成本可能上涨。原因有二:新 tokenizer 让同样文本消耗的 token 数增加 0-35%;如果使用 xhigh effort 级别,输出会更长。建议在生产环境切换前先跑测试对比实际成本。

什么场景适合用 xhigh effort?

数学证明、多步骤逻辑推理、大型代码重构、需要深度验证的复杂任务。简单问答或常规对话用 low 或 medium 就够了,用 xhigh 会增加不必要的延迟和成本。

/ultrareview 和普通代码审查有什么区别?

/ultrareview 是 Claude Code 里的独立模式,专门为代码审查优化。它会自动应用一套针对安全漏洞、性能问题、代码规范的检查策略,不需要你自己写 prompt。比通用模式更聚焦,审查深度也更高。

Auto mode 是什么?谁可以用?

Auto mode 让模型在长任务中自动决定下一步操作,不需要每一步都等用户确认。目前对 Max 用户开放。适合批量处理、爬取、多步骤转换等场景。

tokenizer 更新对我有什么实际影响?

同样一段文本,在 4.7 版本中会被切成更多 token。输入和输出都受影响。如果你之前对 token 消耗有精确的预算控制,切换后需要重新测算。

Claude Opus 4.7 更安全了吗?

整体持平,但内部有升有降。诚实度和对 prompt injection 的抵抗力提升,有几个减害细分场景的表现略有下降。Anthropic 在发布说明中如实披露了这些下降。

总结:两个方向上的升级

这次更新可以拆成两个方向来看。

第一个方向:性能提升,直接面向终端用户。视觉能力翻三倍,真实生产任务完成量翻三倍,长任务一致性因为自我验证机制而明显改善。这些是你不需要关心技术细节就能感受到的区别——传图更清晰、代码更靠谱、长项目不容易跑偏。

第二个方向:工具链丰富,主要面向开发者。xhigh effort 给复杂任务多了一个高深度选项;task budget 让你能事前控制成本;/ultrareview 让代码审查有了独立入口;Auto mode 让长任务自动化程度更高。这些功能围绕一个核心问题:怎么让你用得更顺、更可控。

一个小版本迭代,同时照顾到了普通用户和开发者,这在模型更新节奏里并不常见。如果你正在用 Claude Opus 4.6,可以先在非生产环境里试试 4.7,重点测试两件事:你的 prompt 是否需要调整,以及实际成本的变化幅度。这两个变量确认之后,再决定什么时候正式切过去。