Gemini 3 Flash 中的 Agentic Vision:视觉推理与代码执行如何重新定义图像理解

在人工智能领域,尤其是大型视觉模型的发展过程中,我们长期面临着一个基础的挑战:模型通常以静态、单一的方式“看”世界。它们就像是在快速浏览一张照片,如果错过了微小的细节——比如微芯片上的序列号、远处的路标,或者是建筑图纸上的特定线条——它们就只能依靠猜测来填补空白。

这种“一瞥即知”的处理方式,在面对需要极高精度和复杂逻辑推理的任务时,往往会显露疲态。然而,随着 Gemini 3 Flash 的发布,一项名为 Agentic Vision(代理视觉) 的新能力正在改变这一现状。它不仅仅是在“看”图片,而是在“调查”图片。

本文将深入探讨 Agentic Vision 的工作原理、核心机制、实际应用场景以及如何通过代码执行这一关键工具,将图像理解从静态的感知转化为动态的、基于证据的推理过程。

什么是 Agentic Vision?

Agentic Vision 是 Gemini 3 Flash 中引入的一项前沿能力,它彻底改变了模型处理和理解图像的方式。传统的视觉模型大多是被动的观察者,而 Agentic Vision 则将视觉处理转变为一个主动的、代理式的过程。

从静态感知到主动调查

传统模型在处理图像时,通常是一次性处理整个图像的像素数据。这种方法虽然高效,但在处理高分辨率图像或捕捉细微细节时存在局限性。如果关键信息在图像中占比较小,模型很容易忽略。

Agentic Vision 的核心思想是将视觉视为一种“主动调查”。它不再满足于对图像进行一次性的整体扫描,而是通过结合视觉推理代码执行,让模型能够制定计划,逐步对图像进行缩放、检查和操作。这意味着模型可以根据需要,自主决定“凑近看”某个区域,或者通过旋转图像来获得更好的视角,从而将答案建立在确凿的视觉证据之上。

核心提升:质量与准确度

根据测试数据,在 Gemini 3 Flash 中启用代码执行功能后,在大多数视觉基准测试中实现了 5% 到 10% 的质量提升。这并不是微不足道的改进,而是通过引入确定性的计算和主动的视觉交互,显著降低了模型的“幻觉”风险,提高了回答的可靠性。

Agentic Vision 的工作机制:Think, Act, Observe 循环

Agentic Vision 的强大之处在于它引入了一个类似智能体的循环过程,称为“Think, Act, Observe”(思考、行动、观察)。这一循环将图像理解任务分解为三个明确的步骤,确保每一个结论都有据可依。

1. Think(思考):分析与规划

当用户提出一个问题并上传一张图片时,模型首先进入“思考”阶段。在这个阶段,模型会深入分析用户的查询意图以及初始图像的内容。

这不仅仅是简单的识别,而是一个复杂的规划过程。模型会思考:


  • 用户的真正需求是什么?

  • 图像中哪些区域可能与答案相关?

  • 是否需要对图像进行预处理才能看清细节?

  • 是否需要进行数学计算来验证某种假设?

基于这些分析,模型会制定一个多步骤的计划。例如,如果用户询问电路板上的某个组件,模型可能会计划先定位该组件,然后裁剪出该区域的特写,最后识别上面的文字。

2. Act(行动):代码生成与执行

“行动”阶段是 Agentic Vision 与传统模型最大的区别所在。在这个阶段,模型不再局限于生成文本描述,而是会生成并执行 Python 代码

通过代码执行这一工具,模型可以主动地对图像进行各种操作,包括但不限于:


  • 裁剪:提取图像中的特定区域。

  • 旋转:调整图像角度以获得最佳观测视角。

  • 标注:在图像上绘制边界框、箭头或文字注释。

  • 计算:对图像中的数据进行分析、统计或数学运算。

这种能力让模型具备了“动手”的能力,而不仅仅是“动口”。它不再只是描述“我看到一个数字”,而是通过代码运行,精确地定位并处理那个数字所在的区域。

3. Observe(观察):上下文更新与再分析

在模型执行代码并生成新的、经过处理的图像(例如裁剪后的特写图)后,这些新的图像数据会被追加到模型的上下文窗口中。

上下文窗口是模型的“短期记忆”。通过将这些处理后的图像加入记忆,模型现在可以“观察”到全新的数据。这些数据带有更好的上下文信息,排除了背景噪音的干扰。模型会基于这些更清晰的证据,进行最终的分析并生成回应。

这个过程可能会在 Think-Act-Observe 循环中重复多次,直到模型确信已经找到了足够确凿的证据来回答用户的问题。

Agentic Vision Text

实际应用场景:Agentic Vision 在行动

通过在 API 中启用代码执行,开发者已经解锁了许多前所未有的行为。从大型产品到初创公司,各行各业都在利用这一能力解决实际问题。以下是几个典型的应用案例。

1. 放大与细节检查:建筑图纸验证

在处理高分辨率输入时,Gemini 3 Flash 被训练为能够隐式地进行缩放以检测细粒度的细节。

案例:PlanCheckSolver.com

PlanCheckSolver.com 是一个 AI 驱动的建筑平面图验证平台。在处理复杂的建筑图纸时,即使是微小的误差也可能导致严重的合规问题。该平台通过启用 Gemini 3 Flash 的代码执行功能,使其能够迭代地检查高分辨率输入,从而将准确率提高了 5%。

工作流程分析:

  1. 输入:一张巨大的建筑平面图。
  2. Think:模型分析需要检查屋顶边缘是否符合建筑规范。
  3. Act:模型生成 Python 代码,专门裁剪出“屋顶边缘”或特定建筑部分的图像块。
  4. Observe:这些裁剪下来的新图像被送回模型的上下文中。
  5. 验证:模型现在拥有了清晰的局部特写,可以逐像素地检查线条和标注,确认其是否符合复杂的建筑规范。

这种“分而治之”的策略,让模型在处理超大图像时,既能保持宏观的视野,又能具备微观的精度。

2. 图像标注:视觉草稿本

Agentic Vision 允许模型通过标注图像来与其环境进行交互。这不仅仅是描述它看到了什么,而是直接在画布上绘制,将其推理过程可视化。

案例:计算手指数量

在 Gemini 应用中,如果一个简单的任务是“数一下手上有几根手指”,传统的模型可能会因为手指重叠或光线问题而出错。但是,启用 Agentic Vision 后,过程变得完全不同。

工作流程分析:

  1. 识别:模型识别出图像中的手部。
  2. Act:为了避免计数错误,模型执行 Python 代码,在它识别出的每一根手指周围绘制边界框,并标记上数字标签(如 1, 2, 3…)。
  3. Visual Scratchpad(视觉草稿本):这张带有标记的图像就像是一个草稿本。模型通过它来验证自己的计数逻辑。
  4. 结果:最终的答案不再是瞎猜,而是基于像素级完美理解的确切计数。

这种方法极大地增强了任务的可解释性。用户不仅得到了结果,还能看到模型是“如何”得出结果的。

3. 视觉数学与绘图:从表格到图表

标准的大型语言模型(LLM)在进行多步骤的视觉算术时,经常会出现“幻觉”——也就是凭空捏造数字或计算结果。Agentic Vision 通过将计算卸载到确定性的 Python 环境,巧妙地绕过了这个问题。

案例:高密度表格数据可视化

面对一张包含高密度数据的表格,模型需要从中提取数据并生成图表。

工作流程分析:

  1. 提取:模型从图像中识别原始数据。
  2. Act:模型编写 Python 代码,将提取的数据进行标准化处理(例如,将最先进技术的数值归一化为 1.0)。
  3. 绘图:代码调用专业的绘图库(如 Matplotlib)生成条形图。
  4. 验证:生成的图表是数据驱动的直接结果,而不是概率性的猜测。

这个过程将“概率性的猜测”替换为了“可验证的执行”。无论是财务报表分析还是科学实验数据记录,这种能力都确保了结果的准确性和专业性。

Agentic Vision 的技术优势与未来展望

技术优势总结

为了更直观地理解 Agentic Vision 带来的变化,我们可以通过以下表格对比传统静态视觉与 Agentic Vision 的区别:

特性 传统静态视觉 Agentic Vision (代理视觉)
观察方式 被动、一次性整体扫描 主动、多步骤迭代调查
细节处理 容易忽略微小细节,依赖猜测 通过代码裁剪、放大,主动聚焦细节
工具使用 仅依靠内参权重进行推理 集成 Python 代码执行,进行计算和绘图
准确性 存在幻觉风险,尤其在复杂数学上 基于确定性计算,证据确凿
交互性 仅输出文本描述 可输出标注后的图像、图表等

未来的发展方向

尽管 Agentic Vision 已经展现出了强大的能力,但这仅仅是一个开始。根据技术路线图,未来的更新将集中在以下几个方向:

  1. 更多隐式的代码驱动行为
    目前,Gemini 3 Flash 在需要检测微小细节时,已经非常擅长隐式地决定何时“放大”。然而,对于其他一些能力,比如旋转图像或执行视觉数学运算,目前可能还需要用户在提示词中显式地给予指示才能触发。

    目标:未来的更新将致力于让这些行为变得完全“隐式”。模型将能够自主判断何时需要旋转图片,或者何时需要进行计算,而无需用户明确告知。

  2. 更多工具的集成
    目前主要支持的是 Python 代码执行环境。未来,计划为 Gemini 模型配备更多工具。

    目标:探索集成网页搜索和反向图片搜索等工具。这将进一步增强模型对世界的理解能力,使其不仅限于图像本身的内容,还能结合外部知识库来验证和补充视觉信息。

  3. 支持更多模型尺寸
    目前 Agentic Vision 主要是在 Flash 版本上推出。

    目标:计划将这一能力扩展到其他不同尺寸的模型中,让不同算力需求和不同应用场景的用户都能享受到代理视觉带来的好处。

如何开始使用 Agentic Vision

对于开发者和普通用户来说,Agentic Vision 并不是一个遥远的概念,它今天就已经可用。无论是通过 API 还是直接在应用中使用,都非常便捷。

1. 对于开发者:API 集成

开发者可以通过两个主要平台访问 Agentic Vision:


  • Google AI Studio

  • Vertex AI

在 API 调用中,关键在于启用代码执行功能。一旦启用,模型就会根据任务难度,自动决定是否使用 Python 代码来辅助图像理解。

开发文档与资源:


  • Google AI Studio 提供了详细的开发者文档,指导如何在处理图像时开启代码执行。

  • Vertex AI 用户可以查阅相应的开发文档

2. 对于普通用户:Google AI Studio Playground 与 Gemini 应用

如果你不是开发者,只是想体验这项技术,可以通过以下方式:

方法一:AI Studio Playground

这是一个非常直观的实验环境。

  1. 访问 Google AI Studio 的 Prompts/New Chat 页面。
  2. 在模型选择栏中,选择 gemini-3-flash-preview
  3. 找到 Tools(工具) 设置区域。
  4. 开启 “Code Execution”(代码执行) 开关。
  5. 上传一张图片并提问,观察模型是否会自动运行代码来分析图片。

方法二:Gemini 应用(移动端或网页版)

Agentic Vision 功能正在逐步推送到 Gemini 应用中。

  1. 打开 Gemini 应用。
  2. 在模型选择下拉菜单中,选择 “Thinking”(思考) 模式。
  3. 在此模式下,你可以尝试上传复杂的图片进行提问,体验模型背后的推理过程。

3. 体验 Demo

为了直观展示 Agentic Vision 的能力,官方提供了一个 Demo 应用。在这个 Demo 中,你可以亲眼看到模型如何生成代码来裁剪图片、绘制图表,并将这些步骤可视化。


常见问题解答 (FAQ)

以下是一些关于 Gemini 3 Flash Agentic Vision 的常见问题及详细解答。

Q: Agentic Vision 仅能处理照片吗?
A: 不完全是。虽然示例中提到了照片,但 Agentic Vision 同样适用于数字文档、图表、手绘草图以及建筑平面图等多种形式的视觉输入。只要是可以进行像素分析和逻辑推理的图像,它都能处理。

Q: 启用代码执行会让响应速度变慢吗?
A: 由于 Agentic Vision 涉及到一个“Think-Act-Observe”的循环,并且包含代码的生成和执行过程,相比于单纯的静态图像识别,其处理时间可能会稍长。然而,这种时间上的投入是为了换取更高准确性和更可靠的结果,特别是在复杂任务中。

Q: 我需要懂编程才能使用这个功能吗?
A: 对于终端用户而言,不需要。模型会自动生成和执行 Python 代码。你只需要上传图片并提问,模型会在后台处理所有复杂的代码逻辑。当然,如果你是开发者,通过 API 调用时需要正确配置相关参数。

Q: 如果模型生成的代码是错的怎么办?
A: 模型具备自我修正的能力。在“Observe”阶段,如果生成的图像或计算结果不符合预期,模型可以再次进入“Think”阶段,调整代码并重新执行,直到获得满意的结果。这种迭代机制大大提高了最终结果的正确率。

Q: 为什么在建筑图纸验证中,Agentic Vision 能提高准确率?
A: 建筑图纸通常分辨率极高且细节密集。静态模型容易迷失在细节中。Agentic Vision 通过代码将大图切割成小块(如检查屋顶边缘),让模型像人类专家一样逐个部位进行精细化检查,从而避免了遗漏关键违规点。

Q: 视觉数学功能是如何避免幻觉的?
A: 标准模型进行数学运算时,是基于语言概率预测下一个数字,容易出错。Agentic Vision 则是将图像中的数据提取出来,直接交给 Python 环境进行确定的数学运算(如加减乘除、归一化)。Python 的计算结果是基于逻辑而非概率的,因此消除了数学幻觉。

Q: 如何在 Vertex AI 中找到这个功能的文档?
A: 你可以查阅 Vertex AI 的生成式 AI 文档中关于“Multimodal Code Execution”的部分,其中包含了具体的配置示例和最佳实践指南。

Q: 什么是“Visual Scratchpad”(视觉草稿本)?
A: 这是指模型在执行代码过程中生成的中间图像,例如带有标注框的手部图片。这些草稿本图像帮助模型“可视化”其思考过程,确保它理解的内容是正确的,同时也让用户能看到模型的推理路径。

结语

Agentic Vision 的引入,标志着 AI 视觉理解能力从“感知”向“认知”的重要跨越。通过将视觉推理与代码执行相结合,Gemini 3 Flash 不再仅仅是一个能够描述图像的观察者,而是一个能够主动分析、验证并解决问题的智能代理。

无论是检查建筑合规性的微小细节,还是在复杂的表格中进行精确的数据可视化,Agentic Vision 都展示了 AI 在处理现实世界复杂任务时的巨大潜力。随着更多工具的集成和模型的不断迭代,我们有理由相信,这种基于证据的、主动式的视觉智能将成为未来 AI 应用的标准配置。