WebWatcher：突破视觉-语言深度研究智能体的新前沿

WebWatcher 标志

你是否曾经希望有一个助手，不仅能看懂图片，还能像人一样进行多步骤推理、使用各种工具，甚至在互联网上主动搜集信息？这听起来像是科幻小说中的情节，但今天，我们要介绍的 WebWatcher，正是这样一个真正意义上的多模态智能体。

它不仅仅是又一个“看图说话”的AI，而是一个具备高级视觉-语言推理能力和多工具交互能力的深度研究助手。不论你是研究者、工程师，还是对人工智能前沿应用感兴趣的普通用户，理解WebWatcher的工作原理和强大能力，都将帮助你更好地把握AI发展的脉搏。

什么是WebWatcher？

WebWatcher是一个多模态智能体，专门为深度研究任务而设计。所谓“多模态”，指的是它能同时理解和处理图像和文本信息；而“智能体”则意味着它不只是被动地回答问题，还能够主动规划、使用工具、执行多步操作，最终完成复杂的任务。

想象一下，当你面对一张复杂的图表或一个真实世界中的场景图片时，你可能不仅需要理解图片中有什么，还需要进一步查询相关信息、进行推理、甚至写代码来分析数据——WebWatcher就是为了完成这类任务而诞生的。

WebWatcher 主示意图

WebWatcher的三大核心突破

1. 全新的评测基准：BrowseComp-VL

要推动一个领域的发展，首先需要一套能够准确衡量技术水平的“考题”。为此，研究团队提出了一个新的基准测试：BrowseComp-VL。

这个基准测试专注于评估多模态智能体的深度推理和战略规划能力。与传统的视觉问答数据集不同，BrowseComp-VL中的任务更加复杂，更贴近真实世界中的信息需求。它要求智能体不仅能够“看到”图像内容，还要知道如何主动搜集信息、整合知识，最终做出决策。

数据分布示意图

2. 自动化的轨迹生成 pipeline

训练一个能使用多种工具的智能体，最大的挑战之一是如何获得高质量的训练数据。WebWatcher采用了一种创新的方法：通过自动化管道生成多步推理轨迹。

这些轨迹模拟了人类在使用工具时的决策过程，包括何时进行网页搜索、何时访问页面、何时调用代码解释器等。这些数据不仅用于模型的初步训练，还进一步通过强化学习进行优化，使WebWatcher的工具使用更加精准和高效。

WebWatcher可以使用的工具包括：

网页图像搜索
网页文本搜索
网页访问
代码解释器
内置OCR工具

数据流程示意图

3. 卓越的性能表现

WebWatcher在多个具有挑战性的视觉问答基准测试中都展现出了领先的性能，包括：

Humanity’s Last Exam (HLE)-VL：专注于多步复杂推理
BrowseComp-VL：综合性的视觉-语言推理挑战
LiveVQA：面向实时视觉问答
MMSearch：多模态信息检索任务

具体来说，WebWatcher-32B模型在HLE上平均得分为18.2%，超过了基于GPT-4o的OmniSearch基线。在LiveVQA和MMSearch上，它分别达到了58.7%和55.3%的得分，展现了在真实世界视觉搜索任务中的稳定性和优越性。

WebWatcher 性能详解

WebWatcher 性能总览

1. 复杂推理能力（HLE-VL）

在针对多步复杂推理的HLE-VL基准测试中，WebWatcher以13.6%的Pass@1得分领先，显著超过了GPT-4o（9.8%）、Gemini2.5-flash（9.2%）和Qwen2.5-VL-72B（8.6%）等代表性模型。

2. 信息检索能力（MMSearch）

在MMSearch评估中，WebWatcher的检索准确率达到了55.3%，远超Gemini2.5-flash（43.9%）和GPT-4o（24.1%），显示出在复杂场景中卓越的检索精度和信息整合能力。

3. 知识与检索的整合（LiveVQA）

在LiveVQA基准测试中，WebWatcher取得了58.7%的Pass@1得分，优于Gemini2.5-flash（41.3%）、Qwen2.5-VL-72B（35.7%）和GPT-4o（34.0%）。

4. 信息优化与聚合（BrowseComp-VL）

在最具综合挑战性的BrowseComp-VL测试中，WebWatcher以平均27.0%的得分占据主导地位，性能是主流模型的两倍以上，包括GPT-4o（13.4%）、Gemini2.5-flash（13.0%）和Claude-3.7（11.2%）。

如何开始使用 WebWatcher？

如果你对WebWatcher感兴趣，并希望亲自体验它的强大功能，可以按照以下步骤进行操作。

步骤一：下载模型

你可以通过Hugging Face平台下载WebWatcher模型：

🤗 HuggingFace 下载地址

步骤二：数据准备

在运行推理之前，需要将测试集图像下载到infer/scripts_eval/images文件夹中。可以通过运行infer/scripts_eval/download_image.py脚本完成这一操作。

如果从提供的OSS网址下载图像时遇到问题，你可以从原始数据集源获取图像，并手动放入对应的文件夹中。

步骤三：运行推理

运行infer/scripts_eval/scripts/eval.sh脚本，需要提供以下参数：

参数名	说明
`benchmark`	要测试的数据集名称。可选值：`'hle'`, `'gaia'`, `'livevqa'`, `'mmsearch'`, `'simplevqa'`, `'bc_vl_v1'`, `'bc_vl_v2'`
`EXPERIMENT_NAME`	用户定义的实验名称
`MODEL_PATH`	训练模型的路径
`DASHSCOPE_API_KEY`	GPT API密钥
`IMG_SEARCH_KEY`	Google SerpApi密钥（用于图像搜索）
`JINA_API_KEY`	Jina API密钥
`SCRAPERAPI_KEY`	Scraper API密钥
`QWEN_SEARCH_KEY`	Google SerpApi密钥（用于文本搜索）

注意：如果需要在图像搜索后上传图片到OSS，还需提供以下参数：

ALIBABA_CLOUD_ACCESS_KEY_ID：阿里云OSS访问密钥ID
ALIBABA_CLOUD_ACCESS_KEY_SECRET：阿里云OSS访问密钥秘密

步骤四：评估结果

运行infer/vl_search_r1/pass3.sh脚本，使用LLM-as-judge方法评估Pass@3和Pass@1指标。需要提供以下参数：

DIRECTORY：包含推理生成的JSONL文件的文件夹路径
DASHSCOPE_API_KEY：GPT API密钥

常见问题解答

WebWatcher 是什么？

WebWatcher是一个多模态智能体，具备先进的视觉-语言推理能力和多工具交互功能，专为深度研究任务而设计。

WebWatcher 与传统的视觉问答系统有什么不同？

传统视觉问答系统通常只能基于给定的图像和文本回答问题，而WebWatcher能够主动使用多种工具（如网页搜索、代码解释器等）进行多步推理和信息搜集，更像一个人类研究助手。

WebWatcher 在哪些任务上表现优异？

WebWatcher在多个挑战性基准测试中都表现出色，特别是在需要复杂推理、信息检索和知识整合的任务上，如HLE-VL、BrowseComp-VL、LiveVQA和MMSearch。

如何在本地运行 WebWatcher？

你需要先下载模型，准备测试数据，然后按照提供的脚本运行推理和评估。具体步骤参见上面的“如何开始使用WebWatcher”部分。

WebWatcher 需要使用哪些API密钥？

运行WebWatcher需要多种API密钥，包括DashScope API密钥、Google SerpApi密钥（用于图像和文本搜索）、Jina API密钥和Scraper API密钥。如果需要上传图像到OSS，还需要阿里云OSS访问密钥。

引用方式

如果你觉得WebWatcher对你有帮助，请在研究中引用以下论文：

@article{geng2025webwatcher,
  title={WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent},
  author={Geng, Xinyu and Xia, Peng and Zhang, Zhen and Wang, Xinyu and Wang, Qiuchen and Ding, Ruixue and Wang, Chenxi and Wu, Jialong and Zhao, Yida and Li, Kuan and others},
  journal={arXiv preprint arXiv:2508.05748},
  year={2025}
}

结语

WebWatcher代表了多模态智能体发展的一个新方向，它不仅在技术上有重大突破，更重要的是为构建真正实用的人工智能研究助手提供了可行的路径。随着技术的不断成熟，我们有理由相信，这类智能体将在科学研究、数据分析、知识发现等领域发挥越来越重要的作用。

无论你是研究者、开发者，还是仅仅对AI技术感兴趣的观察者，WebWatcher都值得你关注和尝试。它可能只是未来智能助手的一个起点，但已经向我们展示了人工智能在理解和交互方面令人兴奋的潜力。

WebWatcher颠覆性突破：多模态智能体引领视觉语言研究新纪元