WebWatcher:突破视觉-语言深度研究智能体的新前沿

WebWatcher 标志

你是否曾经希望有一个助手,不仅能看懂图片,还能像人一样进行多步骤推理、使用各种工具,甚至在互联网上主动搜集信息?这听起来像是科幻小说中的情节,但今天,我们要介绍的 WebWatcher,正是这样一个真正意义上的多模态智能体。

它不仅仅是又一个“看图说话”的AI,而是一个具备高级视觉-语言推理能力和多工具交互能力的深度研究助手。不论你是研究者、工程师,还是对人工智能前沿应用感兴趣的普通用户,理解WebWatcher的工作原理和强大能力,都将帮助你更好地把握AI发展的脉搏。


什么是WebWatcher?

WebWatcher是一个多模态智能体,专门为深度研究任务而设计。所谓“多模态”,指的是它能同时理解和处理图像和文本信息;而“智能体”则意味着它不只是被动地回答问题,还能够主动规划、使用工具、执行多步操作,最终完成复杂的任务。

想象一下,当你面对一张复杂的图表或一个真实世界中的场景图片时,你可能不仅需要理解图片中有什么,还需要进一步查询相关信息、进行推理、甚至写代码来分析数据——WebWatcher就是为了完成这类任务而诞生的。

WebWatcher 主示意图


WebWatcher的三大核心突破

1. 全新的评测基准:BrowseComp-VL

要推动一个领域的发展,首先需要一套能够准确衡量技术水平的“考题”。为此,研究团队提出了一个新的基准测试:BrowseComp-VL

这个基准测试专注于评估多模态智能体的深度推理和战略规划能力。与传统的视觉问答数据集不同,BrowseComp-VL中的任务更加复杂,更贴近真实世界中的信息需求。它要求智能体不仅能够“看到”图像内容,还要知道如何主动搜集信息、整合知识,最终做出决策。

数据分布示意图

2. 自动化的轨迹生成 pipeline

训练一个能使用多种工具的智能体,最大的挑战之一是如何获得高质量的训练数据。WebWatcher采用了一种创新的方法:通过自动化管道生成多步推理轨迹。

这些轨迹模拟了人类在使用工具时的决策过程,包括何时进行网页搜索、何时访问页面、何时调用代码解释器等。这些数据不仅用于模型的初步训练,还进一步通过强化学习进行优化,使WebWatcher的工具使用更加精准和高效。

WebWatcher可以使用的工具包括:

  • 网页图像搜索
  • 网页文本搜索
  • 网页访问
  • 代码解释器
  • 内置OCR工具

数据流程示意图

3. 卓越的性能表现

WebWatcher在多个具有挑战性的视觉问答基准测试中都展现出了领先的性能,包括:

  • Humanity’s Last Exam (HLE)-VL:专注于多步复杂推理
  • BrowseComp-VL:综合性的视觉-语言推理挑战
  • LiveVQA:面向实时视觉问答
  • MMSearch:多模态信息检索任务

具体来说,WebWatcher-32B模型在HLE上平均得分为18.2%,超过了基于GPT-4o的OmniSearch基线。在LiveVQA和MMSearch上,它分别达到了58.7%和55.3%的得分,展现了在真实世界视觉搜索任务中的稳定性和优越性。


WebWatcher 性能详解

WebWatcher 性能总览

1. 复杂推理能力(HLE-VL)

在针对多步复杂推理的HLE-VL基准测试中,WebWatcher以13.6%的Pass@1得分领先,显著超过了GPT-4o(9.8%)、Gemini2.5-flash(9.2%)和Qwen2.5-VL-72B(8.6%)等代表性模型。

2. 信息检索能力(MMSearch)

在MMSearch评估中,WebWatcher的检索准确率达到了55.3%,远超Gemini2.5-flash(43.9%)和GPT-4o(24.1%),显示出在复杂场景中卓越的检索精度和信息整合能力。

3. 知识与检索的整合(LiveVQA)

在LiveVQA基准测试中,WebWatcher取得了58.7%的Pass@1得分,优于Gemini2.5-flash(41.3%)、Qwen2.5-VL-72B(35.7%)和GPT-4o(34.0%)。

4. 信息优化与聚合(BrowseComp-VL)

在最具综合挑战性的BrowseComp-VL测试中,WebWatcher以平均27.0%的得分占据主导地位,性能是主流模型的两倍以上,包括GPT-4o(13.4%)、Gemini2.5-flash(13.0%)和Claude-3.7(11.2%)。


如何开始使用 WebWatcher?

如果你对WebWatcher感兴趣,并希望亲自体验它的强大功能,可以按照以下步骤进行操作。

步骤一:下载模型

你可以通过Hugging Face平台下载WebWatcher模型:

🤗 HuggingFace 下载地址

步骤二:数据准备

在运行推理之前,需要将测试集图像下载到infer/scripts_eval/images文件夹中。可以通过运行infer/scripts_eval/download_image.py脚本完成这一操作。

如果从提供的OSS网址下载图像时遇到问题,你可以从原始数据集源获取图像,并手动放入对应的文件夹中。

步骤三:运行推理

运行infer/scripts_eval/scripts/eval.sh脚本,需要提供以下参数:

参数名 说明
benchmark 要测试的数据集名称。可选值:'hle', 'gaia', 'livevqa', 'mmsearch', 'simplevqa', 'bc_vl_v1', 'bc_vl_v2'
EXPERIMENT_NAME 用户定义的实验名称
MODEL_PATH 训练模型的路径
DASHSCOPE_API_KEY GPT API密钥
IMG_SEARCH_KEY Google SerpApi密钥(用于图像搜索)
JINA_API_KEY Jina API密钥
SCRAPERAPI_KEY Scraper API密钥
QWEN_SEARCH_KEY Google SerpApi密钥(用于文本搜索)

注意:如果需要在图像搜索后上传图片到OSS,还需提供以下参数:

  • ALIBABA_CLOUD_ACCESS_KEY_ID:阿里云OSS访问密钥ID
  • ALIBABA_CLOUD_ACCESS_KEY_SECRET:阿里云OSS访问密钥秘密

步骤四:评估结果

运行infer/vl_search_r1/pass3.sh脚本,使用LLM-as-judge方法评估Pass@3和Pass@1指标。需要提供以下参数:

  • DIRECTORY:包含推理生成的JSONL文件的文件夹路径
  • DASHSCOPE_API_KEY:GPT API密钥

常见问题解答

WebWatcher 是什么?

WebWatcher是一个多模态智能体,具备先进的视觉-语言推理能力和多工具交互功能,专为深度研究任务而设计。

WebWatcher 与传统的视觉问答系统有什么不同?

传统视觉问答系统通常只能基于给定的图像和文本回答问题,而WebWatcher能够主动使用多种工具(如网页搜索、代码解释器等)进行多步推理和信息搜集,更像一个人类研究助手。

WebWatcher 在哪些任务上表现优异?

WebWatcher在多个挑战性基准测试中都表现出色,特别是在需要复杂推理、信息检索和知识整合的任务上,如HLE-VL、BrowseComp-VL、LiveVQA和MMSearch。

如何在本地运行 WebWatcher?

你需要先下载模型,准备测试数据,然后按照提供的脚本运行推理和评估。具体步骤参见上面的“如何开始使用WebWatcher”部分。

WebWatcher 需要使用哪些API密钥?

运行WebWatcher需要多种API密钥,包括DashScope API密钥、Google SerpApi密钥(用于图像和文本搜索)、Jina API密钥和Scraper API密钥。如果需要上传图像到OSS,还需要阿里云OSS访问密钥。


引用方式

如果你觉得WebWatcher对你有帮助,请在研究中引用以下论文:

@article{geng2025webwatcher,
  title={WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent},
  author={Geng, Xinyu and Xia, Peng and Zhang, Zhen and Wang, Xinyu and Wang, Qiuchen and Ding, Ruixue and Wang, Chenxi and Wu, Jialong and Zhao, Yida and Li, Kuan and others},
  journal={arXiv preprint arXiv:2508.05748},
  year={2025}
}

结语

WebWatcher代表了多模态智能体发展的一个新方向,它不仅在技术上有重大突破,更重要的是为构建真正实用的人工智能研究助手提供了可行的路径。随着技术的不断成熟,我们有理由相信,这类智能体将在科学研究、数据分析、知识发现等领域发挥越来越重要的作用。

无论你是研究者、开发者,还是仅仅对AI技术感兴趣的观察者,WebWatcher都值得你关注和尝试。它可能只是未来智能助手的一个起点,但已经向我们展示了人工智能在理解和交互方面令人兴奋的潜力。