WebWatcher:突破视觉-语言深度研究智能体的新前沿
你是否曾经希望有一个助手,不仅能看懂图片,还能像人一样进行多步骤推理、使用各种工具,甚至在互联网上主动搜集信息?这听起来像是科幻小说中的情节,但今天,我们要介绍的 WebWatcher,正是这样一个真正意义上的多模态智能体。
它不仅仅是又一个“看图说话”的AI,而是一个具备高级视觉-语言推理能力和多工具交互能力的深度研究助手。不论你是研究者、工程师,还是对人工智能前沿应用感兴趣的普通用户,理解WebWatcher的工作原理和强大能力,都将帮助你更好地把握AI发展的脉搏。
什么是WebWatcher?
WebWatcher是一个多模态智能体,专门为深度研究任务而设计。所谓“多模态”,指的是它能同时理解和处理图像和文本信息;而“智能体”则意味着它不只是被动地回答问题,还能够主动规划、使用工具、执行多步操作,最终完成复杂的任务。
想象一下,当你面对一张复杂的图表或一个真实世界中的场景图片时,你可能不仅需要理解图片中有什么,还需要进一步查询相关信息、进行推理、甚至写代码来分析数据——WebWatcher就是为了完成这类任务而诞生的。
WebWatcher的三大核心突破
1. 全新的评测基准:BrowseComp-VL
要推动一个领域的发展,首先需要一套能够准确衡量技术水平的“考题”。为此,研究团队提出了一个新的基准测试:BrowseComp-VL。
这个基准测试专注于评估多模态智能体的深度推理和战略规划能力。与传统的视觉问答数据集不同,BrowseComp-VL中的任务更加复杂,更贴近真实世界中的信息需求。它要求智能体不仅能够“看到”图像内容,还要知道如何主动搜集信息、整合知识,最终做出决策。
2. 自动化的轨迹生成 pipeline
训练一个能使用多种工具的智能体,最大的挑战之一是如何获得高质量的训练数据。WebWatcher采用了一种创新的方法:通过自动化管道生成多步推理轨迹。
这些轨迹模拟了人类在使用工具时的决策过程,包括何时进行网页搜索、何时访问页面、何时调用代码解释器等。这些数据不仅用于模型的初步训练,还进一步通过强化学习进行优化,使WebWatcher的工具使用更加精准和高效。
WebWatcher可以使用的工具包括:
-
网页图像搜索 -
网页文本搜索 -
网页访问 -
代码解释器 -
内置OCR工具
3. 卓越的性能表现
WebWatcher在多个具有挑战性的视觉问答基准测试中都展现出了领先的性能,包括:
-
Humanity’s Last Exam (HLE)-VL:专注于多步复杂推理 -
BrowseComp-VL:综合性的视觉-语言推理挑战 -
LiveVQA:面向实时视觉问答 -
MMSearch:多模态信息检索任务
具体来说,WebWatcher-32B模型在HLE上平均得分为18.2%,超过了基于GPT-4o的OmniSearch基线。在LiveVQA和MMSearch上,它分别达到了58.7%和55.3%的得分,展现了在真实世界视觉搜索任务中的稳定性和优越性。
WebWatcher 性能详解
1. 复杂推理能力(HLE-VL)
在针对多步复杂推理的HLE-VL基准测试中,WebWatcher以13.6%的Pass@1得分领先,显著超过了GPT-4o(9.8%)、Gemini2.5-flash(9.2%)和Qwen2.5-VL-72B(8.6%)等代表性模型。
2. 信息检索能力(MMSearch)
在MMSearch评估中,WebWatcher的检索准确率达到了55.3%,远超Gemini2.5-flash(43.9%)和GPT-4o(24.1%),显示出在复杂场景中卓越的检索精度和信息整合能力。
3. 知识与检索的整合(LiveVQA)
在LiveVQA基准测试中,WebWatcher取得了58.7%的Pass@1得分,优于Gemini2.5-flash(41.3%)、Qwen2.5-VL-72B(35.7%)和GPT-4o(34.0%)。
4. 信息优化与聚合(BrowseComp-VL)
在最具综合挑战性的BrowseComp-VL测试中,WebWatcher以平均27.0%的得分占据主导地位,性能是主流模型的两倍以上,包括GPT-4o(13.4%)、Gemini2.5-flash(13.0%)和Claude-3.7(11.2%)。
如何开始使用 WebWatcher?
如果你对WebWatcher感兴趣,并希望亲自体验它的强大功能,可以按照以下步骤进行操作。
步骤一:下载模型
你可以通过Hugging Face平台下载WebWatcher模型:
步骤二:数据准备
在运行推理之前,需要将测试集图像下载到infer/scripts_eval/images
文件夹中。可以通过运行infer/scripts_eval/download_image.py
脚本完成这一操作。
如果从提供的OSS网址下载图像时遇到问题,你可以从原始数据集源获取图像,并手动放入对应的文件夹中。
步骤三:运行推理
运行infer/scripts_eval/scripts/eval.sh
脚本,需要提供以下参数:
参数名 | 说明 |
---|---|
benchmark |
要测试的数据集名称。可选值:'hle' , 'gaia' , 'livevqa' , 'mmsearch' , 'simplevqa' , 'bc_vl_v1' , 'bc_vl_v2' |
EXPERIMENT_NAME |
用户定义的实验名称 |
MODEL_PATH |
训练模型的路径 |
DASHSCOPE_API_KEY |
GPT API密钥 |
IMG_SEARCH_KEY |
Google SerpApi密钥(用于图像搜索) |
JINA_API_KEY |
Jina API密钥 |
SCRAPERAPI_KEY |
Scraper API密钥 |
QWEN_SEARCH_KEY |
Google SerpApi密钥(用于文本搜索) |
注意:如果需要在图像搜索后上传图片到OSS,还需提供以下参数:
-
ALIBABA_CLOUD_ACCESS_KEY_ID
:阿里云OSS访问密钥ID -
ALIBABA_CLOUD_ACCESS_KEY_SECRET
:阿里云OSS访问密钥秘密
步骤四:评估结果
运行infer/vl_search_r1/pass3.sh
脚本,使用LLM-as-judge方法评估Pass@3和Pass@1指标。需要提供以下参数:
-
DIRECTORY
:包含推理生成的JSONL文件的文件夹路径 -
DASHSCOPE_API_KEY
:GPT API密钥
常见问题解答
WebWatcher 是什么?
WebWatcher是一个多模态智能体,具备先进的视觉-语言推理能力和多工具交互功能,专为深度研究任务而设计。
WebWatcher 与传统的视觉问答系统有什么不同?
传统视觉问答系统通常只能基于给定的图像和文本回答问题,而WebWatcher能够主动使用多种工具(如网页搜索、代码解释器等)进行多步推理和信息搜集,更像一个人类研究助手。
WebWatcher 在哪些任务上表现优异?
WebWatcher在多个挑战性基准测试中都表现出色,特别是在需要复杂推理、信息检索和知识整合的任务上,如HLE-VL、BrowseComp-VL、LiveVQA和MMSearch。
如何在本地运行 WebWatcher?
你需要先下载模型,准备测试数据,然后按照提供的脚本运行推理和评估。具体步骤参见上面的“如何开始使用WebWatcher”部分。
WebWatcher 需要使用哪些API密钥?
运行WebWatcher需要多种API密钥,包括DashScope API密钥、Google SerpApi密钥(用于图像和文本搜索)、Jina API密钥和Scraper API密钥。如果需要上传图像到OSS,还需要阿里云OSS访问密钥。
引用方式
如果你觉得WebWatcher对你有帮助,请在研究中引用以下论文:
@article{geng2025webwatcher,
title={WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent},
author={Geng, Xinyu and Xia, Peng and Zhang, Zhen and Wang, Xinyu and Wang, Qiuchen and Ding, Ruixue and Wang, Chenxi and Wu, Jialong and Zhao, Yida and Li, Kuan and others},
journal={arXiv preprint arXiv:2508.05748},
year={2025}
}
结语
WebWatcher代表了多模态智能体发展的一个新方向,它不仅在技术上有重大突破,更重要的是为构建真正实用的人工智能研究助手提供了可行的路径。随着技术的不断成熟,我们有理由相信,这类智能体将在科学研究、数据分析、知识发现等领域发挥越来越重要的作用。
无论你是研究者、开发者,还是仅仅对AI技术感兴趣的观察者,WebWatcher都值得你关注和尝试。它可能只是未来智能助手的一个起点,但已经向我们展示了人工智能在理解和交互方面令人兴奋的潜力。