引言
在信息爆炸的今天,我们每天都在搜索。无论是用 Google、Bing,还是国内的百度、知乎搜索,我们习惯了“输入关键词—得到答案”的流程。
但当问题变得复杂,比如“请列出 19 世纪在巴黎活跃过的女性画家,并找到她们作品被哪些博物馆收藏”,传统搜索往往无能为力。原因很简单:
-
这类问题不是单一检索,而是多跳、多步推理。 -
现有搜索引擎和大模型缺乏长程思维(long-horizon reasoning)。
于是,深度搜索(Deep Search)成为新的研究方向。它不只是“找信息”,而是要具备连续推理、动态探索和结果验证的能力。
而本文的主角 —— DeepDive,就是为了解决这个痛点而诞生的。
DeepDive 概览
DeepDive 是由清华大学知识工程实验室(THUDM)团队提出的一个自动化方法,目标是训练能执行复杂信息检索任务的深度搜索智能体。
它的核心特点有三点:
-
自动化数据生成:不用人工标注,直接从知识图谱生成高难度问题。 -
多轮强化学习:让智能体学会在网络环境中进行多轮交互搜索。 -
推理可扩展性:通过更多工具调用和并行采样,在推理阶段表现更强。
当前,团队已经开源了 4,108 条 QA 对话与 SFT 轨迹,数据集可以在 HuggingFace 获取。模型(9B 和 32B 版本)也即将发布。
核心方法
1. 自动化数据合成:从知识图谱到复杂问题
一个优秀的深度搜索模型,必须先有高质量的训练数据。DeepDive 的做法是——自动从知识图谱里“合成”问题。
具体步骤如下:
-
知识图谱随机游走(Random Walks)
从图谱中的一个节点出发,沿着边走 5~9 步,形成复杂路径。
这样生成的问题天然需要多跳推理,比如“从某个科学家 -> 研究领域 -> 合作者 -> 奖项 -> 时间”。 -
实体模糊化(Entity Obfuscation)
为了避免问题过于直白,DeepDive 会用大模型模糊化节点属性。
举个例子:-
原始节点:Marie Curie(居里夫人) -
模糊化后:一位两度获得诺贝尔奖的欧洲女性科学家
这让问题更贴近真实搜索,而不是死记硬背。
-
-
难度筛选(Difficulty Filtering)
为了确保问题足够难,团队使用 GPT-4o 测试。
如果 GPT-4o 尝试 4 次都答不对,这个问题才会进入训练集。
结果就是:数据集里全是连 GPT-4o 都无法轻松解决的“硬骨头”。
2. 多轮强化学习:让模型学会“搜索 + 推理”
有了数据,接下来就是训练智能体。DeepDive 的思路是 多轮强化学习(Multi-Turn RL)。
工作流程
-
模型在第 t 步生成推理链(Chain-of-Thought) -
执行浏览动作(Action),访问网页 -
得到观测内容(Observation),再继续下一步
这一过程就像人类在查资料:先想思路,再点开链接,看内容,再修正方向。
GRPO 算法
DeepDive 使用的是 Group Relative Policy Optimization (GRPO),它会将一组结果放在一起计算相对优势,从而让训练更稳定。
公式示意:
A_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}
严格的奖励机制
奖励只可能是 0 或 1:
-
格式正确且答案准确 → +1 -
否则 → 0
这种二值奖励避免了“投机取巧”,保证模型真的学会推理,而不是套模板。
数据与模型
DeepDive 的数据构建如下表:
组件 | 数量 | 说明 |
---|---|---|
总数据集 | 3,250 | QA 对 |
SFT 部分 | 1,016 | 用于监督微调 |
↳ SFT 轨迹 | 858 | 从 QA 对生成的搜索轨迹 |
RL 部分 | 2,234 | 用于强化学习 |
模型规模:
-
DeepDive-9B:适合轻量级研究 -
DeepDive-32B:在 BrowseComp 上达到 14.8% 准确率,优于大多数开源对手
实验结果
DeepDive 在多个基准上进行了评测,包括 BrowseComp、Xbench-DeepSearch、SEAL-0 等。
结果表明:
-
在复杂搜索任务上,DeepDive-32B 超越了多数开源模型。 -
在简单搜索任务(HotpotQA、WebWalker 等)上,也有很强的泛化能力。
这说明 DeepDive 既能“啃硬骨头”,也不会在“基础题”上翻车。
推理与扩展能力
工具调用扩展(Tool Call Scaling)
给模型更多的调用次数,它的准确率就会显著上升。
例如在 BrowseComp 上:
-
8 次调用:准确率 8% -
128 次调用:准确率 15%
并行采样(Parallel Sampling)
DeepDive 会并行生成 8 条推理轨迹,然后选择:
-
投票结果 -
或者使用“最少调用数”的答案
实验证明,选择调用最少的答案最准确,准确率能从 12% 提升到 24.8%。
实践意义
为什么 DeepDive 值得关注?
-
数据自动化:解决了人工标注的瓶颈。 -
强化学习闭环:真正训练出能“读网页、推理、验证”的智能体。 -
开源价值:为研究者和开发者提供可复现的训练框架。
换句话说,DeepDive 不只是一个模型,而是一整套方法论。
常见问题解答(FAQ)
1. DeepDive 和普通搜索引擎有什么区别?
普通搜索是关键词匹配,而 DeepDive 能多轮交互、逐步推理,处理复杂问题。
2. 为什么用知识图谱生成数据?
因为知识图谱结构化清晰,能自动合成多跳推理问题,而无需人工编写。
3. 多轮 RL 和单轮训练差别大吗?
单轮训练只适合“一问一答”,而多轮 RL 让模型像人一样不断调整搜索方向。
4. DeepDive 支持中文吗?
支持。它在 BrowseComp-ZH 上的表现也优于大多数开源模型。
5. 我能用上吗?
可以。你可以先下载数据集练手,等官方开源模型后直接调用。
总结与展望
DeepDive 带来的价值可以总结为三点:
-
提出了一种从知识图谱自动生成复杂问题的方法 -
利用多轮强化学习,训练出真正会搜索的 AI -
在多个基准测试中,展示出比肩甚至超越专有模型的性能
未来,随着模型开源,我们可能会看到更多应用:
-
科研助手:帮研究者跨学科检索资料 -
教育工具:训练学生进行“深度思考” -
企业搜索:在大规模知识库里高效查找答案
DeepDive 不只是技术突破,更是让 AI 真正“会搜索”的一步。