清华团队发布DeepDive深度搜索智能体，知识图谱+多轮强化学习突破搜索边界

高效码农

2 月前

引言

在信息爆炸的今天，我们每天都在搜索。无论是用 Google、Bing，还是国内的百度、知乎搜索，我们习惯了“输入关键词—得到答案”的流程。
但当问题变得复杂，比如“请列出 19 世纪在巴黎活跃过的女性画家，并找到她们作品被哪些博物馆收藏”，传统搜索往往无能为力。原因很简单：

这类问题不是单一检索，而是多跳、多步推理。
现有搜索引擎和大模型缺乏长程思维（long-horizon reasoning）。

于是，深度搜索（Deep Search）成为新的研究方向。它不只是“找信息”，而是要具备连续推理、动态探索和结果验证的能力。

而本文的主角 —— DeepDive，就是为了解决这个痛点而诞生的。

DeepDive 概览

DeepDive 是由清华大学知识工程实验室（THUDM）团队提出的一个自动化方法，目标是训练能执行复杂信息检索任务的深度搜索智能体。

它的核心特点有三点：

自动化数据生成：不用人工标注，直接从知识图谱生成高难度问题。
多轮强化学习：让智能体学会在网络环境中进行多轮交互搜索。
推理可扩展性：通过更多工具调用和并行采样，在推理阶段表现更强。

当前，团队已经开源了 4,108 条 QA 对话与 SFT 轨迹，数据集可以在 HuggingFace 获取。模型（9B 和 32B 版本）也即将发布。

核心方法

1. 自动化数据合成：从知识图谱到复杂问题

一个优秀的深度搜索模型，必须先有高质量的训练数据。DeepDive 的做法是——自动从知识图谱里“合成”问题。

具体步骤如下：

知识图谱随机游走（Random Walks）
从图谱中的一个节点出发，沿着边走 5~9 步，形成复杂路径。
这样生成的问题天然需要多跳推理，比如“从某个科学家 -> 研究领域 -> 合作者 -> 奖项 -> 时间”。
实体模糊化（Entity Obfuscation）
为了避免问题过于直白，DeepDive 会用大模型模糊化节点属性。
举个例子：
- 原始节点：Marie Curie（居里夫人）
- 模糊化后：一位两度获得诺贝尔奖的欧洲女性科学家
这让问题更贴近真实搜索，而不是死记硬背。
难度筛选（Difficulty Filtering）
为了确保问题足够难，团队使用 GPT-4o 测试。
如果 GPT-4o 尝试 4 次都答不对，这个问题才会进入训练集。
结果就是：数据集里全是连 GPT-4o 都无法轻松解决的“硬骨头”。

2. 多轮强化学习：让模型学会“搜索 + 推理”

有了数据，接下来就是训练智能体。DeepDive 的思路是 多轮强化学习（Multi-Turn RL）。

工作流程

模型在第 t 步生成推理链（Chain-of-Thought）
执行浏览动作（Action），访问网页
得到观测内容（Observation），再继续下一步

这一过程就像人类在查资料：先想思路，再点开链接，看内容，再修正方向。

GRPO 算法

DeepDive 使用的是 Group Relative Policy Optimization (GRPO)，它会将一组结果放在一起计算相对优势，从而让训练更稳定。

公式示意：

A_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}

严格的奖励机制

奖励只可能是 0 或 1：

格式正确且答案准确 → +1
否则 → 0

这种二值奖励避免了“投机取巧”，保证模型真的学会推理，而不是套模板。

数据与模型

DeepDive 的数据构建如下表：

组件	数量	说明
总数据集	3,250	QA 对
SFT 部分	1,016	用于监督微调
↳ SFT 轨迹	858	从 QA 对生成的搜索轨迹
RL 部分	2,234	用于强化学习

模型规模：

DeepDive-9B：适合轻量级研究
DeepDive-32B：在 BrowseComp 上达到 14.8% 准确率，优于大多数开源对手

实验结果

DeepDive 在多个基准上进行了评测，包括 BrowseComp、Xbench-DeepSearch、SEAL-0 等。

结果表明：

在复杂搜索任务上，DeepDive-32B 超越了多数开源模型。
在简单搜索任务（HotpotQA、WebWalker 等）上，也有很强的泛化能力。

这说明 DeepDive 既能“啃硬骨头”，也不会在“基础题”上翻车。

推理与扩展能力

工具调用扩展（Tool Call Scaling）

给模型更多的调用次数，它的准确率就会显著上升。
例如在 BrowseComp 上：

8 次调用：准确率 8%
128 次调用：准确率 15%

并行采样（Parallel Sampling）

DeepDive 会并行生成 8 条推理轨迹，然后选择：

投票结果
或者使用“最少调用数”的答案

实验证明，选择调用最少的答案最准确，准确率能从 12% 提升到 24.8%。

实践意义

为什么 DeepDive 值得关注？

数据自动化：解决了人工标注的瓶颈。
强化学习闭环：真正训练出能“读网页、推理、验证”的智能体。
开源价值：为研究者和开发者提供可复现的训练框架。

换句话说，DeepDive 不只是一个模型，而是一整套方法论。

常见问题解答（FAQ）

1. DeepDive 和普通搜索引擎有什么区别？

普通搜索是关键词匹配，而 DeepDive 能多轮交互、逐步推理，处理复杂问题。

2. 为什么用知识图谱生成数据？

因为知识图谱结构化清晰，能自动合成多跳推理问题，而无需人工编写。

3. 多轮 RL 和单轮训练差别大吗？

单轮训练只适合“一问一答”，而多轮 RL 让模型像人一样不断调整搜索方向。

4. DeepDive 支持中文吗？

支持。它在 BrowseComp-ZH 上的表现也优于大多数开源模型。

5. 我能用上吗？

可以。你可以先下载数据集练手，等官方开源模型后直接调用。

总结与展望

DeepDive 带来的价值可以总结为三点：

提出了一种从知识图谱自动生成复杂问题的方法
利用多轮强化学习，训练出真正会搜索的 AI
在多个基准测试中，展示出比肩甚至超越专有模型的性能

未来，随着模型开源，我们可能会看到更多应用：

科研助手：帮研究者跨学科检索资料
教育工具：训练学生进行“深度思考”
企业搜索：在大规模知识库里高效查找答案

DeepDive 不只是技术突破，更是让 AI 真正“会搜索”的一步。