站点图标 高效码农

清华团队发布DeepDive深度搜索智能体,知识图谱+多轮强化学习突破搜索边界

引言

在信息爆炸的今天,我们每天都在搜索。无论是用 Google、Bing,还是国内的百度、知乎搜索,我们习惯了“输入关键词—得到答案”的流程。
但当问题变得复杂,比如“请列出 19 世纪在巴黎活跃过的女性画家,并找到她们作品被哪些博物馆收藏”,传统搜索往往无能为力。原因很简单:

  • 这类问题不是单一检索,而是多跳、多步推理。
  • 现有搜索引擎和大模型缺乏长程思维(long-horizon reasoning)。

于是,深度搜索(Deep Search)成为新的研究方向。它不只是“找信息”,而是要具备连续推理、动态探索和结果验证的能力。

而本文的主角 —— DeepDive,就是为了解决这个痛点而诞生的。


DeepDive 概览

DeepDive 是由清华大学知识工程实验室(THUDM)团队提出的一个自动化方法,目标是训练能执行复杂信息检索任务的深度搜索智能体。

它的核心特点有三点:

  1. 自动化数据生成:不用人工标注,直接从知识图谱生成高难度问题。
  2. 多轮强化学习:让智能体学会在网络环境中进行多轮交互搜索。
  3. 推理可扩展性:通过更多工具调用和并行采样,在推理阶段表现更强。

当前,团队已经开源了 4,108 条 QA 对话与 SFT 轨迹,数据集可以在 HuggingFace 获取。模型(9B 和 32B 版本)也即将发布。


核心方法

1. 自动化数据合成:从知识图谱到复杂问题

一个优秀的深度搜索模型,必须先有高质量的训练数据。DeepDive 的做法是——自动从知识图谱里“合成”问题。

具体步骤如下:

  • 知识图谱随机游走(Random Walks)
    从图谱中的一个节点出发,沿着边走 5~9 步,形成复杂路径。
    这样生成的问题天然需要多跳推理,比如“从某个科学家 -> 研究领域 -> 合作者 -> 奖项 -> 时间”。

  • 实体模糊化(Entity Obfuscation)
    为了避免问题过于直白,DeepDive 会用大模型模糊化节点属性。
    举个例子:

    • 原始节点:Marie Curie(居里夫人)
    • 模糊化后:一位两度获得诺贝尔奖的欧洲女性科学家

    这让问题更贴近真实搜索,而不是死记硬背。

  • 难度筛选(Difficulty Filtering)
    为了确保问题足够难,团队使用 GPT-4o 测试。
    如果 GPT-4o 尝试 4 次都答不对,这个问题才会进入训练集。
    结果就是:数据集里全是连 GPT-4o 都无法轻松解决的“硬骨头”。


2. 多轮强化学习:让模型学会“搜索 + 推理”

有了数据,接下来就是训练智能体。DeepDive 的思路是 多轮强化学习(Multi-Turn RL)

工作流程

  1. 模型在第 t 步生成推理链(Chain-of-Thought)
  2. 执行浏览动作(Action),访问网页
  3. 得到观测内容(Observation),再继续下一步

这一过程就像人类在查资料:先想思路,再点开链接,看内容,再修正方向。

GRPO 算法

DeepDive 使用的是 Group Relative Policy Optimization (GRPO),它会将一组结果放在一起计算相对优势,从而让训练更稳定。

公式示意:

A_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}

严格的奖励机制

奖励只可能是 0 或 1

  • 格式正确且答案准确 → +1
  • 否则 → 0

这种二值奖励避免了“投机取巧”,保证模型真的学会推理,而不是套模板。


数据与模型

DeepDive 的数据构建如下表:

组件 数量 说明
总数据集 3,250 QA 对
SFT 部分 1,016 用于监督微调
↳ SFT 轨迹 858 从 QA 对生成的搜索轨迹
RL 部分 2,234 用于强化学习

模型规模:

  • DeepDive-9B:适合轻量级研究
  • DeepDive-32B:在 BrowseComp 上达到 14.8% 准确率,优于大多数开源对手

实验结果

DeepDive 在多个基准上进行了评测,包括 BrowseComp、Xbench-DeepSearch、SEAL-0 等。

结果表明:

  • 在复杂搜索任务上,DeepDive-32B 超越了多数开源模型。
  • 在简单搜索任务(HotpotQA、WebWalker 等)上,也有很强的泛化能力。

这说明 DeepDive 既能“啃硬骨头”,也不会在“基础题”上翻车。


推理与扩展能力

工具调用扩展(Tool Call Scaling)

给模型更多的调用次数,它的准确率就会显著上升。
例如在 BrowseComp 上:

  • 8 次调用:准确率 8%
  • 128 次调用:准确率 15%

并行采样(Parallel Sampling)

DeepDive 会并行生成 8 条推理轨迹,然后选择:

  • 投票结果
  • 或者使用“最少调用数”的答案

实验证明,选择调用最少的答案最准确,准确率能从 12% 提升到 24.8%。


实践意义

为什么 DeepDive 值得关注?

  1. 数据自动化:解决了人工标注的瓶颈。
  2. 强化学习闭环:真正训练出能“读网页、推理、验证”的智能体。
  3. 开源价值:为研究者和开发者提供可复现的训练框架。

换句话说,DeepDive 不只是一个模型,而是一整套方法论。


常见问题解答(FAQ)

1. DeepDive 和普通搜索引擎有什么区别?

普通搜索是关键词匹配,而 DeepDive 能多轮交互、逐步推理,处理复杂问题。

2. 为什么用知识图谱生成数据?

因为知识图谱结构化清晰,能自动合成多跳推理问题,而无需人工编写。

3. 多轮 RL 和单轮训练差别大吗?

单轮训练只适合“一问一答”,而多轮 RL 让模型像人一样不断调整搜索方向。

4. DeepDive 支持中文吗?

支持。它在 BrowseComp-ZH 上的表现也优于大多数开源模型。

5. 我能用上吗?

可以。你可以先下载数据集练手,等官方开源模型后直接调用。


总结与展望

DeepDive 带来的价值可以总结为三点:

  1. 提出了一种从知识图谱自动生成复杂问题的方法
  2. 利用多轮强化学习,训练出真正会搜索的 AI
  3. 在多个基准测试中,展示出比肩甚至超越专有模型的性能

未来,随着模型开源,我们可能会看到更多应用:

  • 科研助手:帮研究者跨学科检索资料
  • 教育工具:训练学生进行“深度思考”
  • 企业搜索:在大规模知识库里高效查找答案

DeepDive 不只是技术突破,更是让 AI 真正“会搜索”的一步。

退出移动版