近期,大型语言模型(LLMs)的快速发展推动了深度研究(DR)代理的兴起。这些代理展现出令人惊叹的能力,包括生成新颖的想法、高效检索信息、执行实验以及撰写综合报告和学术论文。

目前,大多数公开的 DR 代理运用多种巧妙技术来提升结果,例如通过思维链进行推理,或者生成多个答案并从中挑选最佳方案。尽管它们取得了显著进展,但往往只是简单地将不同工具拼凑在一起,而没有考虑人类研究的迭代本质。它们忽略了人们在撰写复杂主题论文时所依赖的关键过程,即规划、起草、研究以及根据反馈进行迭代。在修订过程中,一个关键环节是进行更多研究以查找缺失信息或增强论点。这种人类模式与扩散模型的机制有着惊人的相似之处,后者从“嘈杂”或混乱的输出开始,逐步将其优化为高质量的结果。如果将人工智能代理的初稿视为嘈杂版本,而搜索工具则充当去噪步骤,用新事实将其清理干净,那会怎样呢?

今天,我们推出了一种名为 Test-Time Diffusion 深度研究者(TTD-DR)的 DR 代理,它模仿了人类进行研究的方式。据我们所知,TTD-DR 是首个将研究报告撰写建模为扩散过程的研究代理,其中混乱的第一稿会逐渐打磨成高质量的最终版本。我们引入了两种新算法,它们协同工作以实现 TTD-DR。首先,通过自我进化实现组件级优化,提升研究工作流程中每一步骤的质量。然后,通过带有检索的去噪进行报告级优化,将新检索到的信息应用于修订和改进报告草稿。我们证明了 TTD-DR 在长篇报告撰写和多跳推理任务上取得了最先进的结果。

Test-Time Diffusion 深度研究者

TTD-DR 的设计原理是接收用户查询作为输入,然后创建一个初步草稿,该草稿作为不断演变的基础来指导研究计划。这个不断演变的草稿通过带有检索的去噪过程(报告级优化)进行迭代优化,利用其找到的信息在每一步改进草稿。这一过程持续循环,每个周期都使报告得到改进。最后,自我进化算法在整个过程中不断发挥作用,从初始计划到最终报告,这种强大的优化和自我改进组合,导致了更加连贯的报告撰写过程。

主干 DR 设计

主干 DR 设计包括以下三个阶段:

  1. 「研究计划生成」:接收用户查询后生成结构化研究计划。该计划概述了最终报告所需的关键领域清单,作为后续信息收集过程的初步指导。
  2. 「迭代搜索」:包含两个子代理:搜索问题生成(图 2a)根据研究计划、用户查询以及前次搜索迭代的上下文(即过去的问题和答案)制定搜索查询。答案搜索(图 2b)在可用资源中搜索相关文档,并返回总结的答案,类似于检索增强生成(RAG)系统。
  3. 「最终报告生成」:将所有收集到的结构化信息整合起来,生成全面连贯的最终报告,即计划和一系列问答对。

组件级自我进化

我们利用自我进化算法来提升每个阶段代理的性能,以发现并保留高质量上下文。

  • 「初始状态」:图中最左侧的模块代表基于前一阶段输出的多个不同的答案变体,用于探索更大的搜索空间。理想情况下,这将导致发现更有价值的信息。
  • 「环境反馈」:每个答案变体都由一个作为评委的语言模型进行评估,使用自动评估器评估关键指标,如有用性和全面性。这些评估器不仅提供适应度评分,还生成文本反馈,以帮助改进答案。
  • 「修订」:根据前一步的评分和反馈,每个变体进行修订步骤,以适应更好的适应度评分。环境反馈和修订步骤重复进行,直到达到最大迭代次数,或者代理确定不需要再进行修订。
  • 「交叉合并」:最后,多个修订后的变体合并为一个高质量的输出。这一合并过程整合了所有进化路径中的最佳信息,为最终的报告生成过程提供了优质的上下文。

报告级检索去噪

由于初步的嘈杂草稿对于复杂主题而言没有真正的研究是无用的,因此 TTD-DR 使用一个搜索工具来去噪并发展草稿。

具体来说,我们将当前草稿报告输入到主干 DR 工作流程的搜索生成阶段(图 2a),以便告知下一个搜索查询的生成。在答案搜索阶段(图 2b)获得合成答案后,新信息被用来修订报告草稿,无论是添加新细节还是验证现有信息。这个将去噪后的报告反馈以生成下一个搜索查询的过程重复进行。草稿在搜索过程结束之前逐步去噪,然后最终代理根据所有历史搜索答案和修订撰写最终报告(图 3)。

结果

我们使用专注于两个广泛任务的基准数据集来评估 TTD-DR 的性能:1)复杂查询,要求研究代理生成长篇综合报告(DeepConsult);2)多跳查询,需要广泛搜索和推理来回答(Humanity’s Last Exam [HLE] 和 GAIA)。我们从需要更多搜索和推理的 HLE 中抽样 200 个查询(HLE-Search)。这两个类别都符合我们建立一个通用的、现实世界的研究伴侣的目标。我们将我们的 DR 系统与 OpenAI 深度研究进行比较。

TTD-DR 在所有基准测试中持续取得更好的结果。值得注意的是,与 OpenAI DR 相比,TTD-DR 在长篇研究报告生成任务中达到了 74.5% 的胜率。此外,在这两个具有简短真实答案的广泛研究数据集上,它分别比 OpenAI DR 高出 7.7% 和 1.7%。

消融研究

在消融研究中,我们逐渐添加上述部分的三种方法。我们的 DR 代理以 Gemini-2.5-pro 作为基础模型。所有其他基线代理使用它们的默认语言模型。下面的图表展示了我们 DR 代理的消融研究。主干 DR 代理的性能低于 OpenAI DR。随着自我进化算法的引入,我们发现对于 DeepConsult,我们的系统以 59.8% 的胜率超过了 OpenAI 深度研究。HLE-Search 和 GAIA 数据集的正确性评分也分别提高了 4.4% 和 1.2%。最后,加入带有检索的扩散,使得我们在所有基准测试中都取得了显著的提升。

下面的帕累托前沿图进一步显示,与其它 DR 代理相比,TTD-DR 在测试时具有更高的扩展效率。我们发现 TTD-DR 比 OpenAI DR 更高效,因为相同的延迟下,TTD-DR 能够达到更高的质量胜率。详情请见论文

结论

Test-Time Diffusion 深度研究者(TTD-DR)是一个受人类研究迭代方式启发的新框架。该代理通过将报告生成概念化为一个扩散过程,解决了现有 DR 代理的局限性。TTD-DR 框架在各种需要广泛搜索和多跳推理的基准测试中,显著优于现有的 DR 代理。它在生成全面长篇研究报告以及识别多跳搜索和推理任务的简洁答案方面表现出最先进的性能。我们相信它之所以如此有效,是因为其“先起草”的设计,使整个研究过程保持专注和连贯,防止重要信息在过程中丢失。

在 Google Cloud Platform 上的可用性

该工作的产品版本可在 Google Agentspace 上使用,Google Cloud Agent Development Kit 为其提供实施支持。

致谢

该研究由 Rujun Han、Yanfei Chen、Guan Sun、Lesly Miculicich、Zoey CuiZhu、Yuanjun (Sophia) Bi、Weiming Wen、Hui Wan、Chunfeng Wen、Solène Maître、George Lee、Vishy Tirumalashetty、Xiaowei Li、Emily Xue、Zizhao Zhang、Salem Haykal、Burak Gokturk、Tomas Pfister 和 Chen-Yu Lee 共同开展。