Gemini Deep Research:借助Interactions API,让高级自主研究能力融入你的应用

摘要

Google推出更强大的Gemini Deep Research agent,通过新的Interactions API向开发者开放,可嵌入应用实现高级研究功能。同时开源DeepSearchQA基准,其在多项测试中表现领先,助力开发者构建更高效的研究工具。

一、Gemini Deep Research来了:更强大的自主研究助手,现在向开发者开放

你是否曾希望有一个能自主完成复杂研究任务的助手?能像人类专家一样,一步步规划调查方向、搜索信息、填补知识空白,最后生成详实的报告?现在,这个愿望正在成为现实。

2025年12月11日,Google正式发布了升级版的Gemini Deep Research agent。这不是简单的功能迭代,而是一次对“自主研究能力”的重新想象——它更强大、更智能,并且首次通过全新的Interactions API向开发者开放。这意味着,你可以把Google最先进的自主研究能力直接嵌入到自己的应用中,让你的产品拥有媲美专业研究团队的信息处理能力。

同时,为了让开发者更好地测试和提升研究型应用的性能,Google还开源了一个全新的web研究 agent基准——DeepSearchQA。有了它,你可以更全面地评估自己的应用在复杂多步骤研究任务中的表现。

二、Gemini Deep Research到底是什么?它有哪些过人之处?

可能你会好奇,这个Gemini Deep Research agent到底特别在哪里?简单说,它是一个专门优化长时程信息收集与合成任务的智能体,核心优势体现在三个方面:

1. 以顶尖模型为核心,减少“幻觉”更可靠

它的推理核心采用了Gemini 3 Pro——这是Google目前最注重事实性的模型。你知道吗?Gemini 3 Pro在专门评估大语言模型事实性的测试中表现突出,这意味着它在处理研究任务时,能最大程度减少“编造信息”(也就是我们常说的“幻觉”),让生成的报告更可信。

2. 自主规划研究,像人类专家一样“思考”

和普通的信息检索工具不同,Gemini Deep Research会“自主规划”研究过程。它不是简单地执行一次搜索就结束,而是会:

  • 先分析问题,制定初步的研究计划;
  • 生成相关的搜索查询词,获取第一批信息;
  • 阅读并理解搜索结果,找出还不清楚的“知识缺口”;
  • 针对这些缺口再次搜索,反复迭代,直到掌握足够的信息。

更重要的是,通过“多步骤强化学习”的优化,它能在复杂的信息环境中自主导航,精准定位所需数据。这次更新后,它的网页搜索能力大幅提升,甚至能深入网站内部,找到那些藏得很深的具体信息。

3. 性能领先,多项测试证明实力

光说不练假把式,Gemini Deep Research的能力已经在多个权威测试中得到验证:

  • 在“人类最后的考试”(Humanity’s Last Exam,HLE)全套测试中,它取得了46.4%的顶尖成绩;
  • 在新发布的DeepSearchQA基准测试中,得分高达66.1%;
  • 在BrowseComp测试中,也拿到了59.2%的高分。

这些数据意味着,它在处理复杂、多步骤的研究任务时,比同类工具表现得更出色。而且,它在生成高质量报告的同时,成本也更低——这对需要大规模使用的开发者来说,无疑是个好消息。

三、DeepSearchQA:给研究型AI“打分”的新基准

为什么要推出DeepSearchQA?如果你了解目前的AI基准测试,可能会发现一个问题:很多现有基准都难以捕捉现实世界中“多步骤web研究”的复杂性。比如,有些测试只关注单一事实的准确性,而实际研究中,我们往往需要一步步推导,前一步的结论会影响下一步的方向。

为了解决这个问题,Google开源了DeepSearchQA。它到底是什么样的基准?

1. 900个“因果链”任务,覆盖17个领域

DeepSearchQA包含900个手工设计的“因果链”任务,横跨17个不同领域。这里的“因果链”很关键——每个任务的解决都需要多步分析,而且每一步都依赖于上一步的结果。比如,要研究“某款新药的市场潜力”,可能需要先查它的疗效数据,再分析竞品情况,最后结合政策环境,一步扣一步。

2. 不止看“对错”,更看“全面性”

和传统的事实性测试不同,DeepSearchQA不只要求AI给出正确答案,更要求“ exhaustive(全面详尽)”。它会评估AI是否能生成完整的答案集合,既考验研究的精准度(不跑偏),又考验信息的召回率(不遗漏)。

3. 能帮我们发现“思考时间”的价值

在Google的内部测试中,DeepSearchQA还展现了一个特殊作用:它能直观地显示“让AI多思考、多搜索”的好处。数据显示,当允许agent进行更多次搜索和推理步骤时,性能会有明显提升。比如,对比“pass@8”和“pass@1”的结果(在DeepSearchQA的200个提示子集上计算),能清楚看到让agent探索多个平行思路来验证答案的价值。

4. 开发者如何使用DeepSearchQA?

如果你想测试自己的研究型应用,DeepSearchQA提供了完整的资源:

四、真实世界中,Gemini Deep Research能做什么?

光有技术参数还不够,我们更关心它在实际场景中能解决什么问题。从早期的反馈和测试来看,Gemini Deep Research已经在多个对“精准度”和“上下文理解”要求极高的领域展现出价值:

1. 金融服务:把尽职调查从“几天”缩短到“几小时”

金融领域的尽职调查向来是个耗时费力的活儿——需要收集市场信号、分析竞争对手、排查合规风险,信息来源既包括公开的web数据,也包括公司内部的专有资料。

现在,金融机构正在用Gemini Deep Research自动化这个过程的初始阶段。一位用户反馈:“它极大地加速了我们的尽职调查流程,把研究周期从几天缩短到几小时,而且质量和精准度一点没降。感觉就像有一整支专家团队随时待命,支持我们最复杂的分析工作。”

对投资团队来说,这意味着能更快地抓住市场机会,同时降低因信息遗漏导致的风险。

2. 生物科技:加速药物研发,解锁更深层的研究

在科学研究领域,Gemini Deep Research也在发挥作用。比如Axiom Bio——一家用AI预测药物毒性的公司,就发现它能带来前所未有的初始研究深度和 granularity(细致度)。

Axiom Bio的团队表示:“Gemini Deep Research能挖掘出非常具体的数据和证据,达到甚至超过人类研究员的水平。我们很期待在此基础上构建更强大的智能系统,从分子机制到实验数据再到临床结果,一步步推理,帮助科学家开发更安全的药物。”

这意味着,原本需要研究员花费大量时间从海量生物医学文献中筛选信息的工作,现在能被高效自动化,让科学家把精力集中在更核心的创造性工作上。

3. 市场研究:快速整合多源信息,生成全面洞察

除了金融和生物科技,市场研究也是Gemini Deep Research的用武之地。它能从web数据、行业报告、社交媒体等多个渠道收集信息,快速整合出关于消费者偏好、竞品动态、市场趋势的全面分析,帮助企业做出更明智的决策。

五、开发者如何用Gemini Deep Research构建工具?它有哪些实用功能?

如果你是开发者,想基于Gemini Deep Research打造自己的应用,它提供了一系列实用功能,让你能更灵活地满足不同场景的需求:

1. 统一信息合成:打通文件与web数据

Gemini Deep Research能同时处理两种信息来源:

  • 你的本地文件:支持PDF、CSV、文档等格式,通过“文件上传”功能导入;
  • 公开web数据:借助“文件搜索工具”获取。

更重要的是,它能优雅地处理“大上下文”——你可以在提示词中直接放入大量背景信息,它都能理解并运用,不用再担心信息过多导致处理不了。

比如,你可以上传一份公司的内部财报,同时让它搜索行业整体数据,最后综合生成一份对比分析报告。

2. 报告 steerability:完全掌控输出形式

你可能会担心:AI生成的报告格式不符合我的需求怎么办?别担心,Gemini Deep Research支持“报告可控性”——你可以通过提示词精准定义输出的:

  • 结构:比如要求“先概述,再分点分析,最后总结”;
  • 标题层级:指定需要哪些一级标题、二级标题;
  • 数据呈现:要求生成数据表格,或指定特定的格式(如百分比保留两位小数)。

这意味着,生成的报告可以直接对接你的下游系统,或者满足特定的阅读习惯。

3. 详细 citations:每一个结论都有来源

研究报告的可信度,很大程度上取决于“来源是否可靠”。Gemini Deep Research会为报告中的每个观点提供“granular sourcing(细致的来源标注)”,让用户能轻松追溯数据的原始出处——是来自某篇论文?某个网站?还是你上传的某份文件的第几页?

这不仅能提升报告的可信度,也方便用户进一步验证信息。

4. 结构化输出:支持JSON schema,方便下游处理

对开发者来说,处理非结构化的文本报告可能有点麻烦。好在Gemini Deep Research支持“JSON schema输出”——你可以定义好JSON的格式,它会直接按照这个格式返回结果,让下游应用能轻松解析和使用研究结果。

比如,你可以要求它返回一个包含“关键词、结论、来源、置信度”的JSON数组,方便你的应用进行统计或可视化。

六、如何开始使用Gemini Deep Research?

如果你已经迫不及待想试试,其实步骤很简单:

  1. 获取Gemini API密钥:你需要从Google AI Studio获取Gemini API密钥——这是访问Interactions API的凭证。
  2. 查阅开发者文档:参考Gemini Deep Research的开发者文档,了解具体的调用方法和参数设置。
  3. 使用Interactions API:通过全新的Interactions API来调用Gemini Deep Research agent。这个API是Google为简化与Gemini模型和agent的交互而设计的下一代接口,使用起来更直观。

未来还有哪些更新值得期待?

Google也透露了一些未来的计划,让开发者可以提前规划:

  • 更丰富的输出形式:比如支持原生图表生成,让分析报告能直接包含可视化图表,更直观;
  • 更广泛的数据源连接:通过“模型上下文协议(MCP)”支持,让agent能更轻松地接入你的自定义数据源(比如公司内部数据库);
  • 企业级部署:计划将Gemini Deep Research引入Vertex AI,方便企业用户在更安全、合规的环境中使用。

七、FAQ:关于Gemini Deep Research的常见问题

1. Gemini Deep Research和普通的搜索引擎有什么区别?

普通搜索引擎主要返回相关的网页链接,需要你自己筛选和整合信息;而Gemini Deep Research会自主规划研究步骤,主动填补信息缺口,最后直接生成整合好的报告,更像一个“研究助手”。

2. 它适合处理哪些类型的任务?

最适合“复杂、多步骤、需要深度分析”的研究任务,比如金融尽职调查、学术文献综述、市场趋势分析、药物研发初期调研等。

3. 使用它需要很高的技术门槛吗?

不需要。通过Interactions API,开发者可以相对简单地调用其功能,而且有详细的文档和入门代码支持。

4. DeepSearchQA只能用来测试Gemini Deep Research吗?

不是。它是一个开源的通用基准,任何研究型AI agent都可以用它来测试性能,帮助开发者找到改进方向。

5. 生成报告的成本高吗?

相比其提供的价值,Gemini Deep Research的成本被优化得很低,适合大规模使用。具体可以参考Gemini API的定价页面中关于agents的部分。

Gemini Deep Research的发布,其实是在为开发者提供一个“超级研究工具”的基础组件。无论是想打造金融分析应用、科研辅助工具,还是市场洞察平台,你都可以借助它的能力,让自己的产品在“信息处理”这个核心环节上更高效、更可靠。现在,有了Interactions API和DeepSearchQA的支持,把这种能力嵌入应用的门槛也大大降低了——也许下一个改变行业的研究工具,就出自你的手中。

Gemini Deep Research Agent Text logo