在人工智能快速发展的今天,大型语言模型(LLM)正在逐步改变我们获取和处理信息的方式。然而,面对复杂、开放且需要多步推理的深度信息搜索任务时,传统模型往往显得力不从心。针对这一挑战,Tongyi Lab 研发并推出了 Tongyi DeepResearch——一个参数量达 300 亿,但每个 token 仅激活 30 亿参数的大型代理语言模型。它专为长视野、深度信息寻求类任务而设计,在多项权威代理搜索基准测试中均展示了顶尖的性能。

模型核心特点

全自动合成数据生成管道

模型的训练离不开高质量的数据。Tongyi DeepResearch 的背后,是一个高度可扩展的全自动数据合成管道。该管道能够自主生成用于智能体预训练、监督微调以及强化学习的高质量数据,为模型的卓越能力奠定了坚实基础。

基于智能体数据的大规模持续预训练

为了持续扩展模型的能力并保持其知识的时效性,研发团队利用多样化、高质量的智能体交互数据进行了大规模持续预训练。这一过程不仅增强了模型的推理性能,也确保了其能够应对快速变化的信息环境。

端到端的强化学习训练框架

模型的训练采用了严格的同策略(on-policy)强化学习方法,并基于一个定制化的组相对策略优化(Group Relative Policy Optimization)框架。该框架融合了令牌级策略梯度、留一法优势估计以及负样本选择性过滤等技术,有效稳定了在非平稳环境中的训练过程。

兼容多种智能体推理范式

在实际应用(推理)时,Tongyi DeepResearch 兼容两种模式:

  • ReAct 模式:用于严格评估模型的核心内在能力,强调其一步一步推理和行动的能力。
  • 基于迭代研究的“重型”模式:该模式采用测试时扩展策略,旨在充分释放模型的性能上限,应对极其复杂的搜索任务。

模型下载与获取

目前,Tongyi-DeepResearch-30B-A3B 模型已正式发布。您可以通过以下渠道下载:

模型名称 下载链接 模型规模 上下文长度
Tongyi-DeepResearch-30B-A3B Hugging Face
ModelScope
30B-A3B 128K

快速上手指南

以下是如何快速设置环境并运行模型推理脚本的详细步骤。

1. 环境设置

推荐使用 Python 3.10.0 版本,以避免潜在的依赖冲突。强烈建议使用 Conda 或 Virtualenv 创建一个独立的虚拟环境。

# 使用 Conda 创建环境
conda create -n react_infer_env python=3.10.0
conda activate react_infer_env

2. 安装依赖

在激活的环境下,安装项目运行所需的全部依赖包。

pip install -r requirements.txt

3. 准备评估数据

模型推理需要特定的数据格式。

  1. 在项目根目录下创建一个名为 eval_data/ 的文件夹。
  2. 将你的问答数据文件以 JSONL 格式放入该目录,例如 eval_data/example.jsonl
  3. 该文件的每一行都必须是一个 JSON 对象,且必须包含 questionanswer 两个键:

    {"question": "你的问题文本", "answer": "对应的参考答案"}
    
  4. 项目中的 eval_data 文件夹内提供了一个样例文件供您参考。
  5. 特别注意:如果您计划使用文件解析器工具,需要在 question 字段前预置文件名,并将该文件放置在 eval_data/file_corpus/ 目录下。

4. 配置推理脚本

接下来,需要配置运行脚本。打开 run_react_infer.sh 文件,根据脚本内的注释说明修改以下几个关键变量:

  • MODEL_PATH: 指向模型权重文件的本地或远程路径。
  • DATASET: 评估数据集的文件名(不含路径和扩展名),例如 example
  • OUTPUT_PATH: 模型预测结果的输出保存路径,例如 ./outputs

此外,根据您希望启用的工具(如网络搜索、计算器、文件解析等),您可能需要提供相应的 API 密钥或访问凭证(如 API_KEY, BASE_URL)。这些配置项的说明均已在脚本中以注释形式给出。

5. 运行推理

完成所有配置后,即可运行脚本启动推理过程。

bash run_react_infer.sh

遵循以上步骤,您就可以完成环境准备、数据配置并运行模型进行推断了。更多细节请参考脚本内的注释或查阅项目文档。

卓越的性能表现

Tongyi DeepResearch 在多个极具挑战性的智能体搜索基准测试中均取得了领先的成果,这些基准包括:

  • Humanity’s Last Exam
  • BrowserComp 与 BrowserComp-ZH
  • WebWalkerQA
  • xbench-DeepSearch
  • FRAMES
  • SimpleQA

其综合性能表现如下图所示,充分证明了其在复杂信息寻求任务上的强大实力。
Tongyi DeepResearch 性能对比图

深度研究智能体家族

Tongyi DeepResearch 并非一个孤立的项目,而是一个庞大且不断发展的深度研究智能体家族的一部分。该家族包含多个专注于不同方向的前沿研究项目,共同推动着智能体技术的发展:

  1. WebWalker:专注于对大语言模型进行网页遍历任务的基准测试。
  2. WebDancer:致力于实现自主信息寻求的智能体能力。
  3. WebSailor:探索网络智能体中超人类推理的导航机制。
  4. WebShaper:通过信息寻求形式化的方式,代理性地合成数据。
  5. WebWatcher:突破了视觉-语言深度研究智能体的新前沿。
  6. WebResearcher:释放长视野智能体中无限推理能力的研究。
  7. ReSum:通过上下文摘要解锁长视野搜索智能。
  8. WebWeaver:利用动态大纲为开放域深度研究构建网络规模的证据体系。
  9. WebSailor-V2:通过合成数据和可扩展强化学习弥合与专用智能体之间的差距。
  10. AgentFounder:通过持续预训练扩展智能体基础能力。
  11. AgentScaler:通过环境缩放迈向通用智能体智能。

这些研究相互关联,构成了 Tongyi 在通用智能体领域宏伟的技术蓝图。

常见问题解答(FAQ)

Q1: Tongyi DeepResearch 和普通的语言模型(如 ChatGPT)有什么区别?
A: 普通语言模型擅长对话和文本生成,而 Tongyi DeepResearch 是专为“深度信息搜索”设计的“智能体”。它更像一个能自主规划、执行多步操作(如搜索、计算、阅读文件)、并进行复杂推理的数字助手,专门解决那些需要长时间思考和多维度信息整合的复杂问题。

Q2: 30B-A3B 的参数规模是什么意思?
A: 这意味着模型总共拥有 300 亿个参数,但采用了先进的“混合专家”(Mixture of Experts, MoE)架构。在处理任何一个问题时,它只会动态地激活和使用其中的 30 亿参数。这样做的好处是,在保持极强能力的同时,大大提高了计算效率,降低了推理成本。

Q3: 我需要非常专业的编程知识才能使用它吗?
A: 基础的使用并不需要。我们提供了详细的脚本和配置说明,按照“快速指南”的步骤,了解基本命令行操作的用户都可以成功运行示例。当然,如果您想深度定制或集成到自己的系统中,则需要更多的技术开发知识。

Q4: 它支持中文吗?
A: 是的!从其在 BrowserComp-ZH(中文浏览器任务基准)上的卓越表现可以看出,该模型对中文的理解和处理能力同样强大,能够有效地完成中文环境的深度搜索任务。

Q5: 模型支持多长的上下文?
A: 该模型支持长达 128K Token 的上下文窗口。这意味着它可以一次性阅读并理解非常长的文档(如数百页的报告),并在整个长上下文中保持连贯的推理,这对于深度研究任务至关重要。

总结

Tongyi DeepResearch 代表了大语言模型在迈向通用智能体道路上的一个重要里程碑。它通过创新的模型架构、大规模高质量的数据训练以及先进的强化学习技术,在长视野、深层次的信息寻求任务上设定了新的性能标杆。无论是对于学术研究者还是开发者而言,它都提供了一个强大的工具来探索和构建下一代能够自主理解、推理和交互的人工智能应用。

您可以访问其 GitHub 项目主页 获取最新代码和详细文档,即刻体验深度研究智能体的强大能力。