Tongyi DeepResearch重磅发布：300亿参数智能代理模型如何颠覆深度信息搜索？

在人工智能快速发展的今天，大型语言模型（LLM）正在逐步改变我们获取和处理信息的方式。然而，面对复杂、开放且需要多步推理的深度信息搜索任务时，传统模型往往显得力不从心。针对这一挑战，Tongyi Lab 研发并推出了 Tongyi DeepResearch——一个参数量达 300 亿，但每个 token 仅激活 30 亿参数的大型代理语言模型。它专为长视野、深度信息寻求类任务而设计，在多项权威代理搜索基准测试中均展示了顶尖的性能。

模型核心特点

全自动合成数据生成管道

模型的训练离不开高质量的数据。Tongyi DeepResearch 的背后，是一个高度可扩展的全自动数据合成管道。该管道能够自主生成用于智能体预训练、监督微调以及强化学习的高质量数据，为模型的卓越能力奠定了坚实基础。

基于智能体数据的大规模持续预训练

为了持续扩展模型的能力并保持其知识的时效性，研发团队利用多样化、高质量的智能体交互数据进行了大规模持续预训练。这一过程不仅增强了模型的推理性能，也确保了其能够应对快速变化的信息环境。

端到端的强化学习训练框架

模型的训练采用了严格的同策略（on-policy）强化学习方法，并基于一个定制化的组相对策略优化（Group Relative Policy Optimization）框架。该框架融合了令牌级策略梯度、留一法优势估计以及负样本选择性过滤等技术，有效稳定了在非平稳环境中的训练过程。

兼容多种智能体推理范式

在实际应用（推理）时，Tongyi DeepResearch 兼容两种模式：

ReAct 模式：用于严格评估模型的核心内在能力，强调其一步一步推理和行动的能力。
基于迭代研究的“重型”模式：该模式采用测试时扩展策略，旨在充分释放模型的性能上限，应对极其复杂的搜索任务。

模型下载与获取

目前，Tongyi-DeepResearch-30B-A3B 模型已正式发布。您可以通过以下渠道下载：

模型名称	下载链接	模型规模	上下文长度
`Tongyi-DeepResearch-30B-A3B`	Hugging Face ModelScope	30B-A3B	128K

快速上手指南

以下是如何快速设置环境并运行模型推理脚本的详细步骤。

1. 环境设置

推荐使用 Python 3.10.0 版本，以避免潜在的依赖冲突。强烈建议使用 Conda 或 Virtualenv 创建一个独立的虚拟环境。

# 使用 Conda 创建环境
conda create -n react_infer_env python=3.10.0
conda activate react_infer_env

2. 安装依赖

在激活的环境下，安装项目运行所需的全部依赖包。

pip install -r requirements.txt

3. 准备评估数据

模型推理需要特定的数据格式。

在项目根目录下创建一个名为 eval_data/ 的文件夹。
将你的问答数据文件以 JSONL 格式放入该目录，例如 eval_data/example.jsonl。
该文件的每一行都必须是一个 JSON 对象，且必须包含 question 和 answer 两个键：
```
{"question": "你的问题文本", "answer": "对应的参考答案"}
```
项目中的 eval_data 文件夹内提供了一个样例文件供您参考。
特别注意：如果您计划使用文件解析器工具，需要在 question 字段前预置文件名，并将该文件放置在 eval_data/file_corpus/ 目录下。

4. 配置推理脚本

接下来，需要配置运行脚本。打开 run_react_infer.sh 文件，根据脚本内的注释说明修改以下几个关键变量：

MODEL_PATH: 指向模型权重文件的本地或远程路径。
DATASET: 评估数据集的文件名（不含路径和扩展名），例如 example。
OUTPUT_PATH: 模型预测结果的输出保存路径，例如 ./outputs。

此外，根据您希望启用的工具（如网络搜索、计算器、文件解析等），您可能需要提供相应的 API 密钥或访问凭证（如 API_KEY, BASE_URL）。这些配置项的说明均已在脚本中以注释形式给出。

5. 运行推理

完成所有配置后，即可运行脚本启动推理过程。

bash run_react_infer.sh

遵循以上步骤，您就可以完成环境准备、数据配置并运行模型进行推断了。更多细节请参考脚本内的注释或查阅项目文档。

卓越的性能表现

Tongyi DeepResearch 在多个极具挑战性的智能体搜索基准测试中均取得了领先的成果，这些基准包括：

Humanity’s Last Exam
BrowserComp 与 BrowserComp-ZH
WebWalkerQA
xbench-DeepSearch
FRAMES
SimpleQA

其综合性能表现如下图所示，充分证明了其在复杂信息寻求任务上的强大实力。
Tongyi DeepResearch 性能对比图

深度研究智能体家族

Tongyi DeepResearch 并非一个孤立的项目，而是一个庞大且不断发展的深度研究智能体家族的一部分。该家族包含多个专注于不同方向的前沿研究项目，共同推动着智能体技术的发展：

WebWalker：专注于对大语言模型进行网页遍历任务的基准测试。
WebDancer：致力于实现自主信息寻求的智能体能力。
WebSailor：探索网络智能体中超人类推理的导航机制。
WebShaper：通过信息寻求形式化的方式，代理性地合成数据。
WebWatcher：突破了视觉-语言深度研究智能体的新前沿。
WebResearcher：释放长视野智能体中无限推理能力的研究。
ReSum：通过上下文摘要解锁长视野搜索智能。
WebWeaver：利用动态大纲为开放域深度研究构建网络规模的证据体系。
WebSailor-V2：通过合成数据和可扩展强化学习弥合与专用智能体之间的差距。
AgentFounder：通过持续预训练扩展智能体基础能力。
AgentScaler：通过环境缩放迈向通用智能体智能。

这些研究相互关联，构成了 Tongyi 在通用智能体领域宏伟的技术蓝图。

常见问题解答（FAQ）

Q1: Tongyi DeepResearch 和普通的语言模型（如 ChatGPT）有什么区别？
A: 普通语言模型擅长对话和文本生成，而 Tongyi DeepResearch 是专为“深度信息搜索”设计的“智能体”。它更像一个能自主规划、执行多步操作（如搜索、计算、阅读文件）、并进行复杂推理的数字助手，专门解决那些需要长时间思考和多维度信息整合的复杂问题。

Q2: 30B-A3B 的参数规模是什么意思？
A: 这意味着模型总共拥有 300 亿个参数，但采用了先进的“混合专家”（Mixture of Experts, MoE）架构。在处理任何一个问题时，它只会动态地激活和使用其中的 30 亿参数。这样做的好处是，在保持极强能力的同时，大大提高了计算效率，降低了推理成本。

Q3: 我需要非常专业的编程知识才能使用它吗？
A: 基础的使用并不需要。我们提供了详细的脚本和配置说明，按照“快速指南”的步骤，了解基本命令行操作的用户都可以成功运行示例。当然，如果您想深度定制或集成到自己的系统中，则需要更多的技术开发知识。

Q4: 它支持中文吗？
A: 是的！从其在 BrowserComp-ZH（中文浏览器任务基准）上的卓越表现可以看出，该模型对中文的理解和处理能力同样强大，能够有效地完成中文环境的深度搜索任务。

Q5: 模型支持多长的上下文？
A: 该模型支持长达 128K Token 的上下文窗口。这意味着它可以一次性阅读并理解非常长的文档（如数百页的报告），并在整个长上下文中保持连贯的推理，这对于深度研究任务至关重要。

总结

Tongyi DeepResearch 代表了大语言模型在迈向通用智能体道路上的一个重要里程碑。它通过创新的模型架构、大规模高质量的数据训练以及先进的强化学习技术，在长视野、深层次的信息寻求任务上设定了新的性能标杆。无论是对于学术研究者还是开发者而言，它都提供了一个强大的工具来探索和构建下一代能够自主理解、推理和交互的人工智能应用。

您可以访问其 GitHub 项目主页获取最新代码和详细文档，即刻体验深度研究智能体的强大能力。