站点图标 高效码农

AgentCPM开源智能体:4B参数在本地驱动百轮深度搜索,8B模型生成媲美Gemini的万字报告

AgentCPM:在终端侧实现深度搜索与万字报告的开源智能体突破

在追求更高智能的浪潮中,我们是否只能在云端巨量参数与大带宽联网之间二选一?当复杂任务动辄需要上百轮工具调用,而隐私数据又绝不能离开本地时,智能体的未来是否注定被割裂?今天,由清华大学、中国人民大学与面壁智能联合开源的两个项目——AgentCPM-Explore与AgentCPM-Report,正试图给出一个全新的答案:让长程、深度的智能体能力,在参数极简、完全本地的端侧设备上成为现实。

概述与核心突破:重新定义端侧智能的边界

本文欲回答的核心问题:一个开源项目如何通过两个独立的模型,分别攻克智能体在“深度探索”与“深度报告”领域的难题,并实现端侧部署?

长期以来,智能体(AI Agent)在处理需要多步规划、实时信息检索与复杂推理的长程任务时,往往依赖于参数量庞大(数十亿乃至千亿级)的云端模型。这不仅带来了高延迟、高成本的挑战,更让金融、医疗、法律等高隐私敏感行业的应用望而却步。AgentCPM项目的出现,正是为了打破这一瓶颈。

AgentCPM并非单一模型,而是一个聚焦于解决智能体“深度研究”能力的系列。其最新开源的两大成员各司其职:

  • AgentCPM-Explore (4B):一个拥有40亿参数的“深度搜索专家”。它的核心使命是理解用户复杂意图,自主规划并执行超过100轮的工具调用(如搜索、查询、计算),通过多源信息交叉验证,在动态环境中持续探索直至找到最终答案。
  • AgentCPM-Report (8B):一个基于80亿参数MiniCPM4.1的“深度写作专家”。它擅长接收一个开放式指令,通过数十轮深度检索与近百轮思维链推演,从海量信息中整合、分析、重构,最终产出逻辑严密、洞察深刻的万字长文报告。

它们共同的特点是 “以小博大”“端侧优先” 。在参数量仅为同类标杆模型几分之一甚至几十分之一的情况下,它们在国际权威评测中取得了媲美甚至超越部分30B级别开源模型和闭源商业系统的成绩,让高性能智能体在手机、边缘服务器等终端设备上的私有化部署成为可能。

个人反思:在模型规模竞赛白热化的今天,AgentCPM选择了一条“深度优化”而非“盲目扩大”的路径。这提示我们,对于智能体这类强调规划与执行的应用,模型架构、训练方法和工具生态的协同设计,其重要性可能不亚于单纯的参数堆砌。

AgentCPM-Explore深度解析:4B参数如何驱动百轮自主探索

本段欲回答的核心问题:一个仅40亿参数的模型,如何胜任需要上百轮交互、多工具协同的复杂任务?

想象一下,你需要完成这样一个任务:“帮我查一下,在新能源车领域,特斯拉4680电池、比亚迪刀片电池和宁德时代麒麟电池,这三者在能量密度、成本和安全性的最新技术进展和市场竞争格局分别是怎样的?” 这不是一次简单的搜索能回答的,它需要拆解问题、多次检索、对比信息、核实数据,甚至追踪最新的行业动态。

这就是AgentCPM-Explore的设计目标。它并非一个通用的聊天模型,而是一个专为“探索”而生的智能体。

核心技术亮点与实现

  1. 长程任务处理能力:模型经过特殊训练,能够维持超长的上下文连贯性和任务目标一致性,支持超过100轮的连续人机或机-环境交互。这意味着它不会在复杂的探索中途“忘记”最初的目标或迷失在信息碎片中。
  2. 动态策略规划与验证:它不仅能调用工具,更能根据上一步的结果动态调整搜索策略。例如,当从一个来源得到矛盾信息时,它会自动发起新一轮查询进行交叉验证;当发现信息过时,它会尝试寻找更近期的资料。这种“思考-行动-观察-再规划”的闭环是其深度研究能力的核心。
  3. 全栈开源框架:其强大能力背后是一套完整的开源基础设施支持:
    • AgentRL:一个全异步的智能体强化学习训练框架。开发者可以利用它,使用自己定义的任务环境和奖励机制来训练或微调专属的探索智能体。
    • AgentDock:一个统一的工具沙盒管理平台。它基于Model Context Protocol (MCP),以容器化方式管理各类工具服务(如网页搜索、文档解析、代码执行等),为智能体提供稳定、可扩展的工具调用环境。
    • AgentToLeaP:一个一键式的智能体能力评测框架。它集成了GAIA、HLE、BrowseComp等8个经典智能体评测基准,让开发者可以轻松、标准化地评估自己模型的性能。

场景化示例:快速上手体验

场景:一位市场分析师希望每天自动获取并摘要arXiv上最新的计算机科学论文,以追踪技术趋势。

操作步骤(基于项目提供的QuickStart):

  1. 环境准备:使用项目预制的Docker镜像,一键获得包含所有依赖的评测环境。
    docker pull yuyangfu/agenttoleap-eval:v1.0
    docker run -dit --name agenttoleap --gpus all --network host -v $(pwd):/workspace yuyangfu/agenttoleap-eval:v1.0
    docker exec -it agenttoleap /bin/bash
    
  2. 启动工具平台:在另一个终端,启动AgentDock工具沙盒,它将提供后续探索所需的搜索、阅读等工具服务。
    cd AgentDock
    docker compose up -d
    
  3. 配置与运行:修改项目根目录下的 quickstart.py 脚本,将查询指令 QUERY 设置为“获取今日arXiv上CS领域的论文列表并摘要”,并配置好模型API和工具服务器地址。运行脚本。
    python quickstart.py
    
  4. 查看结果:在 outputs/quickstart_results/ 目录下,你会找到完整的 dialog.json 文件。这份文件清晰地记录了智能体完整的“思维链”:它如何规划步骤(先访问arXiv,再按类别筛选),调用了哪些工具,获得了什么中间结果,以及最终如何组织答案。

性能实证:在经典榜单上的表现

理论研究能力需要客观衡量。AgentCPM-Explore在涵盖复杂推理、网页浏览、长程决策的8个经典智能体评测集上接受了检验。其成绩揭示了“小模型”的“大潜力”:

GAIA(复杂问答)、BrowseComp(网页浏览理解)、HLE(人类长程评估)等极具挑战性的榜单上,这个仅4B的模型不仅在同尺寸模型中达到了SOTA(最佳水平),其表现更赶超了众多参数量为其两倍(8B级别)的对手。尤其在 WebWalkerQA(网页导航问答)和 Seal-0(搜索引擎增强问答)任务上,其68.1%和40.5%的得分,甚至能与部分30B以上量级的开源模型一较高下,清晰地证明了其在信息检索与多步推理任务上的高效性。

个人见解:Explore的成功并非偶然。它基于Qwen3-4B-Thinking这一本身就强化了思考能力的基座,再通过专门的强化学习框架进行工具使用和长程规划的训练。这就像培养一个拥有良好基础逻辑的实习生,再通过高强度的“实战演练”让其成为领域专家。这为社区提供了宝贵的范例:无需等待千亿级模型,通过精心设计的任务和训练,中等规模的模型也能在特定智能体任务上大放异彩。

AgentCPM-Report深度解析:在本地生成媲美顶尖闭源的深度报告

本段欲回答的核心问题:一个完全运行在本地的8B模型,如何能写出质量堪比Gemini DeepResearch的万字深度报告?

如果说Explore是“信息探险家”,那么Report就是“信息建筑师”。它的任务不是寻找一个具体答案,而是围绕一个开放主题,进行地毯式信息检索、深度消化与结构化重组,最终构建出一份论据充分、见解独到的长篇报告。

核心价值与独特优势

  1. 极致效能,以小博大:在深度调研任务上,它实现了以8B参数规模对标顶级闭源商业系统(如Gemini 2.5 Pro DeepResearch)的性能。这意味着,在终端设备有限的算力下,用户也能获得过去只能依赖云端高端服务才能实现的报告质量。
  2. 物理隔绝,绝对安全:这是其最核心的竞争优势。整个系统支持完全离线的本地化部署。用户的私有知识库(如企业内部文档、专利库、客户资料)在本地被向量化、索引,模型的所有检索、思考、写作过程均在本地完成,彻底杜绝了数据上传云端可能带来的泄露风险,完美契合金融、法律、政府、医疗等行业的合规性要求。

实战演示:从零部署到报告生成

场景:一家投资机构的研究员需要基于公司内部的项目数据库和公开的行业新闻,撰写一份关于“AI制药行业竞争格局”的深度分析报告。

操作步骤

  1. 一键部署:得益于与UltraRAG低代码RAG框架的深度集成,部署变得异常简单。
    git clone git@github.com:OpenBMB/UltraRAG.git
    cd UltraRAG
    git checkout agentcpm-report-demo
    cd agentcpm-report-demo
    cp env.example .env
    docker-compose -f docker-compose.yml up -d --build
    

    (首次运行会拉取镜像、下载模型,约需30分钟)

  2. 构建知识库:访问 http://localhost:5050 打开图形化管理界面。
    • 上传内部项目数据库文件(PDF、Word、TXT等)。
    • (可选)导入公开的Wiki2024数据集作为通用知识补充。
    • 系统会自动进行文本切分、向量化,并在后台的Milvus向量数据库中建立索引。
  3. 生成报告:在Chat界面,选择“AgentCPM-Report”管道,输入指令:“请基于我们已上传的内部数据库和公开信息,撰写一份关于AI制药行业技术路线、主要玩家、市场风险和未来机遇的深度分析报告,不少于8000字。”
  4. 观察与获取:系统将启动一个漫长的自动化流程。你会看到后台日志显示,模型正在进行多轮检索(从知识库中定位相关信息)、组织大纲、展开论述、核实数据。最终,一份结构完整、引用内部数据与外部事实的长篇报告将呈现在你面前。

权威评测印证:比肩顶尖的商业系统

光有演示不够,需要严苛的量化评估。AgentCPM-Report在多个深度研究专项评测中证明了自己的实力:

  • 在DeepResearch Bench上,其综合得分(50.11)已非常接近当前公认的标杆Gemini-2.5-Pro-DeepResearch(49.71)。更引人注目的是,在衡量报告是否有独到观点的 “Insight”(洞察力) 子项上,它以52.64的高分实现了反超。这证明了其不仅是在罗列信息,更能进行有价值的分析与提炼。
  • 在DeepResearch Gym上,其综合表现(98.48)甚至超越了所有对比系统,包括Gemini和基于Claude的WebWeaver。在 “Depth”(深度)“Breadth”(广度)“Insightfulness”(富有见解) 这几个关键维度上,它均获得了满分或接近满分的评价,充分验证了其进行全方位、深层次信息挖掘与重组的能力。

个人反思:Report模型的价值,远不止于一个“写作工具”。它实质上构建了一个“私有化的深度研究助理”。在信息过载的时代,它为企业和个人提供了将沉默的私有数据资产转化为高质量决策依据的安全、自主的通道。其成功也凸显了RAG(检索增强生成)技术与智能体工作流结合的巨大潜力——模型不需要通晓一切,但必须懂得如何高效、精准地找到并运用一切。

开源生态与社区共建:不只是模型,更是基础设施

本段欲回答的核心问题:AgentCPM项目为开发者社区提供了哪些可扩展、可定制的底层支持?

一个模型的生命力在于其生态。AgentCPM系列之所以引人注目,不仅因为模型本身的性能,更在于它们将训练、部署、评测的全套“基础设施”都进行了开源,极大地降低了研究与应用的壁垒。

  • 自定义工具接入:如果你有一个内部API或特殊的数据处理工具,可以轻松地将其封装成符合MCP协议的服务,添加到AgentDock平台中。智能体便能立即学会调用这个新工具。这为垂直领域(如电商库存查询、物联网设备控制)智能体的构建铺平了道路。
  • 自定义模型接入:框架支持接入其他兼容的工具调用格式的模型。开发者只需为新的模型实现一个轻量的“工具调用解析器”,就可以让该模型利用起AgentDock上丰富的工具生态。
  • 自定义评测集:研究者若想在新提出的任务上评估智能体,只需在AgentToLeaP框架下按照格式准备数据,即可无缝融入整个评测流水线,结果与现有基准可比对。

这种开放性和模块化设计,鼓励社区在其基础上进行创新和适配,共同推动端侧智能体技术的发展。

场景化落地指南:你的业务如何用上AgentCPM

本段欲回答的核心问题:不同行业的用户,如何将AgentCPM-Explore和AgentCPM-Report应用到实际业务中?

技术最终服务于场景。以下是一些基于其核心能力的落地设想:

应用行业 AgentCPM-Explore 应用场景 AgentCPM-Report 应用场景
金融投研 实时监控多家上市公司公告、新闻、舆情,自动交叉验证信息,提取关键财务事件与风险信号。 基于内部研报库和公开数据,自动生成行业季度分析报告、竞品深度对比报告。
法律与合规 根据案例要点,自动检索相关法律条文、历史判例和学术观点,进行多维度比对分析。 整理大量案件卷宗和证据材料,自动生成案件综述报告、合规审查意见书。
医疗与生物 追踪某一靶点或药物的全球最新临床试验动态、科研论文发表情况。 整合患者病历、检验报告和最新医学文献,辅助生成个性化诊疗方案分析报告。
科技与研发 监控指定技术领域(如固态电池)的全球专利动态、顶级会议论文。 调研某一技术路线的起源、发展、流派与未来趋势,生成技术路线分析报告。
教育与学术 帮助学生或研究者对一个复杂学术问题进行系统性文献调研,梳理研究脉络。 辅助研究者撰写文献综述、项目立项依据等需要广博引用和深度分析的内容。
企业内部 作为高级企业助手,跨系统查询订单、物流、客户反馈信息,回答复杂业务查询。 自动汇总各部门周报/月报数据,生成公司经营分析报告;分析客户反馈生成产品改进建议报告。

操作清单

  1. 明确需求:你的任务是寻找一个具体答案,还是生成一份综合性论述?前者选Explore,后者选Report。
  2. 评估环境:是否有严格的数据不出域要求?如果有,Report的本地化部署是必选项。
  3. 准备知识:对于Report,开始整理你的内部文档、数据库、知识库,这是其发挥价值的基础。
  4. 尝试部署:按照本文或官方README的“快速开始”指南,先在测试环境完成部署和一次完整流程跑通。
  5. 定制开发:根据业务需要,通过AgentDock接入你的专属工具,或利用AgentRL框架在特定任务数据上微调Explore模型。

总结与前瞻

AgentCPM-Explore与AgentCPM-Report的联袂开源,标志着大模型智能体的发展进入了一个新的阶段:从追求规模的“大力出奇迹”,转向追求效率、安全与可控性的“精巧而强大”。它们证明了,通过精密的模型架构设计、针对性的训练方法和完善的基础设施建设,中等规模的模型完全有能力在长程、复杂的智能体任务上担当大任。

这不仅仅是一次技术发布,更是一个明确的信号:智能体的未来将是云端与端侧协同通用与专用并存的。对于绝大多数需要处理私有数据、要求快速响应、或考虑成本可控的企业与个人场景,一个能够在端侧高效、安全运行的专用智能体,其现实意义和价值,或许远超一个遥不可及、成本高昂的通用巨无霸模型。


一页速览(One-page Summary)

  • 是什么:开源的双子星智能体模型,专注于“深度研究”能力。
  • Explore (4B)深度搜索专家。擅长多轮规划、工具调用,在复杂动态环境中探索答案。适用于事实查证、信息监控、复杂问答
  • Report (8B)深度写作专家。擅长整合多源信息,生成长篇深度报告。核心优势是完全本地部署,保障数据绝对安全。适用于行业分析、文献综述、合规报告等。
  • 核心成就:以极小参数量,在多项权威评测中达到或超越部分大尺寸开源及闭源模型水平。
  • 开源生态:提供全套训练框架(AgentRL)、工具平台(AgentDock)、评测框架(AgentToLeaP),支持深度定制。
  • 谁该用:金融、法律、医疗、科研等对数据隐私、报告质量、自动化深度研究有高需求的行业与开发者。

常见问题解答(FAQ)

  1. AgentCPM-Explore和AgentCPM-Report我该用哪个?
    如果你的核心需求是回答一个具体、复杂的问题,需要联网或调用多种工具进行多步探索,请使用Explore。如果你的核心需求是围绕一个主题生成一篇结构完整、论据详实的长篇报告,且数据源主要是你的本地知识库,请使用Report。

  2. 部署AgentCPM-Report需要多强的硬件?
    推荐使用GPU进行推理以获得可接受的速度。项目提供了使用vLLM(GPU版)和llama.cpp(CPU版)两种部署方式,CPU版速度较慢但兼容性更广。具体内存和显存需求请参考模型文件的说明(约8B参数对应约16GB+的显存可获得较好体验)。

  3. 我能用自己的数据训练一个类似AgentCPM-Explore的模型吗?
    可以。项目开源的AgentRL框架就是一个全异步的智能体强化学习训练框架。你需要定义自己的任务环境、工具集和奖励函数,然后利用该框架在自己的任务数据上对基座模型(如Qwen3-4B)进行训练或微调。

  4. AgentDock工具沙盒支持我接入公司内部的API吗?
    完全支持。你需要按照MCP协议,将内部API封装成一个工具服务,并将其配置添加到AgentDock的 config.toml 文件中,重启相关服务节点即可。智能体模型便能自动识别并调用这个新工具。

  5. AgentCPM-Report的“本地安全”具体是如何实现的?
    整个系统(包括向量数据库Milvus、推理框架vLLM、前端界面)可以通过Docker Compose在一台离线服务器或PC上完整部署。所有数据(您的文档、生成的向量索引、模型参数、报告内容)全程不离开该设备网络,实现物理隔绝。

  6. 这两个模型支持中文吗?
    完全支持。两个模型在训练和评测中都充分考虑了中英文双语能力,在BrowseComp (ZH)、DeepConsult等中文评测集上都有出色表现,尤其适合中文环境下的深度研究和报告撰写。

  7. 是否有现成的、可视化的界面可以使用,还是必须通过代码?
    AgentCPM-Report与UltraRAG框架集成,提供了开箱即用的Web图形界面(localhost:5050),用户可以通过上传文件、点击按钮等方式进行操作,无需编写代码。AgentCPM-Explore目前主要通过Python脚本进行任务配置和启动,适合开发者直接集成到自动化流程中。

  8. 它们的表现真的能赶上Gemini DeepResearch吗?
    根据项目方在DeepResearch Bench等公开评测集上的结果,AgentCPM-Report在综合得分上已非常接近Gemini 2.5 Pro DeepResearch,并在“洞察力”等单项上实现反超。这证明了其在深度报告生成这一特定任务上具备顶尖竞争力。当然,具体效果可能因任务领域、知识库质量等因素略有波动。

退出移动版