多智能体系统一定更强?180 组实验告诉你“人多”何时反而坏事
“
核心问题:把模型从 1 个拉到 9 个,到底什么任务会涨点、什么任务会翻车?
一句话答案:任务能拆、工具不多、单基线低于 45 % 时,多智能体才大概率划算;否则协调税把收益吃得干干净净。
本文欲回答的核心问题
-
哪些量化指标能提前预判“该用几个模型”? -
真实数据里,不同架构的涨跌幅到底多大? -
如果只能记住一张表,哪张表能直接指导上线决策?
1 背景:为什么“更多模型”不再包治百病
过去两年,社区默认“ensemble 就是正义”:五个模型投票在 HumanEval 上能飙到 89 %。但作者们发现,这些 benchmark 都是“一锤子买卖”——没有状态、没有外部工具、也没有错误级联。
一旦任务需要多轮调用工具、状态会随执行变化,协调开销就指数级放大:信息碎片化、token 重复、错误互相传染。于是出现“五个模型不如一个”的尴尬场面。
反思:作为从业者,我曾把 8 个 GPT-4 塞进工作流,结果 latency 翻 5 倍、错误率反升——这篇论文终于用数据把我踩过的坑系统化了。
2 实验设计:把变量锁死,只看“协调结构”
-
固定预算:总 token 数 4 800 ± 5 %,防止“堆算力”作弊 -
固定提示词与工具集,只改架构 -
横跨 3 大家族 9 款模型,Intelligence Index 34–66 -
4 个 agentic benchmark:金融分析、网页调研、Minecraft 规划、办公 workflow -
5 种架构:Single、Independent、Centralized、Decentralized、Hybrid -
共 180 组配置,14 742 条轨迹,全部可复现
3 结果速览:涨 81 % 与跌 70 % 可以同时出现
3.1 任务维度
-
Finance-Agent(可并行):Centralized 最猛 +80.9 % -
BrowseComp-Plus(动态网页):Decentralized 小赢 +9.2 % -
Workbench(工具链):几乎打平,最佳 +5.7 % -
PlanCraft(强顺序):全军覆没,最差 –70 %
3.2 模型维度
同一架构换不同家族,收益差可达 30 %。Anthropic 的 Claude 3.7 在 Centralized 里能 +127 %,Google 的 Gemini-2.5Pro 同期仅 +71 %,说明“谁听谁”的注意力风格也会影响协调税。
图片来源:Unsplash
4 预测公式:把“感觉”拆成 20 个系数
作者用混合效应模型把 180 条实验数据压成一条可读公式,交叉验证 R² = 0.513,留一领域 R² = 0.89。下面给出核心交互项,可直接心算。
Performance ≈
0.256·I² ← 模型越聪明,边际收益越陡
- 0.330·Ec×T ← 工具多+效率低,灾难组合
- 0.141·O%×T ← 开销随工具数指数放大
- 0.408·PSA×log(n) ← 单基线>45 % 时,加人反而拖后腿
使用示范:
任务 T=12 个工具,单基线 PSA=0.50,打算上 4 个 Agent,估得 Ec≈0.12、O%≈300 %,代入可知多智能体项为负,直接选 Single 更稳。
反思:我过去只算“成本”和“准确率”两项,现在发现把“工具数”与“效率”相乘才是头号杀手;这条公式已经被我用 Notion 做成模板,上线前 10 秒就能跑一遍。
5 场景化示例:三条常见任务路线
代码片段:快速估算函数(Python)
def mas_score(I, T, PSA, n, Ec, O):
# 全部变量已标准化,返回正值表示多智能体划算
return (0.256 * I**2
- 0.330 * Ec * T
- 0.141 * O * T
- 0.408 * PSA * (1 + n).log())
6 作者亲测:把公式搬进生产要注意的三件事
-
token 预算一定先锁死,否则“通信膨胀”会让公式失效;Hybrid 在 6.2 × 回合时真实 latency 可飙到 20 s 以上。 -
工具>12 个时,先砍工具再谈架构,因为 T 与开销是乘积关系。 -
异构模型(弱协调+强执行)在 Centralized 里可能意外好用,但一定留 20 % 在线 A/B 容量,防止“弱领队”把方向带偏。
7 实用摘要 / 操作清单
-
[ ] 先跑单 Agent baseline,记录 PSA 与工具数 T -
[ ] 若 PSA > 0.45 且 T > 8 → 直接 Single -
[ ] 若任务可拆、T ≤ 8 → 选 Centralized(3–4 个 Agent) -
[ ] 若环境动态、需多轮协商 → 选 Decentralized -
[ ] Hybrid 仅在你能容忍 6 × token 成本时尝试 -
[ ] 上线后持续监控 Ec 与 O%,一旦 Ec < 0.1 立即回滚
8 One-page Summary
More agents ≠ more accuracy. Under fixed token budgets, coordination tax grows super-linearly with tool count. Use the 20-coefficient scaling law: when single-agent baseline > 45 % or tools > 12, stay single; otherwise Centralized for parallel tasks, Decentralized for dynamic negotiation. Validated on 180 configs across 3 model families and 4 benchmarks—87 % architecture choices correctly predicted.
FAQ
-
Q:最多可以堆到几个 Agent?
A:实验最大 9 个,但回合数按 n^1.72 膨胀;3–4 个是性价比拐点。 -
Q:为啥 Independent 永远垫底?
A:错误放大 17 ×,且无交叉验证,工具越多崩得越惨。 -
Q:公式里变量要自己做标准化吗?
A:原文已公开均值/方差,复制实验直接用即可;线上新任务建议先跑 30 条样本拟合本地系数。 -
Q:Claude 4.5 和 GPT-5 谁更适合带团队?
A:Claude 4.5 在 Centralized 里方差最小,适合“保守验证”场景;GPT-5 在 Hybrid 里峰值高,适合“创意碰撞”场景。 -
Q:工具数怎么界定?
A:一次完整轨迹中,被调用的不同 API 去重计数;同一接口反复调用只算 1 个。 -
Q:如果预算无限,还看这些指标吗?
A:预算无限时 Centralized 持续受益,但真实部署中 token 与 latency 就是天花板,公式依旧有参考价值。 -
Q:能否直接用于多模态或机器人?
A:本文仅限文本+工具环境; embodied 任务若同样存在状态依赖与工具税,可借鉴思路,但需重新拟合系数。

