多智能体系统一定更强？180 组实验告诉你“人多”何时反而坏事

“

核心问题：把模型从 1 个拉到 9 个，到底什么任务会涨点、什么任务会翻车？
一句话答案：任务能拆、工具不多、单基线低于 45 % 时，多智能体才大概率划算；否则协调税把收益吃得干干净净。

本文欲回答的核心问题

哪些量化指标能提前预判“该用几个模型”？
真实数据里，不同架构的涨跌幅到底多大？
如果只能记住一张表，哪张表能直接指导上线决策？

1 背景：为什么“更多模型”不再包治百病

过去两年，社区默认“ensemble 就是正义”：五个模型投票在 HumanEval 上能飙到 89 %。但作者们发现，这些 benchmark 都是“一锤子买卖”——没有状态、没有外部工具、也没有错误级联。
一旦任务需要多轮调用工具、状态会随执行变化，协调开销就指数级放大：信息碎片化、token 重复、错误互相传染。于是出现“五个模型不如一个”的尴尬场面。
反思：作为从业者，我曾把 8 个 GPT-4 塞进工作流，结果 latency 翻 5 倍、错误率反升——这篇论文终于用数据把我踩过的坑系统化了。

2 实验设计：把变量锁死，只看“协调结构”

固定预算：总 token 数 4 800 ± 5 %，防止“堆算力”作弊
固定提示词与工具集，只改架构
横跨 3 大家族 9 款模型，Intelligence Index 34–66
4 个 agentic benchmark：金融分析、网页调研、Minecraft 规划、办公 workflow
5 种架构：Single、Independent、Centralized、Decentralized、Hybrid
共 180 组配置，14 742 条轨迹，全部可复现

架构	通信拓扑	典型回合数	相对 token 开销
Single	无	7.2	1.0 ×
Independent	0 条边	11.4	1.6 ×
Centralized	星形	27.7	3.9 ×
Decentralized	全连接	26.1	3.6 ×
Hybrid	星+点对点	44.3	6.2 ×

3 结果速览：涨 81 % 与跌 70 % 可以同时出现

3.1 任务维度

Finance-Agent（可并行）：Centralized 最猛 +80.9 %
BrowseComp-Plus（动态网页）：Decentralized 小赢 +9.2 %
Workbench（工具链）：几乎打平，最佳 +5.7 %
PlanCraft（强顺序）：全军覆没，最差 –70 %

3.2 模型维度

同一架构换不同家族，收益差可达 30 %。Anthropic 的 Claude 3.7 在 Centralized 里能 +127 %，Google 的 Gemini-2.5Pro 同期仅 +71 %，说明“谁听谁”的注意力风格也会影响协调税。

性能与成本散点
图片来源：Unsplash

4 预测公式：把“感觉”拆成 20 个系数

作者用混合效应模型把 180 条实验数据压成一条可读公式，交叉验证 R² = 0.513，留一领域 R² = 0.89。下面给出核心交互项，可直接心算。

Performance ≈
  0.256·I²          ← 模型越聪明，边际收益越陡
- 0.330·Ec×T        ← 工具多+效率低，灾难组合
- 0.141·O%×T        ← 开销随工具数指数放大
- 0.408·PSA×log(n)  ← 单基线>45 % 时，加人反而拖后腿

使用示范：
任务 T=12 个工具，单基线 PSA=0.50，打算上 4 个 Agent，估得 Ec≈0.12、O%≈300 %，代入可知多智能体项为负，直接选 Single 更稳。

反思：我过去只算“成本”和“准确率”两项，现在发现把“工具数”与“效率”相乘才是头号杀手；这条公式已经被我用 Notion 做成模板，上线前 10 秒就能跑一遍。

5 场景化示例：三条常见任务路线

场景	工具数	拆分性	推荐架构	预期收益	备注
财报交叉验证	6	高	Centralized	+40~80 %	子代理可并行跑不同表格
网页多维比价	10	中	Decentralized	+5~15 %	需要来回讨论最新结果
Minecraft 任务链	4	低	Single	0 %	顺序依赖重，通信=添乱

代码片段：快速估算函数（Python）

def mas_score(I, T, PSA, n, Ec, O):
    # 全部变量已标准化，返回正值表示多智能体划算
    return (0.256 * I**2
            - 0.330 * Ec * T
            - 0.141 * O * T
            - 0.408 * PSA * (1 + n).log())

6 作者亲测：把公式搬进生产要注意的三件事

token 预算一定先锁死，否则“通信膨胀”会让公式失效；Hybrid 在 6.2 × 回合时真实 latency 可飙到 20 s 以上。
工具>12 个时，先砍工具再谈架构，因为 T 与开销是乘积关系。
异构模型（弱协调+强执行）在 Centralized 里可能意外好用，但一定留 20 % 在线 A/B 容量，防止“弱领队”把方向带偏。

7 实用摘要 / 操作清单

[ ] 先跑单 Agent baseline，记录 PSA 与工具数 T
[ ] 若 PSA > 0.45 且 T > 8 → 直接 Single
[ ] 若任务可拆、T ≤ 8 → 选 Centralized（3–4 个 Agent）
[ ] 若环境动态、需多轮协商 → 选 Decentralized
[ ] Hybrid 仅在你能容忍 6 × token 成本时尝试
[ ] 上线后持续监控 Ec 与 O%，一旦 Ec < 0.1 立即回滚

8 One-page Summary

More agents ≠ more accuracy. Under fixed token budgets, coordination tax grows super-linearly with tool count. Use the 20-coefficient scaling law: when single-agent baseline > 45 % or tools > 12, stay single; otherwise Centralized for parallel tasks, Decentralized for dynamic negotiation. Validated on 180 configs across 3 model families and 4 benchmarks—87 % architecture choices correctly predicted.

FAQ

Q：最多可以堆到几个 Agent？
A：实验最大 9 个，但回合数按 n^1.72 膨胀；3–4 个是性价比拐点。
Q：为啥 Independent 永远垫底？
A：错误放大 17 ×，且无交叉验证，工具越多崩得越惨。
Q：公式里变量要自己做标准化吗？
A：原文已公开均值/方差，复制实验直接用即可；线上新任务建议先跑 30 条样本拟合本地系数。
Q：Claude 4.5 和 GPT-5 谁更适合带团队？
A：Claude 4.5 在 Centralized 里方差最小，适合“保守验证”场景；GPT-5 在 Hybrid 里峰值高，适合“创意碰撞”场景。
Q：工具数怎么界定？
A：一次完整轨迹中，被调用的不同 API 去重计数；同一接口反复调用只算 1 个。
Q：如果预算无限，还看这些指标吗？
A：预算无限时 Centralized 持续受益，但真实部署中 token 与 latency 就是天花板，公式依旧有参考价值。
Q：能否直接用于多模态或机器人？
A：本文仅限文本+工具环境； embodied 任务若同样存在状态依赖与工具税，可借鉴思路，但需重新拟合系数。

别再乱堆智能体了！论文揭示：180组实验发现“人多坏事”的惊人边界