站点图标 高效码农

别再乱堆智能体了!论文揭示:180组实验发现“人多坏事”的惊人边界

多智能体系统一定更强?180 组实验告诉你“人多”何时反而坏事

核心问题:把模型从 1 个拉到 9 个,到底什么任务会涨点、什么任务会翻车?
一句话答案:任务能拆、工具不多、单基线低于 45 % 时,多智能体才大概率划算;否则协调税把收益吃得干干净净。


本文欲回答的核心问题

  1. 哪些量化指标能提前预判“该用几个模型”?
  2. 真实数据里,不同架构的涨跌幅到底多大?
  3. 如果只能记住一张表,哪张表能直接指导上线决策?

1 背景:为什么“更多模型”不再包治百病

过去两年,社区默认“ensemble 就是正义”:五个模型投票在 HumanEval 上能飙到 89 %。但作者们发现,这些 benchmark 都是“一锤子买卖”——没有状态、没有外部工具、也没有错误级联。
一旦任务需要多轮调用工具、状态会随执行变化,协调开销就指数级放大:信息碎片化、token 重复、错误互相传染。于是出现“五个模型不如一个”的尴尬场面。
反思:作为从业者,我曾把 8 个 GPT-4 塞进工作流,结果 latency 翻 5 倍、错误率反升——这篇论文终于用数据把我踩过的坑系统化了。


2 实验设计:把变量锁死,只看“协调结构”

  • 固定预算:总 token 数 4 800 ± 5 %,防止“堆算力”作弊
  • 固定提示词与工具集,只改架构
  • 横跨 3 大家族 9 款模型,Intelligence Index 34–66
  • 4 个 agentic benchmark:金融分析、网页调研、Minecraft 规划、办公 workflow
  • 5 种架构:Single、Independent、Centralized、Decentralized、Hybrid
  • 共 180 组配置,14 742 条轨迹,全部可复现
架构 通信拓扑 典型回合数 相对 token 开销
Single 7.2 1.0 ×
Independent 0 条边 11.4 1.6 ×
Centralized 星形 27.7 3.9 ×
Decentralized 全连接 26.1 3.6 ×
Hybrid 星+点对点 44.3 6.2 ×

3 结果速览:涨 81 % 与跌 70 % 可以同时出现

3.1 任务维度

  • Finance-Agent(可并行):Centralized 最猛 +80.9 %
  • BrowseComp-Plus(动态网页):Decentralized 小赢 +9.2 %
  • Workbench(工具链):几乎打平,最佳 +5.7 %
  • PlanCraft(强顺序):全军覆没,最差 –70 %

3.2 模型维度

同一架构换不同家族,收益差可达 30 %。Anthropic 的 Claude 3.7 在 Centralized 里能 +127 %,Google 的 Gemini-2.5Pro 同期仅 +71 %,说明“谁听谁”的注意力风格也会影响协调税。


图片来源:Unsplash


4 预测公式:把“感觉”拆成 20 个系数

作者用混合效应模型把 180 条实验数据压成一条可读公式,交叉验证 R² = 0.513,留一领域 R² = 0.89。下面给出核心交互项,可直接心算。

Performance ≈
  0.256·I²          ← 模型越聪明,边际收益越陡
- 0.330·Ec×T        ← 工具多+效率低,灾难组合
- 0.141·O%×T        ← 开销随工具数指数放大
- 0.408·PSA×log(n)  ← 单基线>45 % 时,加人反而拖后腿

使用示范
任务 T=12 个工具,单基线 PSA=0.50,打算上 4 个 Agent,估得 Ec≈0.12、O%≈300 %,代入可知多智能体项为负,直接选 Single 更稳。

反思:我过去只算“成本”和“准确率”两项,现在发现把“工具数”与“效率”相乘才是头号杀手;这条公式已经被我用 Notion 做成模板,上线前 10 秒就能跑一遍。


5 场景化示例:三条常见任务路线

场景 工具数 拆分性 推荐架构 预期收益 备注
财报交叉验证 6 Centralized +40~80 % 子代理可并行跑不同表格
网页多维比价 10 Decentralized +5~15 % 需要来回讨论最新结果
Minecraft 任务链 4 Single 0 % 顺序依赖重,通信=添乱

代码片段:快速估算函数(Python)

def mas_score(I, T, PSA, n, Ec, O):
    # 全部变量已标准化,返回正值表示多智能体划算
    return (0.256 * I**2
            - 0.330 * Ec * T
            - 0.141 * O * T
            - 0.408 * PSA * (1 + n).log())

6 作者亲测:把公式搬进生产要注意的三件事

  1. token 预算一定先锁死,否则“通信膨胀”会让公式失效;Hybrid 在 6.2 × 回合时真实 latency 可飙到 20 s 以上。
  2. 工具>12 个时,先砍工具再谈架构,因为 T 与开销是乘积关系。
  3. 异构模型(弱协调+强执行)在 Centralized 里可能意外好用,但一定留 20 % 在线 A/B 容量,防止“弱领队”把方向带偏。

7 实用摘要 / 操作清单

  • [ ] 先跑单 Agent baseline,记录 PSA 与工具数 T
  • [ ] 若 PSA > 0.45 且 T > 8 → 直接 Single
  • [ ] 若任务可拆、T ≤ 8 → 选 Centralized(3–4 个 Agent)
  • [ ] 若环境动态、需多轮协商 → 选 Decentralized
  • [ ] Hybrid 仅在你能容忍 6 × token 成本时尝试
  • [ ] 上线后持续监控 Ec 与 O%,一旦 Ec < 0.1 立即回滚

8 One-page Summary

More agents ≠ more accuracy. Under fixed token budgets, coordination tax grows super-linearly with tool count. Use the 20-coefficient scaling law: when single-agent baseline > 45 % or tools > 12, stay single; otherwise Centralized for parallel tasks, Decentralized for dynamic negotiation. Validated on 180 configs across 3 model families and 4 benchmarks—87 % architecture choices correctly predicted.


FAQ

  1. Q:最多可以堆到几个 Agent?
    A:实验最大 9 个,但回合数按 n^1.72 膨胀;3–4 个是性价比拐点。

  2. Q:为啥 Independent 永远垫底?
    A:错误放大 17 ×,且无交叉验证,工具越多崩得越惨。

  3. Q:公式里变量要自己做标准化吗?
    A:原文已公开均值/方差,复制实验直接用即可;线上新任务建议先跑 30 条样本拟合本地系数。

  4. Q:Claude 4.5 和 GPT-5 谁更适合带团队?
    A:Claude 4.5 在 Centralized 里方差最小,适合“保守验证”场景;GPT-5 在 Hybrid 里峰值高,适合“创意碰撞”场景。

  5. Q:工具数怎么界定?
    A:一次完整轨迹中,被调用的不同 API 去重计数;同一接口反复调用只算 1 个。

  6. Q:如果预算无限,还看这些指标吗?
    A:预算无限时 Centralized 持续受益,但真实部署中 token 与 latency 就是天花板,公式依旧有参考价值。

  7. Q:能否直接用于多模态或机器人?
    A:本文仅限文本+工具环境; embodied 任务若同样存在状态依赖与工具税,可借鉴思路,但需重新拟合系数。

退出移动版