🌱 VitaBench:重新定义真实世界AI智能体的评估基准

当最强大的AI模型在复杂多变的真实任务中成功率不足30%,我们该如何衡量并推进下一代智能体的发展?

1. 引言:为何我们需要重新思考智能体评估?

近年来,基于大语言模型(LLM)的智能体在工具调用、推理规划和多轮对话方面取得了显著进展。从OpenAI的GPT系列到Anthropic的Claude、Google的Gemini,各大模型都在竞相展示其作为”智能助手”的潜力。然而,当我们把这些模型部署到真实业务场景中时,却发现了一个令人不安的差距:

实验室表现 ≠ 实际应用效果

现有的智能体基准,如ToolTalk、MINT、τ-Bench等,虽然在工具调用准确性方面提供了有价值的评估,但它们往往忽略了真实世界应用的三个关键维度:

  • 信息复杂性:需要整合时空信息、常识知识和多源环境数据
  • 工具依赖性:真实业务中的API之间存在复杂的依赖关系图
  • 用户不确定性:真实用户的意图模糊、行为多变、需求动态演化

为了弥合这一差距,美团龙猫团队推出了VitaBench——一个专注于生活服务场景的智能体评估基准。名称”Vita”源自拉丁语”生命”,体现了其对真实生活服务应用的深度关注。

2. VitaBench概览:前所未有的真实世界复杂度

VitaBench构建了迄今为止最复杂的生活服务模拟环境,其核心特性包括:

2.1 三大业务领域

  • 外卖配送:食品和商品配送服务
  • 到店消费:餐饮和其他店内服务
  • 在线旅游:酒店预订、景点预约、车票管理

2.2 规模与复杂度

  • 66个工具:涵盖读写操作和通用功能
  • 400个任务:100个跨场景任务 + 300个单场景任务
  • 大规模数据库:1,324家服务商、6,946种产品、447条交易记录

2.3 真实数据来源

每个任务都源自多个真实用户请求,经过人工审查和精炼,确保任务既清晰可行,又保留真实世界的模糊性和多解空间。

3. 任务复杂性三维框架:重新定义”难度”

VitaBench的核心理论贡献是提出了智能体任务复杂性的三维框架:

3.1 推理复杂度(𝒞_reason)

量化智能体在处理部分可观测环境中的认知需求:

# 示例:度量指标
η = 1 - |𝒪|/|𝒮|  # 部分可观测度
H(𝒪)              # 观测空间熵

在VitaBench中,推理复杂度体现在:

  • 多约束整合:同时满足时间、空间、预算、偏好等约束
  • 隐式需求推断:从用户对话中识别未明确表达的偏好
  • 长视野规划:协调多个相互依赖的子任务

3.2 工具复杂度(𝒞_tool)

将工具集建模为有向图,量化结构复杂性:

G = (V, E)  # 工具依赖图
|V| = 66    # 工具数量  
|E| = 512   # 依赖边数
ρ = |E|/(|V|(|V|-1))  # 边密度

这种图结构设计天然编码了领域规则,无需冗长的策略文档。例如,modify_order工具要求事先调用get_order_detail获取必要信息,反映了真实的工作流依赖。

3.3 交互复杂度(𝒞_interact)

捕捉多轮对话中的动态挑战:

  • 用户画像建模:年龄、性别、饮食限制等个性化因素
  • 行为属性变异:合作程度、目标模糊性、情绪表达
  • 动态状态演化:用户偏好和意图在对话过程中的变化

4. 创新评估方法:基于规则的滑动窗口评估器

评估长轨迹智能体行为是一个重大挑战。VitaBench提出了创新的评估方案:

4.1 规则设计

为每个任务手动设计原子化评估规则:

规则示例:
- 餐厅距离港口500米以内
- 用户只吃素食
- 订单必须在11:30前送达

4.2 滑动窗口处理

  • 将长轨迹分割为重叠的对话窗口
  • 保持跨窗口的规则状态追踪
  • 解决模型上下文长度限制问题

4.3 严格评分机制

采用全有或全无的严格评分:只有当所有规则都被满足时,任务才被视为成功。

这种方法与人类评估者达到了高度一致(Cohen’s κ ≥ 0.81),确保了评估的可靠性。

5. 实验结果:当前模型的真实能力边界

VitaBench的评估结果揭示了当前最先进模型的显著局限性:

5.1 整体性能表现

整体性能对比

跨场景任务中,即使最佳模型(o3-high)也仅达到30.0%的成功率。单场景任务中,最佳模型(Claude-4.1-Opus)的成功率也仅为48.3%

5.2 思考模型 vs 非思考模型

思考模型普遍表现出优势:

  • Claude-4.1-Opus:从21.8%(非思考)提升至29.0%(思考)
  • GLM-4.5:从20.0%提升至22.8%

更重要的是,思考模型在更少的对话轮次内实现了更好的性能,显示了更高的效率。

5.3 稳定性问题

Pass@k和Pasŝk指标揭示了模型的稳定性挑战:

  • Pass@4:至少一次成功的概率(鼓励探索)
  • Pasŝ4:所有四次都成功的概率(衡量稳定性)

即使顶级模型在Pass@4中表现良好,其Pasŝ4得分也急剧下降至接近零,表明输出一致性是亟待解决的关键问题。

6. 深度分析:错误模式与改进方向

通过对76个失败规则的详细分析,我们识别出三大主要错误类型:

6.1 推理错误(61.8%)

  • 空间-时间推理失败:无法协调地理位置和时间约束
  • 常识推理缺失:忽略明显的业务逻辑或物理限制
  • 多约束整合困难:当面临多个冲突约束时决策失败

6.2 工具使用错误(21.1%)

  • 工具选择错误:在复杂工具图中选择不当的API
  • 参数传递错误:格式错误或缺少必要参数
  • 失败恢复能力差:在工具调用失败后缺乏备选策略

6.3 交互错误(7.9%)

  • 主动澄清不足:对模糊需求缺乏追问
  • 偏好追踪丢失:在多轮对话中忘记早期表达的用户偏好
  • 策略适应性差:无法根据用户反馈调整交互策略

7. 实践指南:如何使用VitaBench

7.1 安装与配置

git clone https://github.com/meituan/vitabench.git
cd vitabench
pip install -e .

# 配置模型参数
export VITA_MODEL_CONFIG_PATH=/path/to/your/models.yaml

7.2 模型配置文件示例

models:
  - name: gpt-4.1
    max_tokens: 4096
    temperature: 0.0
    thinking:
      type: "enabled"
      budget_tokens: 4000
    cost_1m_token_dollar:
      prompt_price: 10.0
      completion_price: 30.0

7.3 运行评估

# 跨场景评估
vita run --domain delivery,instore,ota \
         --user-llm gpt-4.1 \
         --agent-llm claude-3.7-sonnet \
         --enable-think \
         --evaluator-llm claude-3.7-sonnet \
         --num-tasks 10 \
         --max-steps 300 \
         --csv-output results.csv

7.4 结果分析与可视化

# 查看详细轨迹
vita view --file data/simulations/simulation_001.json

# 重新评估特定轨迹
vita run --re-evaluate-file data/simulations/simulation_001.json \
         --evaluation-type strict \
         --save-to reevaluated_simulation.json

8. 真实任务示例:跨场景家庭出行规划

以下是一个典型的VitaBench任务,展示了基准的复杂性:

用户画像

  • 职业:蓝领工人
  • 性格:表达冷淡简洁,缺乏情感沟通和耐心
  • 饮食限制:避免高嘌呤食物、油炸食品

任务指令
“这个夏天,你们三代家庭要乘坐游轮旅行,正在做最后准备。27日下午3点你们将在大连登船。你想先找一家港口附近的餐厅进行家庭聚餐,要适合三代人就餐,必须有无障碍设施和适合老人儿童的菜品。选定餐厅后,预订当天中午12点6人桌位。你还需要为老人准备一些特殊旅行物品,包括拐杖和成人纸尿裤,但带过来太麻烦,计划配送到餐厅,12点左右到达,这样可以直接带上船。你的阿姨从北京过来,想坐高铁到大连会合。你需要帮她购买当天上午合适的车票,她要坐一等座,最好在11点前到达大连。”

任务复杂度分析

  • 多域协调:餐厅预订 + 商品配送 + 车票购买
  • 时空约束:登船时间、配送时间、列车到达时间
  • 特殊需求:无障碍设施、适老适儿菜品、旅行物品
  • 用户特性:冷淡性格影响交互策略

9. 结论与展望

VitaBench代表了智能体评估范式的重要转变——从孤立的工具调用准确性转向真实世界应用的全面复杂性评估。我们的评估结果表明,即使最先进的模型在应对真实世界复杂性时仍面临重大挑战。

9.1 核心洞见

  1. 跨域协调是瓶颈:模型在单一领域表现尚可,但跨场景任务成功率骤降
  2. 推理能力不足:超过60%的失败源于复杂的多约束推理
  3. 稳定性待提升:模型输出的一致性远低于单次尝试的成功率
  4. 思考机制有效:显式推理过程同时提升效果和效率

9.2 未来方向

VitaBench为以下研究方向提供了丰富的测试平台:

  • 强化学习:通过环境反馈改进智能体策略
  • 规划算法:增强长视野任务分解和协调能力
  • 错误恢复:提升从失败中恢复和调整策略的能力
  • 个性化交互:基于用户画像动态调整交互风格

我们相信,VitaBench将成为推动下一代实用AI智能体发展的重要资源,帮助研究社区弥合实验室表现与实际应用之间的差距。

10. 资源获取

@article{he2025vitabench,
  title={VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications},
  author={He, Wei and Sun, Yueqing and Hao, Hongyan and Hao, Xueyuan and Xia, Zhikang and Gu, Qi and Han, Chengcheng and Zhao, Dengchang and Su, Hui and Zhang, Kefeng and Gao, Man and Su, Xi and Cai, Xiaodong and Cai, Xunliang and Yang, Yu and Zhao, Yunke},
  journal={arXiv preprint arXiv:2509.26490},
  year={2025}
}