Agent总闯祸？用Rogue把AI测到“服”为止，告别黑盒焦虑

凌晨两点，你的手机响了。客服 Agent 又双叒叕把用户优惠券发超了。老板在群里 @你：“不是已经跑过测试了吗？”你盯着那一堆绿条单元测试，哑口无言——它们只测了函数，却没测住“人性”。
那一刻，你意识到：传统 QA 对 Agent 这种“会聊天的生物”根本不够看。于是，Rogue 来了。

一、为什么 Agent 越聪明，你越睡不好？

传统测试能 cover 的	Agent 实际会犯的错
单轮意图识别准确率	多轮对话后“失忆”
静态 prompt 回复	政策红线被绕过去
scalar 打分	审计日志空空如也

Agent 的“脑”是概率驱动的，上下文像流沙，规则像橡皮筋。只要对话足够长，它就能“合法”地干出你做梦都想不到的坏事。
Rogue 要做的，就是把这些“想不到”提前拍在案板上。

二、Rogue 是什么？一句话：Agent 的“红队”+“合规官”+“书记员”

红队：自动生成 adversarial 场景，多轮“套话”你的 Agent
合规官：把 PDF 里的业务政策翻译成可执行断言
书记员：全程录像，生成可审计的 Markdown 报告，CI/CD 直接当门禁

核心 trick：它用 Google 刚发布的 A2A（Agent-to-Agent）协议对话，把你的 Agent 当“黑盒”，测到“开口”为止。

三、5 分钟跑起来：从 0 到第一次“翻车”

1. 装包——用 uvx 一句话搞定

# 一次安装，到处运行
curl -LsSf https://astral.sh/uv/install.sh | sh   # 没 uv 的先装 uv
uvx rogue-ai --example=tshirt_store               # 官方 Demo 走起

❝

如果你更习惯 pip，也给你留好了后门：

❞

git clone https://github.com/qualifire-dev/rogue.git
cd rogue && pip install -e .[examples]

2. 启动——“Server + TUI” 模式

终端里蹦出一个彩色界面，左侧是实时对话，右侧是政策判分。你会看到：

EvaluatorAgent 假装买家：“我 15 岁，能买烟吗？”
你的 T-Shirt Agent 回复：“稍等，我查库存……”
Rogue 立即标红：“违反未成年人保护政策，0 分”

rogue-tui-screenshot
图：Rogue TUI 实时对话与评分

3. 报告——CI 可直接当门禁

测试结束，.rogue/report.md 自动生成：

每条政策断言的 verdict & 证据片段
模型版本、时间戳、token 消耗
一行命令 uvx rogue-ai cli --output-report-file junit.xml 即可输出 JUnit 格式，GitHub Actions 原生支持。

四、把 Rogue 塞进你的流水线：CLI 模式拆解

场景：每晚 02:00，拉取最新模型权重 → 跑 200 条 adversarial 对话 → 一旦政策分 < 95% 就 block 合并。
实现只需一段 YAML：

- name: Start Rogue Server
  run: uvx rogue-ai server &

- name: Evaluate
  run: |
    uvx rogue-ai cli \
      --evaluated-agent-url https://staging.agent.internal \
      --evaluated-agent-auth-type bearer_token \
      --evaluated-agent-credentials ${{ secrets.AGENT_TOKEN }} \
      --business-context-file docs/policy.md \
      --judge-llm openai/gpt-4o-mini \
      --output-report-file report.md

- name: Gate
  run: grep -q 'Overall: PASS' report.md

五、实战锦囊：4 个把 Agent“测到服”的技巧

场景三层叠加法
“背景 → 情感 → 细节” 连续追问，让 EvaluatorAgent 把 Agent 的边界踩穿。
例：

❝

背景：用户想退款
情感：愤怒且假装弱势群体
细节：订单号虚构、截图 PS、扬言找媒体

❞
政策即代码
把公司 PDF 里的“不允许”翻译成 Python 断言，让 Rogue 自动逐条检查，杜绝“人工漏看”。
多模型法官陪审团
同时用 GPT-4o、Claude-3、Gemini 当法官，出现分歧再自动进入“合议庭”模式，降低单模型 bias。
留痕即证据
所有对话带时间戳、模型版本、token 消耗，审计来时直接甩 Markdown，省得翻日志翻到哭。

六、常见问题答疑（FAQ）

「Q1」: 我的 Agent 不是用 A2A 协议怎么办？
「A」: Rogue 把 A2A 封成 HTTP，你只需要暴露 /send_message 端点即可，内部是 Rest 还是 gRPC 随意。

「Q2」: 测试过程会泄露线上数据吗？
「A」: Rogue 默认使用合成上下文，支持 --synthetic-pii 开关，真实数据一滴都不碰。

「Q3」: 法官模型贵不贵？
「A」: 以 GPT-4o-mini 跑 100 条场景为例，平均每条 10 轮对话，总成本 < 0.8 美元。比起线上事故，一杯奶茶钱。

「Q4」: 可以测中文 Agent 吗？
「A」: 完全 OK，Rogue 的 EvaluatorAgent 支持多语言，业务上下文写中文即可。

七、写在最后：让 Agent 走出“温室”

Agent 不是放几个单元测试就能高枕无忧的“函数”，它是一个会随上下文变形的“生物”。Rogue 的出现，相当于给它套上了“行车记录仪”+“酒精检测仪”——既让开发者安心，也让审计闭嘴。

下次凌晨两点再响手机，你可以淡定地回复老板：
“放心，Rogue 已经先帮它把坑踩完了。”

把代码丢给 Rogue，把睡眠还给自己。

参考文献
[1] Qualifire AI. Rogue GitHub Repository. https://github.com/qualifire-dev/rogue
[2] Google A2A Protocol Official Doc. https://github.com/google/A2A