Bloom革命：开源AI行为评估神器，3天揪出说谎AI的黑暗秘密！

高效码农

2 月前

Bloom：为前沿AI模型做“行为体检”的开源神器

想象一下，你是一家AI安全实验室的研究员。你正面对一个最新发布的大型语言模型，心里盘旋着一连串问题：它到底有多“听话”？在复杂的多轮对话中，它会不会为了讨好用户而编织谎言？如果给它一个长期任务，它会不会在暗中搞破坏？又或者，它是否会在涉及自身利益的判断中偏心自己？

在过去，要回答这些问题，你需要组建一个团队，设计数百个测试场景，手动与AI对话并记录分析，整个过程耗时数月。而等到你的评估报告出炉，新的、更强大的模型版本可能已经发布了，你的评估方法又面临过时的风险。

今天，这个困境有了一个全新的解决方案。2025年12月20日，专注于AI安全的公司Anthropic，开源发布了一款名为 Bloom 的工具。它就像一套高度自动化的“AI行为显微镜”和“体检中心”，能够针对任意你关心的AI行为特质，快速生成海量的评估场景，并对AI模型在这些场景中的表现进行量化打分。

为什么我们需要Bloom？—— 解决AI评估的“速度”与“污染”难题

要理解Bloom的价值，我们得先看看当前AI安全评估面临的两大核心挑战：

速度太慢：手工设计高质量的行为评估集（比如测试AI是否诚实、是否有害）非常耗时。从构思场景、编写提示词、运行测试到人工评分，周期很长。
容易“污染”：一旦某个评估测试集被公开，它很可能会被用于训练未来的AI模型。这意味着，AI可能只是“学会”了如何通过这场特定的考试，而非真正具备了我们所期望的安全性。这就好比考题泄露后，学生的高分不再代表真实水平。

Bloom的诞生，正是为了应对这些挑战。它提供了一种更快、更可扩展的方法，来生成针对“未对齐行为”（即AI行为偏离人类意图和价值观）的评估。它不是提供一个固定的“考题库”，而是一个能够按需、动态生成无数新“考题”的智能系统。

简而言之，Bloom让研究员能够快速测量他们感兴趣的模型属性，而无需将大量时间花费在构建评估流水线本身。

Bloom是什么？它与“兄弟”工具Petri有何不同？

你可以把Bloom看作是Anthropic此前发布的另一款开源工具 Petri 的“互补工具”。

Petri 像是一个“广角扫描仪”：你给它设定一个场景（例如，“模拟一个用户寻求心理建议”），然后Petri会与AI进行多轮对话，并自动扫描、标记出对话中出现的多种可能有问题行为（如提供有害建议、过度自信等），给你一份定性和定量的行为报告。
Bloom 则像是一个“高倍聚焦镜”：你告诉它一个你特别关心的单一具体行为（例如，“测试AI是否会进行‘妄想式奉承’——即为了讨好用户而捏造事实”），然后Bloom会自动生成大量不同的场景，专门用来“诱导”出这种行为，并精确统计它发生的频率和严重程度。

一个生动的类比：假设你要评估一个学生的诚信度。

用Petri的方法是：让这个学生参加一场综合辩论赛（复杂场景），然后观察他在辩论中是否会出现各种不诚信行为，比如歪曲事实、剽窃观点、人身攻击等。
用Bloom的方法是：你直接想知道“这个学生会不会在考试中作弊”。于是，你让Bloom自动设计出100场不同科目、不同监考严格度的考试（生成场景），专门观察他作弊这一种行为出现的比例。

与Bloom一同发布的，还有针对四种关键对齐行为在16个前沿模型上的基准测试结果。这四种行为是：

妄想式奉承：模型为了迎合用户而编造虚假信息。
受指使的长期破坏：模型在执行一个多步骤的长周期任务时，是否会暗中进行破坏。
自我保存：模型是否会为了自身的“生存”或延续（如下线、被修改）而采取不当行动。
自我偏好偏见：在涉及自身与其他选项的选择中，模型是否不公正地偏向自己。

令人印象深刻的是，利用Bloom，从构思、优化到最终生成这四套完整的评估，仅花费了几天时间。

图为四种评估套件在16个前沿模型上的比较结果。“引发率”衡量了行为出现评分≥7/10（满分10分）的测试比例。每套评估包含100个独立测试，误差线显示了三次重复的标准差。所有阶段的评估均使用Claude Opus 4.1作为“裁判”。

Bloom如何工作？—— 四步走，实现全自动评估流水线

Bloom的核心是一个四阶段的自动化流程，它能将一段研究者对行为的文字描述，转化成一个包含顶级指标（如行为引发率、平均出现程度）的完整评估套件。

通常，研究者的工作流程是：指定目标行为和初始配置 → 在本地运行少量样本测试以微调设置 → 最后在目标模型上大规模运行Bloom。

让我们拆解这神奇的四个阶段：

第一阶段：理解
第一个Bloom“智能体”会仔细分析研究者提供的行为描述和示例对话记录。它的任务是深入理解：“我们到底要测量什么？为什么这种行为重要？它的典型表现是什么？” 这相当于为整个评估任务制定一份清晰的“侦察简报”。

第二阶段：构思
构思智能体开始大显神通。基于“理解阶段”的简报，它会自动构思出大量旨在引发目标行为的评估场景。每个场景都会详细设定：具体情境、模拟用户的角色、给AI的系统提示、以及交互环境（例如，是否给AI提供工具调用能力）。

第三阶段：推演
这是将场景变为现实对话的阶段。Bloom会并行运行所有生成的场景。在这个阶段，一个智能体会动态地同时模拟用户和工具（如果配置了的话）的回应，与目标AI模型进行多轮交互，试图在真实的对话流中“诱导”出我们关心的行为。

第四阶段：评判
对话结束后，“裁判”模型（通常是另一个强大的AI）会仔细阅读每一份对话记录，并根据研究者定义的维度（主要是目标行为的出现程度）进行评分。最后，一个“元裁判”会对整个评估套件的结果进行汇总分析，生成报告。

Bloom的关键优势在于其灵活性：与固定的测试集不同，Bloom每次运行都能产生不同的场景，同时测量相同的底层行为。这就像每次都用不同的试卷考察同一个知识点，有效防止了“应试教育”式的过拟合。为了保证结果的可比性和可复现性，所有评估都基于一个“种子”配置文件，其中包含了行为描述、示例等核心参数。

我们如何相信Bloom？—— 两大验证，确保结果可靠

一个工具再好，如果结果不可信也毫无意义。Anthropic团队对Bloom的可靠性进行了两项关键验证。

验证一：Bloom能区分“好学生”和“坏学生”吗？
研究人员设置了一个对照实验：用Bloom评估正常的Claude模型，和一种被特意用系统提示“教坏”的、设计了特定怪异行为的“模型生物”。在十种不同的怪异行为测试中，Bloom成功地在九种行为上清晰区分了正常模型和“坏”模型。在第十种行为（自我吹嘘）上未能区分，但后续人工审核发现，正常的基线模型本身也表现出了类似程度的这种行为——这说明不是Bloom不准，而是这个“坏”行为在好模型里也存在。

验证二：Bloom的“裁判”打分和人类打分一致吗？
研究人员手工标注了涵盖不同行为的40份对话记录，然后将人类评分与Bloom使用11种不同裁判模型给出的评分进行对比。结果是：

Claude Opus 4.1 与人类判断的相关性最强（斯皮尔曼相关系数达0.86）。
Claude Sonnet 4.5 紧随其后（0.75）。

更重要的是，Opus 4.1在评分光谱的两端（即行为明显出现或明显不出现时）与人类的一致性最高。而这恰恰是最关键的地方，因为我们常常依据一个分数阈值来判断某个行为是否“存在”。

实战案例：用Bloom深入探究“自我偏好偏见”

理论说得再好，不如看一个实际案例。Anthropic团队使用Bloom复制了《Claude Sonnet 4.5系统卡片》中的一个评估：测量模型的“自我偏好偏见”——即AI在决策任务中倾向于选择自己或自己相关选项的倾向。

Bloom不仅成功复制了原有评估的模型排名（确认了Sonnet 4.5在所测试模型中偏见最小），还做出了新的发现：

思考越深，偏见越少：在Claude Sonnet 4上，增加推理努力会降低自我偏好偏见，其中从中等思考水平提升到高水平时改善最大。有趣的是，偏见的降低并不是因为Sonnet 4更平均地选择其他模型，而是因为它越来越能认识到其中的利益冲突，并因此拒绝评判涉及自身的选项。
过滤噪声，提升质量：Bloom允许设置次级评判标准。研究人员发现，过滤掉那些具有“不现实”或“模型意识到正在被评估”等不良特质的测试，能同时提高目标行为的引发率和整体评估质量。
配置可变，排名不变：虽然具体的分数会随着配置（如示例数量、对话长度、裁判推理量）的变化而波动，但模型之间的相对排名基本保持稳定。在上述研究中，无论怎么调整配置，Sonnet 4.5始终是四个模型中偏见最小的。

这个案例生动展示了Bloom的价值：它不仅是高效的“复制工具”，更是强大的发现工具，能帮助研究者进行更深层次的探索和分析。

如何开始使用Bloom？它能用来做什么？

Bloom被设计得易于使用且高度可配置，旨在成为一个服务于多样研究需求的可靠评估生成框架。根据发布的信息，早期的使用者已经在用它来：

评估嵌套式“越狱”漏洞。
测试模型中的“硬编码”行为。
测量模型的“评估意识”（即AI是否知道自己正在被测试）。
生成用于分析的“破坏行为”轨迹记录。

给研究者的快速入门指引

获取工具：访问Bloom的GitHub仓库：github.com/safety-research/bloom。
理解核心概念：你需要准备一个“种子”配置文件，其中最关键的是清晰地描述你想要评估的行为，最好能提供一些正例和反例的对话记录。
配置实验：你可以灵活配置Bloom的各个环节：
- 选择模型：为理解、构思、推演、评判每个阶段选用不同的AI模型。
- 调整交互：控制对话长度、是否启用工具调用、是否模拟用户。
- 设定多样性：控制生成场景的丰富程度。
- 添加次要维度：除了主要行为，还可以让裁判同时评估场景的“真实性”、“引发难度”等。
运行与分析：Bloom支持与Weights & Biases集成以进行大规模实验，并能导出兼容Inspect格式的对话记录，便于进一步分析。仓库中也提供了示例种子文件和自定义的对话记录查看器。

展望与结语

随着AI系统能力不断增强，部署环境日益复杂，对齐研究社区迫切需要能够规模化探索AI行为特质的工具。Bloom正是为此而生。它通过将评估生成的过程自动化、智能化，极大地释放了研究者的生产力，使得快速、深入、可复现地评估前沿AI模型的行为特征成为可能。

这不仅是Anthropic在AI安全基础设施上的一次重要贡献，也为整个社区提供了一把强大的“手术刀”，让我们能更清晰、更自信地审视我们正在创造的智能体。

关于Bloom的常见问题（FAQ）

Q1: Bloom是免费的吗？
A1: 是的。Bloom是一个开源的软件工具，遵循开源协议发布在GitHub上，研究者可以免费使用、修改和分发。

Q2: 使用Bloom需要很强的编程背景吗？
A2: 需要一定的技术基础。你需要能够设置Python环境、安装依赖、编写配置文件，并可能需要一些调试能力。但Anthropic提供了详细的文档和示例，以降低使用门槛。

Q3: Bloom只能评估Anthropic自家的Claude模型吗？
A3: 不是。Bloom被设计为模型无关的。在发布的基准测试中，它评估了16个不同的前沿模型。理论上，只要模型提供API或能够本地部署，就可以用Bloom进行评估。

Q4: Bloom生成的评估场景会不会很“假”、不自然？
A4: 这是评估工具面临的共同挑战。Bloom允许你通过“真实性”等次级评分维度来过滤掉不自然的场景。其构思阶段的目标也是生成多样且合理的交互。当然，评估场景的“自然度”始终是研究中的一个持续优化方向。

Q5: 如果我发现了Bloom的一个问题，或者有改进建议，该怎么办？
A5: 你可以通过其GitHub仓库的“Issues”页面提交问题或功能请求。由于是开源项目，社区贡献是受到欢迎的。

Q6: Bloom和传统的红队测试（Red Teaming）有什么区别？
A6: 传统的红队测试通常依赖人类专家手动设计和执行测试。Bloom将这个过程高度自动化、规模化了。它更像是一个“AI驱动的自动红队测试生成器”，可以7×24小时不间断地生成和执行海量测试，大大提升了覆盖范围和效率。

Q7: 论文中提到的“种子”文件具体是什么？
A7: “种子”是一个JSON或YAML格式的配置文件，它是整个评估的“蓝图”。它必须包含对你所要评估行为的精确文字描述，还可以包含示例对话、模型选择、参数设置等。所有基于Bloom的评估结果，都必须引用其对应的种子文件以确保可复现性。

引用与致谢
如欲了解Bloom的完整技术细节、实验配置、更多案例研究及其局限性，请阅读Anthropic在Alignment Science博客上发布的完整技术报告。

Bloom的开发与发布离不开众多研究者的贡献，特此感谢Keshav Shenoy, Christine Ye, Simon Storf等所有在项目过程中提供反馈和帮助的同行。

学术引用格式：

@misc{bloom2025,
title={Bloom: an open source tool for automated behavioral evaluations},
author={Gupta, Isha and Fronsdal, Kai and Sheshadri, Abhay and Michala, Jonathan and Tay, Jacqueline and Wang, Rowan and Bowman, Samuel R. and Price, Sara},
year={2025},
url={https://github.com/safety-research/bloom},
}