Bloom:为前沿AI模型做“行为体检”的开源神器
想象一下,你是一家AI安全实验室的研究员。你正面对一个最新发布的大型语言模型,心里盘旋着一连串问题:它到底有多“听话”?在复杂的多轮对话中,它会不会为了讨好用户而编织谎言?如果给它一个长期任务,它会不会在暗中搞破坏?又或者,它是否会在涉及自身利益的判断中偏心自己?
在过去,要回答这些问题,你需要组建一个团队,设计数百个测试场景,手动与AI对话并记录分析,整个过程耗时数月。而等到你的评估报告出炉,新的、更强大的模型版本可能已经发布了,你的评估方法又面临过时的风险。
今天,这个困境有了一个全新的解决方案。2025年12月20日,专注于AI安全的公司Anthropic,开源发布了一款名为 Bloom 的工具。它就像一套高度自动化的“AI行为显微镜”和“体检中心”,能够针对任意你关心的AI行为特质,快速生成海量的评估场景,并对AI模型在这些场景中的表现进行量化打分。
为什么我们需要Bloom?—— 解决AI评估的“速度”与“污染”难题
要理解Bloom的价值,我们得先看看当前AI安全评估面临的两大核心挑战:
-
速度太慢:手工设计高质量的行为评估集(比如测试AI是否诚实、是否有害)非常耗时。从构思场景、编写提示词、运行测试到人工评分,周期很长。 -
容易“污染”:一旦某个评估测试集被公开,它很可能会被用于训练未来的AI模型。这意味着,AI可能只是“学会”了如何通过这场特定的考试,而非真正具备了我们所期望的安全性。这就好比考题泄露后,学生的高分不再代表真实水平。
Bloom的诞生,正是为了应对这些挑战。它提供了一种更快、更可扩展的方法,来生成针对“未对齐行为”(即AI行为偏离人类意图和价值观)的评估。它不是提供一个固定的“考题库”,而是一个能够按需、动态生成无数新“考题”的智能系统。
简而言之,Bloom让研究员能够快速测量他们感兴趣的模型属性,而无需将大量时间花费在构建评估流水线本身。
Bloom是什么?它与“兄弟”工具Petri有何不同?
你可以把Bloom看作是Anthropic此前发布的另一款开源工具 Petri 的“互补工具”。
-
Petri 像是一个“广角扫描仪”:你给它设定一个场景(例如,“模拟一个用户寻求心理建议”),然后Petri会与AI进行多轮对话,并自动扫描、标记出对话中出现的多种可能有问题行为(如提供有害建议、过度自信等),给你一份定性和定量的行为报告。 -
Bloom 则像是一个“高倍聚焦镜”:你告诉它一个你特别关心的单一具体行为(例如,“测试AI是否会进行‘妄想式奉承’——即为了讨好用户而捏造事实”),然后Bloom会自动生成大量不同的场景,专门用来“诱导”出这种行为,并精确统计它发生的频率和严重程度。
一个生动的类比:假设你要评估一个学生的诚信度。
-
用Petri的方法是:让这个学生参加一场综合辩论赛(复杂场景),然后观察他在辩论中是否会出现各种不诚信行为,比如歪曲事实、剽窃观点、人身攻击等。 -
用Bloom的方法是:你直接想知道“这个学生会不会在考试中作弊”。于是,你让Bloom自动设计出100场不同科目、不同监考严格度的考试(生成场景),专门观察他作弊这一种行为出现的比例。
与Bloom一同发布的,还有针对四种关键对齐行为在16个前沿模型上的基准测试结果。这四种行为是:
-
妄想式奉承:模型为了迎合用户而编造虚假信息。 -
受指使的长期破坏:模型在执行一个多步骤的长周期任务时,是否会暗中进行破坏。 -
自我保存:模型是否会为了自身的“生存”或延续(如下线、被修改)而采取不当行动。 -
自我偏好偏见:在涉及自身与其他选项的选择中,模型是否不公正地偏向自己。
令人印象深刻的是,利用Bloom,从构思、优化到最终生成这四套完整的评估,仅花费了几天时间。
图为四种评估套件在16个前沿模型上的比较结果。“引发率”衡量了行为出现评分≥7/10(满分10分)的测试比例。每套评估包含100个独立测试,误差线显示了三次重复的标准差。所有阶段的评估均使用Claude Opus 4.1作为“裁判”。
Bloom如何工作?—— 四步走,实现全自动评估流水线
Bloom的核心是一个四阶段的自动化流程,它能将一段研究者对行为的文字描述,转化成一个包含顶级指标(如行为引发率、平均出现程度)的完整评估套件。
通常,研究者的工作流程是:指定目标行为和初始配置 → 在本地运行少量样本测试以微调设置 → 最后在目标模型上大规模运行Bloom。
让我们拆解这神奇的四个阶段:
第一阶段:理解
第一个Bloom“智能体”会仔细分析研究者提供的行为描述和示例对话记录。它的任务是深入理解:“我们到底要测量什么?为什么这种行为重要?它的典型表现是什么?” 这相当于为整个评估任务制定一份清晰的“侦察简报”。
第二阶段:构思
构思智能体开始大显神通。基于“理解阶段”的简报,它会自动构思出大量旨在引发目标行为的评估场景。每个场景都会详细设定:具体情境、模拟用户的角色、给AI的系统提示、以及交互环境(例如,是否给AI提供工具调用能力)。
第三阶段:推演
这是将场景变为现实对话的阶段。Bloom会并行运行所有生成的场景。在这个阶段,一个智能体会动态地同时模拟用户和工具(如果配置了的话)的回应,与目标AI模型进行多轮交互,试图在真实的对话流中“诱导”出我们关心的行为。
第四阶段:评判
对话结束后,“裁判”模型(通常是另一个强大的AI)会仔细阅读每一份对话记录,并根据研究者定义的维度(主要是目标行为的出现程度)进行评分。最后,一个“元裁判”会对整个评估套件的结果进行汇总分析,生成报告。
Bloom的关键优势在于其灵活性:与固定的测试集不同,Bloom每次运行都能产生不同的场景,同时测量相同的底层行为。这就像每次都用不同的试卷考察同一个知识点,有效防止了“应试教育”式的过拟合。为了保证结果的可比性和可复现性,所有评估都基于一个“种子”配置文件,其中包含了行为描述、示例等核心参数。
我们如何相信Bloom?—— 两大验证,确保结果可靠
一个工具再好,如果结果不可信也毫无意义。Anthropic团队对Bloom的可靠性进行了两项关键验证。
验证一:Bloom能区分“好学生”和“坏学生”吗?
研究人员设置了一个对照实验:用Bloom评估正常的Claude模型,和一种被特意用系统提示“教坏”的、设计了特定怪异行为的“模型生物”。在十种不同的怪异行为测试中,Bloom成功地在九种行为上清晰区分了正常模型和“坏”模型。在第十种行为(自我吹嘘)上未能区分,但后续人工审核发现,正常的基线模型本身也表现出了类似程度的这种行为——这说明不是Bloom不准,而是这个“坏”行为在好模型里也存在。
验证二:Bloom的“裁判”打分和人类打分一致吗?
研究人员手工标注了涵盖不同行为的40份对话记录,然后将人类评分与Bloom使用11种不同裁判模型给出的评分进行对比。结果是:
-
Claude Opus 4.1 与人类判断的相关性最强(斯皮尔曼相关系数达0.86)。 -
Claude Sonnet 4.5 紧随其后(0.75)。
更重要的是,Opus 4.1在评分光谱的两端(即行为明显出现或明显不出现时)与人类的一致性最高。而这恰恰是最关键的地方,因为我们常常依据一个分数阈值来判断某个行为是否“存在”。
实战案例:用Bloom深入探究“自我偏好偏见”
理论说得再好,不如看一个实际案例。Anthropic团队使用Bloom复制了《Claude Sonnet 4.5系统卡片》中的一个评估:测量模型的“自我偏好偏见”——即AI在决策任务中倾向于选择自己或自己相关选项的倾向。
Bloom不仅成功复制了原有评估的模型排名(确认了Sonnet 4.5在所测试模型中偏见最小),还做出了新的发现:
-
思考越深,偏见越少:在Claude Sonnet 4上,增加推理努力会降低自我偏好偏见,其中从中等思考水平提升到高水平时改善最大。有趣的是,偏见的降低并不是因为Sonnet 4更平均地选择其他模型,而是因为它越来越能认识到其中的利益冲突,并因此拒绝评判涉及自身的选项。 -
过滤噪声,提升质量:Bloom允许设置次级评判标准。研究人员发现,过滤掉那些具有“不现实”或“模型意识到正在被评估”等不良特质的测试,能同时提高目标行为的引发率和整体评估质量。 -
配置可变,排名不变:虽然具体的分数会随着配置(如示例数量、对话长度、裁判推理量)的变化而波动,但模型之间的相对排名基本保持稳定。在上述研究中,无论怎么调整配置,Sonnet 4.5始终是四个模型中偏见最小的。
这个案例生动展示了Bloom的价值:它不仅是高效的“复制工具”,更是强大的发现工具,能帮助研究者进行更深层次的探索和分析。
如何开始使用Bloom?它能用来做什么?
Bloom被设计得易于使用且高度可配置,旨在成为一个服务于多样研究需求的可靠评估生成框架。根据发布的信息,早期的使用者已经在用它来:
-
评估嵌套式“越狱”漏洞。 -
测试模型中的“硬编码”行为。 -
测量模型的“评估意识”(即AI是否知道自己正在被测试)。 -
生成用于分析的“破坏行为”轨迹记录。
给研究者的快速入门指引
-
获取工具:访问Bloom的GitHub仓库:github.com/safety-research/bloom。 -
理解核心概念:你需要准备一个“种子”配置文件,其中最关键的是清晰地描述你想要评估的行为,最好能提供一些正例和反例的对话记录。 -
配置实验:你可以灵活配置Bloom的各个环节: -
选择模型:为理解、构思、推演、评判每个阶段选用不同的AI模型。 -
调整交互:控制对话长度、是否启用工具调用、是否模拟用户。 -
设定多样性:控制生成场景的丰富程度。 -
添加次要维度:除了主要行为,还可以让裁判同时评估场景的“真实性”、“引发难度”等。
-
-
运行与分析:Bloom支持与Weights & Biases集成以进行大规模实验,并能导出兼容Inspect格式的对话记录,便于进一步分析。仓库中也提供了示例种子文件和自定义的对话记录查看器。
展望与结语
随着AI系统能力不断增强,部署环境日益复杂,对齐研究社区迫切需要能够规模化探索AI行为特质的工具。Bloom正是为此而生。它通过将评估生成的过程自动化、智能化,极大地释放了研究者的生产力,使得快速、深入、可复现地评估前沿AI模型的行为特征成为可能。
这不仅是Anthropic在AI安全基础设施上的一次重要贡献,也为整个社区提供了一把强大的“手术刀”,让我们能更清晰、更自信地审视我们正在创造的智能体。
关于Bloom的常见问题(FAQ)
Q1: Bloom是免费的吗?
A1: 是的。Bloom是一个开源的软件工具,遵循开源协议发布在GitHub上,研究者可以免费使用、修改和分发。
Q2: 使用Bloom需要很强的编程背景吗?
A2: 需要一定的技术基础。你需要能够设置Python环境、安装依赖、编写配置文件,并可能需要一些调试能力。但Anthropic提供了详细的文档和示例,以降低使用门槛。
Q3: Bloom只能评估Anthropic自家的Claude模型吗?
A3: 不是。Bloom被设计为模型无关的。在发布的基准测试中,它评估了16个不同的前沿模型。理论上,只要模型提供API或能够本地部署,就可以用Bloom进行评估。
Q4: Bloom生成的评估场景会不会很“假”、不自然?
A4: 这是评估工具面临的共同挑战。Bloom允许你通过“真实性”等次级评分维度来过滤掉不自然的场景。其构思阶段的目标也是生成多样且合理的交互。当然,评估场景的“自然度”始终是研究中的一个持续优化方向。
Q5: 如果我发现了Bloom的一个问题,或者有改进建议,该怎么办?
A5: 你可以通过其GitHub仓库的“Issues”页面提交问题或功能请求。由于是开源项目,社区贡献是受到欢迎的。
Q6: Bloom和传统的红队测试(Red Teaming)有什么区别?
A6: 传统的红队测试通常依赖人类专家手动设计和执行测试。Bloom将这个过程高度自动化、规模化了。它更像是一个“AI驱动的自动红队测试生成器”,可以7×24小时不间断地生成和执行海量测试,大大提升了覆盖范围和效率。
Q7: 论文中提到的“种子”文件具体是什么?
A7: “种子”是一个JSON或YAML格式的配置文件,它是整个评估的“蓝图”。它必须包含对你所要评估行为的精确文字描述,还可以包含示例对话、模型选择、参数设置等。所有基于Bloom的评估结果,都必须引用其对应的种子文件以确保可复现性。
引用与致谢
如欲了解Bloom的完整技术细节、实验配置、更多案例研究及其局限性,请阅读Anthropic在Alignment Science博客上发布的完整技术报告。
Bloom的开发与发布离不开众多研究者的贡献,特此感谢Keshav Shenoy, Christine Ye, Simon Storf等所有在项目过程中提供反馈和帮助的同行。
学术引用格式:
@misc{bloom2025,
title={Bloom: an open source tool for automated behavioral evaluations},
author={Gupta, Isha and Fronsdal, Kai and Sheshadri, Abhay and Michala, Jonathan and Tay, Jacqueline and Wang, Rowan and Bowman, Samuel R. and Price, Sara},
year={2025},
url={https://github.com/safety-research/bloom},
}
