——从短期任务执行者到自我进化的智能体


引言:当 AI 还不会“记仇”,它就永远学不会成长

想象这样一个场景:

你用一个智能 AI Agent 来自动化网页操作。它昨天刚学会登录后台、批量导出报表,今天你又让它去修改用户权限。结果呢?
它又从头开始问:“请问登录页面在哪?”

没错,它完全忘了昨天的操作
这就是当前多数 LLM Agent 的通病:失忆

无论多么强大的大模型,一旦任务结束,所有经验——成功的策略、失败的坑、尝试过的路径——全都被遗忘。
它就像一个只有短期记忆的助理,每次醒来都得重新认识世界。

而现实任务(比如网页自动化、代码修复、数据分析)并不是一次性挑战,而是连续的、动态演化的过程。
所以真正的瓶颈,不是模型推理能力,而是:

AI 没有“记忆”,就无法成长。


一、ReasoningBank:让 AI 学会“提炼经验”的记忆系统

Google Cloud AI 团队提出的 ReasoningBank,正是为了解决这个核心问题。

它的理念非常简单但强大:

“让 AI 学会像人一样,从成功与失败中提炼出通用的思维模式。”

不同于传统的记忆模块仅仅存储原始日志或对话历史,ReasoningBank 让 Agent 在执行任务后,主动“总结反思”,形成结构化的推理记忆单元(Reasoning Memory Unit)

每个记忆单元包含三部分:

元素 描述
标题 对应的推理策略核心概念(如“多路径验证可避免陷入死循环”)
描述 一句话总结这段经验的核心洞见
内容 详细的推理逻辑、操作过程、反思结论

这样的设计让 AI 不再是“回放过去”,而是“提炼思考方式”。
这就像我们在 debug 失败后写的复盘文档,只不过 ReasoningBank 让 Agent 自己完成这件事。


二、从“记得”到“理解”:ReasoningBank 的闭环学习机制

要让 Agent 真正具备成长能力,光记忆还不够,还得让记忆能反馈到下一次行动中。
ReasoningBank 采用了一个优雅的三步闭环结构:

  1. Memory Retrieval(检索)
    当 Agent 接到新任务时,它首先会从 ReasoningBank 中检索出最相关的经验。
    例如遇到“网页表单填充”任务,它会自动找到过去成功与失败的填表经验。

  2. Memory Construction(构建)
    任务完成后,Agent 会调用 LLM 自评(LLM-as-a-judge)机制,对自己的表现进行判定:成功、失败、或部分成功。
    然后将推理过程提炼为结构化的记忆单元。

  3. Memory Consolidation(整合)
    新生成的记忆单元被并入 ReasoningBank,形成可复用的推理知识库。
    这就像人类的“学习曲线”在每次项目后都会陡升一点。

简而言之,ReasoningBank 不只是“记忆体”,而是一个能不断学习、提炼、更新的推理引擎


三、为什么 ReasoningBank 比传统记忆更聪明

过去几年,业界已经尝试了不少“记忆机制”:

  • Synapse:通过存储任务轨迹(trajectories)来回放经验。
  • AWM (Agent Workflow Memory):保存成功任务的流程模板。

这些方法都不错,但有两个致命问题:

  1. 它们只记录“发生了什么”,却不理解“为什么这么做”;
  2. 它们只保存成功经验,忽略了失败的反思

ReasoningBank 的突破在于:
它让 AI 学会从失败中学习

举个例子。
假设 Agent 连续三次尝试登录某系统失败。
传统记忆会记录三条“失败日志”;
ReasoningBank 会生成一条高层策略记忆:

“当登录失败超过两次时,检查验证码更新逻辑是否阻止自动化。”

这就是从“行为复述”到“策略抽象”的飞跃。
而这层抽象,恰恰是 AI 能否具备迁移学习与泛化能力的关键。


四、MaTTS:让记忆与算力形成正反馈的自进化系统

光有记忆还不够,还得会用记忆“长肌肉”。
Google 团队进一步提出了一个很酷的概念——
MaTTS(Memory-aware Test-Time Scaling)

这个名字看起来有点学术,但其实核心很简单:

在测试阶段,通过扩大推理尝试次数,让模型生成更多多样化的经验;
然后用 ReasoningBank 从这些丰富的经验中提炼出更通用、更高质量的记忆。

它的核心思想是:
算力不只是用来出更多答案,而是用来挖掘更多思维路径。

MaTTS 有两种实现模式:

🚀 并行扩展(Parallel Scaling)

  • 同一个任务,生成多条不同推理路径(类似多轮蒙特卡洛思考)。
  • 比较这些路径的异同,从中提炼出“稳定有效的推理规律”。
  • 这种方式更像群体智慧(Self-Contrast),能过滤掉偶然性的错误策略。

🔁 序列扩展(Sequential Scaling)

  • 让 Agent 在一次任务执行后“自我修订”,即进行多轮自我反思。
  • 每一次反思都会生成新的中间推理笔记,这些内容同样被存入 ReasoningBank。
  • 类似人类程序员的过程:第一次写完后,总觉得还能优化一遍。

通过 MaTTS,ReasoningBank 的记忆质量越滚越高,形成一种强力的正反馈循环:

更多算力 → 更多多样经验 → 更强推理记忆 → 更高任务成功率 → 再次强化算力利用。

这就是论文所说的——
“记忆驱动的扩展(Memory-Driven Scaling)”成为新的算力维度。


五、实验证明:会“反思”的 AI,确实更强

在 WebArena、Mind2Web、SWE-Bench-Verified 三大任务集上,ReasoningBank 取得了令人印象深刻的结果:

基线模型 平均成功率提升 平均交互步数减少
对比无记忆 Agent +34.2% -16.0%
对比 Synapse / AWM +7~10% -1.4步

更有意思的是,它的泛化能力显著提升:
在跨网站、跨任务、跨领域的测试中,ReasoningBank 都能保持稳定提升。
这说明它不只是“记住过去”,而是真正“理解了规律”。

Google 团队使用了多个主流模型(Gemini 2.5 Flash/Pro、Claude 3.7 Sonnet)进行验证,效果一致。
换句话说,这种记忆机制是模型无关的(Model-Agnostic),可迁移到任何 LLM Agent 框架中。


六、如何在自己的 Agent 框架中实现类似的记忆机制(HowTo)

如果你正在开发基于大模型的多轮任务 Agent,可以借鉴 ReasoningBank 的思想。
以下是一个简化的实现思路:

Step 1. 记录任务轨迹

记录每次任务的输入、动作、反馈、输出。例如:

trajectory = {
    "query": "修改 GitLab 用户权限",
    "actions": ["open_admin_page", "search_user", "update_role"],
    "result": "failed",
    "log": "permission denied due to missing token"
}

Step 2. 让 LLM 自我评估结果

通过一个自评 prompt,让模型判断自己做得好不好:

judge_prompt = f"""
你是一名智能体教练,请根据以下任务执行日志判断是否成功,并解释原因:
{trajectory}
"""

LLM 输出类似:

“失败。原因:未检查登录状态。改进建议:在操作前调用 check_session()。”

Step 3. 提炼为结构化记忆单元

将总结结果转化为结构化的 JSON 记忆项:

{
  "title": "操作前检查登录状态",
  "description": "避免因过期 Session 导致权限错误",
  "content": "在执行管理员操作前,调用 check_session() 确认登录有效。"
}

Step 4. 在下次任务中检索并注入记忆

可以简单地用向量检索(如 FAISS 或 Milvus)根据任务语义匹配相关记忆:

related_memories = search_memory(query_embedding)
agent_context = base_prompt + related_memories

这样,Agent 每次在执行新任务前,都会带着前人的智慧“上战场”。


七、ReasoningBank 的深远意义:记忆即算力

传统意义上的“Scaling”——无非是加显卡、加参数、加数据。
ReasoningBank 提出的理念,却开辟了第四条路:

Scaling by Experience(经验扩展)。

它告诉我们,智能的成长不一定靠硬件,更可以靠“经验积累的密度”。
这正是人类智能区别于机器的本质:我们不会因为一次失败而归零,而是“带着疤成长”。

未来的 AI Agent,将不只是执行命令的工具,而是:

  • 能自己总结经验;
  • 能避免重蹈覆辙;
  • 能持续优化行为;
  • 甚至能通过团队协作共享记忆,形成“集体智慧的 ReasoningBank”。

这或许就是“自我进化智能体(Self-Evolving Agent)”的开端。


常见问题解答(FAQ)

Q1:ReasoningBank 需要人工标注成功/失败吗?
A1: 不需要。它使用 LLM 自评(LLM-as-a-judge)机制,根据上下文和输出自动判断。

Q2:是否可以将 ReasoningBank 与 RAG 结合?
A2: 可以。ReasoningBank 的结构化记忆本质上也是可检索的知识项,完全可用向量数据库集成。

Q3:是否适用于非网页类任务?
A3: 是的。任何可定义任务轨迹(输入-动作-结果)的 Agent 都可使用,如代码生成、运维操作、游戏 AI 等。

Q4:MaTTS 会不会导致算力浪费?
A4: 相反,它让算力产出更多“高价值经验”。研究显示,在相同算力预算下,MaTTS 提升的任务成功率更高。


结语:AI 的下一个拐点——“记忆觉醒”

当我们谈论 LLM 的进化时,大多数人只关注模型规模。
但 ReasoningBank 让我们重新看到另一条路:让模型学会反思。

记忆不只是缓存,而是认知。
当 AI 拥有可生长的记忆结构,它就不再是一个被动执行的系统,而是一个能够真正自我进化的智能体。

未来,也许你的智能助手会这样对你说:

“上次我犯过同样的错,这次我试试另一种方法。”

那一刻,我们真正见证了 AI 的成长。


参考来源:Google Cloud AI Research, “ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory” (2025)