嵌套学习（Nested Learning）：一种全新的持续学习机器学习范式

过去十年，机器学习领域取得了令人瞩目的进展，这主要得益于强大的神经网络架构和高效的训练算法。然而，尽管大型语言模型（LLMs）表现出色，一些根本性挑战仍然存在，尤其是在持续学习方面——即模型能否随着时间推移不断获取新知识和技能，同时不忘记旧有知识。

为什么持续学习对AI如此重要？

人类大脑是持续学习和自我提升的黄金标准。它通过神经可塑性实现适应——这种非凡的能力让大脑能根据新体验、新记忆和新学习不断改变自身结构。如果没有这种能力，人就会局限于即时情境（比如顺行性遗忘症患者）。

当前的大型语言模型也面临类似局限：它们的知识要么被困在输入窗口的即时上下文中，要么局限于预训练阶段学到的静态信息。

解决这个问题的简单思路是用新数据持续更新模型参数，但这往往会导致“灾难性遗忘”——学习新任务时，模型在旧任务上的熟练度会大幅下降。研究人员通常通过调整架构或优化训练规则来应对这种遗忘，但长期以来，我们一直将模型架构（网络结构）和优化算法（训练规则）视为两个独立的部分，这阻碍了我们构建真正统一、高效的学习系统。

2025年，在神经信息处理系统大会（NeurIPS 2025）上，一篇名为《嵌套学习：深度学习架构的错觉》的论文提出了“嵌套学习”（Nested Learning）范式，为解决这一问题提供了新思路。它打破了架构与优化的界限，将单个机器学习模型视为一个由相互关联、多层次的学习问题组成的系统，这些问题会同时被优化。

什么是嵌套学习范式？

嵌套学习揭示了一个事实：复杂的机器学习模型实际上是一组连贯的、相互关联的优化问题，它们要么相互嵌套，要么并行运行。每个内部问题都有自己的“上下文流”——也就是它试图从中学习的独特信息集合。

这一视角意味着，现有的深度学习方法本质上是通过“压缩”内部上下文流来工作的。更重要的是，嵌套学习为模型设计开辟了一个新维度，让我们能构建具有更深计算深度的学习组件。

用一个生活中的例子能更好理解：比如我们学习做饭，既需要记住食材搭配（长期知识），又需要根据当下火候调整调味（即时信息），还需要从多次失败中总结技巧（中期经验）。这些不同层面的学习同时进行，相互影响，这和嵌套学习中“多层次优化问题”的思路很像。

从联想记忆看嵌套学习的核心逻辑

联想记忆是心理学中的一个概念，指的是根据一个事物映射并回忆起另一个事物的能力（比如看到一张脸就能想起名字）。嵌套学习通过联想记忆的视角，重新解读了现有深度学习的核心机制：

训练过程（尤其是反向传播过程）可以被建模为一种联想记忆。模型会学习将特定数据点映射到其局部误差值，这个误差值衡量了该数据点的“意外程度”——越不符合模型现有认知的数据，误差就越大。
正如之前的研究（如Miras的论文）所示，一些关键的架构组件（比如Transformer中的注意力机制）也可以被正式定义为简单的联想记忆模块，它们的作用是学习序列中token之间的映射关系。

通过定义更新频率（即每个组件的权重调整频率），我们可以将这些相互关联的优化问题排序为“层级”。这个有序集合正是嵌套学习范式的核心。

嵌套学习如何改进现有技术？

嵌套学习的视角为改进现有算法和架构提供了明确的原则，主要体现在两个方面：

1. 深度优化器（Deep optimizers）

嵌套学习将优化器（如基于动量的优化器）视为联想记忆模块，这让我们能将联想记忆的原理应用到优化器设计中。

传统的标准优化器大多依赖简单的点积相似度（通过计算两个向量对应分量乘积的和来衡量相似度），但这种更新方式没有考虑不同数据样本之间的关联。

嵌套学习提出，将优化器的底层目标改为更标准的损失指标（如L2回归损失——一种常见的回归任务损失函数，通过计算预测值与真实值差异的平方和来量化误差），可以推导出动量等核心概念的新公式，让优化器对不完美数据更具韧性。

简单来说，就像人类学习时不仅会记住单个知识点，还会记住知识点之间的联系，深度优化器能让模型在更新参数时，更全面地考虑数据之间的关联，减少因数据噪音或不完整导致的学习偏差。

2. 连续记忆系统（Continuum memory systems）

在标准Transformer中，序列模型充当短期记忆，负责保存即时上下文；前馈神经网络充当长期记忆，存储预训练知识。

嵌套学习将这一概念扩展为“连续记忆系统”（CMS）：记忆被视为一系列模块的光谱，每个模块都以特定的、不同的频率更新。这种设计创造了一个更丰富、更有效的持续学习记忆系统。

比如，有的模块每接收10条数据就更新一次（处理短期波动），有的模块每接收1000条数据才更新一次（保留长期规律），还有的模块更新频率介于两者之间（处理中期趋势）。这种多层次的更新机制，让模型能像人类一样，在不同时间尺度上保存和利用信息。

Hope：基于嵌套学习的自修改架构

作为嵌套学习的概念验证，研究人员基于Titans架构设计了“Hope”——一种具有连续记忆的自修改架构。

Titans架构是一种长期记忆模块，它会根据记忆的“意外程度”（即该信息与模型现有知识的差异）来优先保存记忆。尽管其记忆管理能力很强，但它只有两个参数更新层级，只能实现一阶的上下文学习。

Hope则是一种自修改的循环架构，它能利用无限层级的上下文学习，并且通过添加CMS块来适应更大的上下文窗口。本质上，它能通过自引用过程优化自身记忆，形成一个具有无限循环学习层级的架构。

Hope的实验与结果

研究人员通过实验，在语言建模、长上下文推理、持续学习和知识整合任务中评估了深度优化器的有效性和Hope的性能（完整结果可参考原论文）。实验结果证实了嵌套学习、连续记忆系统设计和自修改Titans架构的价值：

在一系列常用的公开语言建模和常识推理任务中，Hope架构的困惑度（perplexity，衡量语言模型预测能力的指标，值越低越好）更低，准确率更高，优于现代循环模型和标准Transformer。
在长上下文“大海捞针”（Needle-In-Haystack）下游任务中，Hope展示了更出色的记忆管理能力，证明连续记忆系统能更高效地处理超长信息序列。

嵌套学习的意义与未来

嵌套学习范式推动了我们对深度学习的理解。通过将架构和优化视为一个统一、连贯的嵌套优化问题系统，它为模型设计开辟了新维度——我们可以堆叠多个层级，构建更强大的模型。

像Hope这样的成果表明，通过原则性方法统一架构与优化，能带来更具表达力、更强大、更高效的学习算法。

这一范式为缩小当前大型语言模型的局限性（易遗忘）与人类大脑卓越的持续学习能力之间的差距提供了坚实基础。未来，研究社区可以深入探索这一新维度，共同构建下一代自我提升的AI系统。

关于嵌套学习的常见问题（FAQ）

嵌套学习和传统深度学习有什么区别？

传统深度学习将模型架构（网络结构）和优化算法（训练规则）视为两个独立部分，而嵌套学习认为它们本质上是同一概念的不同“层级”——每个层级都有自己的上下文流和更新频率，是一个统一的系统。

为什么“灾难性遗忘”是持续学习的大问题？

灾难性遗忘指模型学习新任务时会忘记旧任务的能力，这会导致模型无法持续积累知识。比如，一个先学识别猫、再学识别狗的模型，可能学完狗之后就认不出猫了。这对需要不断学习新内容的AI系统来说是致命的，而嵌套学习通过多层次优化缓解了这一问题。

连续记忆系统（CMS）和人类记忆有相似之处吗？

是的。人类记忆有短期记忆（如记住刚说的话）、中期记忆（如记住昨天的会议内容）和长期记忆（如记住童年经历），它们的“更新”和“遗忘”频率不同。CMS正是借鉴了这种多尺度记忆机制，让不同模块以不同频率更新，模拟人类的记忆特性。

Hope架构为什么能处理更长的上下文？

Hope通过添加连续记忆系统（CMS）块，将记忆模块按更新频率分层，不同层级的模块能分别处理不同长度的上下文信息。同时，它的自修改能力让模型能动态调整记忆管理方式，因此比传统模型更适合超长序列任务。

嵌套学习目前还能应用在哪些领域？

根据现有研究，嵌套学习已在语言建模、常识推理、长上下文记忆等任务中显示出优势。未来，任何需要持续学习、处理多尺度信息的领域（如机器人控制、个性化推荐、动态环境决策等）都可能受益于这一范式。

颠覆认知的嵌套学习：下一代AI大模型的持续进化