嵌套学习(Nested Learning):一种全新的持续学习机器学习范式

过去十年,机器学习领域取得了令人瞩目的进展,这主要得益于强大的神经网络架构和高效的训练算法。然而,尽管大型语言模型(LLMs)表现出色,一些根本性挑战仍然存在,尤其是在持续学习方面——即模型能否随着时间推移不断获取新知识和技能,同时不忘记旧有知识。

为什么持续学习对AI如此重要?

人类大脑是持续学习和自我提升的黄金标准。它通过神经可塑性实现适应——这种非凡的能力让大脑能根据新体验、新记忆和新学习不断改变自身结构。如果没有这种能力,人就会局限于即时情境(比如顺行性遗忘症患者)。

当前的大型语言模型也面临类似局限:它们的知识要么被困在输入窗口的即时上下文中,要么局限于预训练阶段学到的静态信息。

解决这个问题的简单思路是用新数据持续更新模型参数,但这往往会导致“灾难性遗忘”——学习新任务时,模型在旧任务上的熟练度会大幅下降。研究人员通常通过调整架构或优化训练规则来应对这种遗忘,但长期以来,我们一直将模型架构(网络结构)和优化算法(训练规则)视为两个独立的部分,这阻碍了我们构建真正统一、高效的学习系统。

2025年,在神经信息处理系统大会(NeurIPS 2025)上,一篇名为《嵌套学习:深度学习架构的错觉》的论文提出了“嵌套学习”(Nested Learning)范式,为解决这一问题提供了新思路。它打破了架构与优化的界限,将单个机器学习模型视为一个由相互关联、多层次的学习问题组成的系统,这些问题会同时被优化。

什么是嵌套学习范式?

嵌套学习揭示了一个事实:复杂的机器学习模型实际上是一组连贯的、相互关联的优化问题,它们要么相互嵌套,要么并行运行。每个内部问题都有自己的“上下文流”——也就是它试图从中学习的独特信息集合。

这一视角意味着,现有的深度学习方法本质上是通过“压缩”内部上下文流来工作的。更重要的是,嵌套学习为模型设计开辟了一个新维度,让我们能构建具有更深计算深度的学习组件。

用一个生活中的例子能更好理解:比如我们学习做饭,既需要记住食材搭配(长期知识),又需要根据当下火候调整调味(即时信息),还需要从多次失败中总结技巧(中期经验)。这些不同层面的学习同时进行,相互影响,这和嵌套学习中“多层次优化问题”的思路很像。

从联想记忆看嵌套学习的核心逻辑

联想记忆是心理学中的一个概念,指的是根据一个事物映射并回忆起另一个事物的能力(比如看到一张脸就能想起名字)。嵌套学习通过联想记忆的视角,重新解读了现有深度学习的核心机制:

  • 训练过程(尤其是反向传播过程)可以被建模为一种联想记忆。模型会学习将特定数据点映射到其局部误差值,这个误差值衡量了该数据点的“意外程度”——越不符合模型现有认知的数据,误差就越大。
  • 正如之前的研究(如Miras的论文)所示,一些关键的架构组件(比如Transformer中的注意力机制)也可以被正式定义为简单的联想记忆模块,它们的作用是学习序列中token之间的映射关系。

通过定义更新频率(即每个组件的权重调整频率),我们可以将这些相互关联的优化问题排序为“层级”。这个有序集合正是嵌套学习范式的核心。

嵌套学习如何改进现有技术?

嵌套学习的视角为改进现有算法和架构提供了明确的原则,主要体现在两个方面:

1. 深度优化器(Deep optimizers)

嵌套学习将优化器(如基于动量的优化器)视为联想记忆模块,这让我们能将联想记忆的原理应用到优化器设计中。

传统的标准优化器大多依赖简单的点积相似度(通过计算两个向量对应分量乘积的和来衡量相似度),但这种更新方式没有考虑不同数据样本之间的关联。

嵌套学习提出,将优化器的底层目标改为更标准的损失指标(如L2回归损失——一种常见的回归任务损失函数,通过计算预测值与真实值差异的平方和来量化误差),可以推导出动量等核心概念的新公式,让优化器对不完美数据更具韧性。

简单来说,就像人类学习时不仅会记住单个知识点,还会记住知识点之间的联系,深度优化器能让模型在更新参数时,更全面地考虑数据之间的关联,减少因数据噪音或不完整导致的学习偏差。

2. 连续记忆系统(Continuum memory systems)

在标准Transformer中,序列模型充当短期记忆,负责保存即时上下文;前馈神经网络充当长期记忆,存储预训练知识。

嵌套学习将这一概念扩展为“连续记忆系统”(CMS):记忆被视为一系列模块的光谱,每个模块都以特定的、不同的频率更新。这种设计创造了一个更丰富、更有效的持续学习记忆系统。

比如,有的模块每接收10条数据就更新一次(处理短期波动),有的模块每接收1000条数据才更新一次(保留长期规律),还有的模块更新频率介于两者之间(处理中期趋势)。这种多层次的更新机制,让模型能像人类一样,在不同时间尺度上保存和利用信息。

Hope:基于嵌套学习的自修改架构

作为嵌套学习的概念验证,研究人员基于Titans架构设计了“Hope”——一种具有连续记忆的自修改架构。

Titans架构是一种长期记忆模块,它会根据记忆的“意外程度”(即该信息与模型现有知识的差异)来优先保存记忆。尽管其记忆管理能力很强,但它只有两个参数更新层级,只能实现一阶的上下文学习。

Hope则是一种自修改的循环架构,它能利用无限层级的上下文学习,并且通过添加CMS块来适应更大的上下文窗口。本质上,它能通过自引用过程优化自身记忆,形成一个具有无限循环学习层级的架构。

Hope的实验与结果

研究人员通过实验,在语言建模、长上下文推理、持续学习和知识整合任务中评估了深度优化器的有效性和Hope的性能(完整结果可参考原论文)。实验结果证实了嵌套学习、连续记忆系统设计和自修改Titans架构的价值:

  • 在一系列常用的公开语言建模和常识推理任务中,Hope架构的困惑度(perplexity,衡量语言模型预测能力的指标,值越低越好)更低,准确率更高,优于现代循环模型和标准Transformer。
  • 在长上下文“大海捞针”(Needle-In-Haystack)下游任务中,Hope展示了更出色的记忆管理能力,证明连续记忆系统能更高效地处理超长信息序列。

嵌套学习的意义与未来

嵌套学习范式推动了我们对深度学习的理解。通过将架构和优化视为一个统一、连贯的嵌套优化问题系统,它为模型设计开辟了新维度——我们可以堆叠多个层级,构建更强大的模型。

像Hope这样的成果表明,通过原则性方法统一架构与优化,能带来更具表达力、更强大、更高效的学习算法。

这一范式为缩小当前大型语言模型的局限性(易遗忘)与人类大脑卓越的持续学习能力之间的差距提供了坚实基础。未来,研究社区可以深入探索这一新维度,共同构建下一代自我提升的AI系统。

关于嵌套学习的常见问题(FAQ)

嵌套学习和传统深度学习有什么区别?

传统深度学习将模型架构(网络结构)和优化算法(训练规则)视为两个独立部分,而嵌套学习认为它们本质上是同一概念的不同“层级”——每个层级都有自己的上下文流和更新频率,是一个统一的系统。

为什么“灾难性遗忘”是持续学习的大问题?

灾难性遗忘指模型学习新任务时会忘记旧任务的能力,这会导致模型无法持续积累知识。比如,一个先学识别猫、再学识别狗的模型,可能学完狗之后就认不出猫了。这对需要不断学习新内容的AI系统来说是致命的,而嵌套学习通过多层次优化缓解了这一问题。

连续记忆系统(CMS)和人类记忆有相似之处吗?

是的。人类记忆有短期记忆(如记住刚说的话)、中期记忆(如记住昨天的会议内容)和长期记忆(如记住童年经历),它们的“更新”和“遗忘”频率不同。CMS正是借鉴了这种多尺度记忆机制,让不同模块以不同频率更新,模拟人类的记忆特性。

Hope架构为什么能处理更长的上下文?

Hope通过添加连续记忆系统(CMS)块,将记忆模块按更新频率分层,不同层级的模块能分别处理不同长度的上下文信息。同时,它的自修改能力让模型能动态调整记忆管理方式,因此比传统模型更适合超长序列任务。

嵌套学习目前还能应用在哪些领域?

根据现有研究,嵌套学习已在语言建模、常识推理、长上下文记忆等任务中显示出优势。未来,任何需要持续学习、处理多尺度信息的领域(如机器人控制、个性化推荐、动态环境决策等)都可能受益于这一范式。