谷歌MoR架构震撼发布：内存减半、推理翻倍，Transformer真要被颠覆了？

高效码农

10 小时前

谷歌 MoR 架构：内存减半推理翻倍的 Transformer 挑战者

作为长期关注大模型架构演进的技术观察者，我最近注意到谷歌 DeepMind 与韩国科学技术院（KAIST）联合发布的 Mixture-of-Recursions（MoR） 架构引发热议。这个被部分媒体称为「Transformer 杀手」的新架构，真的能颠覆现有大模型格局吗？本文将从技术原理、实测数据和行业影响三个维度进行深度解析。

一、MoR 架构的三大核心创新

1. 参数共享：像搭乐高一样复用组件

传统 Transformer 就像每个楼层都建独立厨房的大楼，而 MoR 采用「Middle-Cycle」策略：

首尾层独立：保留输入层和输出层的独特参数
中间层共享：中间所有层复用同一套参数模块

这种设计使 1.7B 参数的 MoR 模型，实际训练参数只有传统模型的 1/3（约 600M），却能保持相同性能。

2. 动态路由：按需分配计算资源

MoR 的核心创新在于引入轻量级路由器，根据 token 复杂度动态分配计算深度：

专家选择路由：每个递归层作为「专家」，选择 top-k 重要 token 继续处理
令牌选择路由：初始阶段为每个 token 分配固定递归次数

实测数据显示，内容丰富的词汇（如 “People”）会分配 3 次递归，而功能性词汇（如 “and”）仅需 1-2 次。

3. KV 缓存优化：内存效率提升 50%

MoR 提出两种缓存策略：

递归式缓存：仅存储当前活跃 token 的 KV 数据
递归共享缓存：复用首次递归的 KV 数据

在 3.6 亿参数模型测试中，推理速度提升 2.06 倍，内存占用减少 50%。

二、实测数据：性能与效率的双重突破

1. 相同算力下的性能对比

在 16.5e18 FLOPs 训练预算下：

模型类型	参数规模	验证集困惑度	少样本准确率
传统 Transformer	3.15亿	2.7824	42.3%
MoR（专家路由）	1.67亿	2.7511	43.1%

关键发现：MoR 用更少参数实现更高准确率，证明参数共享未牺牲模型表达能力。

2. 训练效率提升

固定 20B token 训练量时：

训练 FLOPs 减少 25%
训练时间缩短 19%
峰值内存降低 25%

3. 推理吞吐量实测

在 3.6 亿参数模型上：

固定 batch size：MoR-4 吞吐量提升 1.8 倍
最大 batch size：MoR-4 吞吐量提升 2.06 倍

三、技术细节解析：为什么能实现这些提升？

1. 路由策略的平衡艺术

路由类型	优点	缺点	解决方案
专家选择路由	负载均衡	信息泄露风险	层级过滤+辅助损失
令牌选择路由	无信息泄露	负载不均衡	平衡损失+路由偏置

实测表明，专家选择路由配合辅助损失 能实现最佳性能。

2. KV 缓存的内存魔法

传统 Transformer 的 KV 缓存随序列长度二次增长，而 MoR：

递归式缓存：仅存储当前活跃 token，内存需求降低 50%
递归共享缓存：复用首次 KV 数据，适合长文本场景

四、行业影响与未来展望

1. 对现有生态的冲击

MoR 的出现标志着大模型架构进入「效率优先」时代：

训练成本降低：同等性能下算力需求减少 25%
部署门槛降低：内存需求减半，适合边缘设备部署
长文本处理优化：KV 缓存优化特别适合长上下文应用

2. 谷歌的架构创新脉络

从 Mixture-of-Experts（MoE）到 MoR，谷歌持续探索：

2017: 首次将 MoE 用于 LSTM
2021: Switch Transformer 简化路由机制
2025: MoR 实现参数共享+动态计算+内存优化三位一体

3. 未来发展方向

更大规模训练：当前实验最大到 1.7B 参数
多模态扩展：架构天然支持视觉/语音等模态
推理时扩展：通过增加递归深度提升生成质量

五、常见问题解答（FAQ）

Q1: MoR 会完全取代 Transformer 吗？

目前断言为时过早，但 MoR 展现了架构创新的潜力，特别是在：

长文本处理场景
资源受限的边缘部署
需要实时响应的应用

Q2: MoR 的主要适用场景？

特别适合：

需要实时交互的对话系统
长文档分析（如法律文档）
多模态应用（视频/音频处理）

Q3: 对比现有架构的优劣势？

架构类型	优势	劣势
传统 Transformer	成熟生态	算力/内存需求高
MoE 架构	参数效率高	路由复杂
MoR	三维效率优化	需要新工具链支持

Q4: 实际部署需要注意什么？

框架支持：需修改现有推理框架支持动态路由
缓存管理：需实现高效的 KV 缓存策略
量化适配：与现有量化技术兼容性待验证

六、总结

MoR 架构通过参数共享、动态路由和 KV 缓存三维创新，在保持性能的前提下实现了：

训练算力减少 25%
内存占用降低 50%
推理速度提升 2 倍

这对于大模型普及具有重要意义，特别是资源敏感型应用。虽然目前还处于早期阶段，但谷歌持续在架构创新上的投入，预示着未来大模型将朝着更高效、更智能的方向发展。

技术观察者手记：架构创新往往比单纯堆参数更具革命性，MoR 的出现再次印证了这一点。对于开发者而言，关注底层架构演进比追逐参数量更有价值。