谷歌 MoR 架构:内存减半推理翻倍的 Transformer 挑战者
作为长期关注大模型架构演进的技术观察者,我最近注意到谷歌 DeepMind 与韩国科学技术院(KAIST)联合发布的 Mixture-of-Recursions(MoR) 架构引发热议。这个被部分媒体称为「Transformer 杀手」的新架构,真的能颠覆现有大模型格局吗?本文将从技术原理、实测数据和行业影响三个维度进行深度解析。
一、MoR 架构的三大核心创新
1. 参数共享:像搭乐高一样复用组件
传统 Transformer 就像每个楼层都建独立厨房的大楼,而 MoR 采用「Middle-Cycle」策略:
-
首尾层独立:保留输入层和输出层的独特参数 -
中间层共享:中间所有层复用同一套参数模块
这种设计使 1.7B 参数的 MoR 模型,实际训练参数只有传统模型的 1/3(约 600M),却能保持相同性能。
2. 动态路由:按需分配计算资源
MoR 的核心创新在于引入轻量级路由器,根据 token 复杂度动态分配计算深度:
-
专家选择路由:每个递归层作为「专家」,选择 top-k 重要 token 继续处理 -
令牌选择路由:初始阶段为每个 token 分配固定递归次数
实测数据显示,内容丰富的词汇(如 “People”)会分配 3 次递归,而功能性词汇(如 “and”)仅需 1-2 次。
3. KV 缓存优化:内存效率提升 50%
MoR 提出两种缓存策略:
-
递归式缓存:仅存储当前活跃 token 的 KV 数据 -
递归共享缓存:复用首次递归的 KV 数据
在 3.6 亿参数模型测试中,推理速度提升 2.06 倍,内存占用减少 50%。
二、实测数据:性能与效率的双重突破
1. 相同算力下的性能对比
在 16.5e18 FLOPs 训练预算下:
模型类型 | 参数规模 | 验证集困惑度 | 少样本准确率 |
---|---|---|---|
传统 Transformer | 3.15亿 | 2.7824 | 42.3% |
MoR(专家路由) | 1.67亿 | 2.7511 | 43.1% |
关键发现:MoR 用更少参数实现更高准确率,证明参数共享未牺牲模型表达能力。
2. 训练效率提升
固定 20B token 训练量时:
-
训练 FLOPs 减少 25% -
训练时间缩短 19% -
峰值内存降低 25%
3. 推理吞吐量实测
在 3.6 亿参数模型上:
-
固定 batch size:MoR-4 吞吐量提升 1.8 倍 -
最大 batch size:MoR-4 吞吐量提升 2.06 倍
三、技术细节解析:为什么能实现这些提升?
1. 路由策略的平衡艺术
路由类型 | 优点 | 缺点 | 解决方案 |
---|---|---|---|
专家选择路由 | 负载均衡 | 信息泄露风险 | 层级过滤+辅助损失 |
令牌选择路由 | 无信息泄露 | 负载不均衡 | 平衡损失+路由偏置 |
实测表明,专家选择路由配合辅助损失 能实现最佳性能。
2. KV 缓存的内存魔法
传统 Transformer 的 KV 缓存随序列长度二次增长,而 MoR:
-
递归式缓存:仅存储当前活跃 token,内存需求降低 50% -
递归共享缓存:复用首次 KV 数据,适合长文本场景
四、行业影响与未来展望
1. 对现有生态的冲击
MoR 的出现标志着大模型架构进入「效率优先」时代:
-
训练成本降低:同等性能下算力需求减少 25% -
部署门槛降低:内存需求减半,适合边缘设备部署 -
长文本处理优化:KV 缓存优化特别适合长上下文应用
2. 谷歌的架构创新脉络
从 Mixture-of-Experts(MoE)到 MoR,谷歌持续探索:
-
2017: 首次将 MoE 用于 LSTM -
2021: Switch Transformer 简化路由机制 -
2025: MoR 实现参数共享+动态计算+内存优化三位一体
3. 未来发展方向
-
更大规模训练:当前实验最大到 1.7B 参数 -
多模态扩展:架构天然支持视觉/语音等模态 -
推理时扩展:通过增加递归深度提升生成质量
五、常见问题解答(FAQ)
Q1: MoR 会完全取代 Transformer 吗?
目前断言为时过早,但 MoR 展现了架构创新的潜力,特别是在:
-
长文本处理场景 -
资源受限的边缘部署 -
需要实时响应的应用
Q2: MoR 的主要适用场景?
特别适合:
-
需要实时交互的对话系统 -
长文档分析(如法律文档) -
多模态应用(视频/音频处理)
Q3: 对比现有架构的优劣势?
架构类型 | 优势 | 劣势 |
---|---|---|
传统 Transformer | 成熟生态 | 算力/内存需求高 |
MoE 架构 | 参数效率高 | 路由复杂 |
MoR | 三维效率优化 | 需要新工具链支持 |
Q4: 实际部署需要注意什么?
-
框架支持:需修改现有推理框架支持动态路由 -
缓存管理:需实现高效的 KV 缓存策略 -
量化适配:与现有量化技术兼容性待验证
六、总结
MoR 架构通过参数共享、动态路由和 KV 缓存三维创新,在保持性能的前提下实现了:
-
训练算力减少 25% -
内存占用降低 50% -
推理速度提升 2 倍
这对于大模型普及具有重要意义,特别是资源敏感型应用。虽然目前还处于早期阶段,但谷歌持续在架构创新上的投入,预示着未来大模型将朝着更高效、更智能的方向发展。
技术观察者手记:架构创新往往比单纯堆参数更具革命性,MoR 的出现再次印证了这一点。对于开发者而言,关注底层架构演进比追逐参数量更有价值。