站点图标 高效码农

谷歌MoR架构震撼发布:内存减半、推理翻倍,Transformer真要被颠覆了?

谷歌 MoR 架构:内存减半推理翻倍的 Transformer 挑战者

作为长期关注大模型架构演进的技术观察者,我最近注意到谷歌 DeepMind 与韩国科学技术院(KAIST)联合发布的 Mixture-of-Recursions(MoR) 架构引发热议。这个被部分媒体称为「Transformer 杀手」的新架构,真的能颠覆现有大模型格局吗?本文将从技术原理、实测数据和行业影响三个维度进行深度解析。

一、MoR 架构的三大核心创新

1. 参数共享:像搭乐高一样复用组件

传统 Transformer 就像每个楼层都建独立厨房的大楼,而 MoR 采用「Middle-Cycle」策略:

  • 首尾层独立:保留输入层和输出层的独特参数
  • 中间层共享:中间所有层复用同一套参数模块

这种设计使 1.7B 参数的 MoR 模型,实际训练参数只有传统模型的 1/3(约 600M),却能保持相同性能。

2. 动态路由:按需分配计算资源

MoR 的核心创新在于引入轻量级路由器,根据 token 复杂度动态分配计算深度

  • 专家选择路由:每个递归层作为「专家」,选择 top-k 重要 token 继续处理
  • 令牌选择路由:初始阶段为每个 token 分配固定递归次数

实测数据显示,内容丰富的词汇(如 “People”)会分配 3 次递归,而功能性词汇(如 “and”)仅需 1-2 次。

3. KV 缓存优化:内存效率提升 50%

MoR 提出两种缓存策略:

  • 递归式缓存:仅存储当前活跃 token 的 KV 数据
  • 递归共享缓存:复用首次递归的 KV 数据

在 3.6 亿参数模型测试中,推理速度提升 2.06 倍,内存占用减少 50%。

二、实测数据:性能与效率的双重突破

1. 相同算力下的性能对比

在 16.5e18 FLOPs 训练预算下:

模型类型 参数规模 验证集困惑度 少样本准确率
传统 Transformer 3.15亿 2.7824 42.3%
MoR(专家路由) 1.67亿 2.7511 43.1%

关键发现:MoR 用更少参数实现更高准确率,证明参数共享未牺牲模型表达能力。

2. 训练效率提升

固定 20B token 训练量时:

  • 训练 FLOPs 减少 25%
  • 训练时间缩短 19%
  • 峰值内存降低 25%

3. 推理吞吐量实测

在 3.6 亿参数模型上:

  • 固定 batch size:MoR-4 吞吐量提升 1.8 倍
  • 最大 batch size:MoR-4 吞吐量提升 2.06 倍

三、技术细节解析:为什么能实现这些提升?

1. 路由策略的平衡艺术

路由类型 优点 缺点 解决方案
专家选择路由 负载均衡 信息泄露风险 层级过滤+辅助损失
令牌选择路由 无信息泄露 负载不均衡 平衡损失+路由偏置

实测表明,专家选择路由配合辅助损失 能实现最佳性能。

2. KV 缓存的内存魔法

传统 Transformer 的 KV 缓存随序列长度二次增长,而 MoR:

  • 递归式缓存:仅存储当前活跃 token,内存需求降低 50%
  • 递归共享缓存:复用首次 KV 数据,适合长文本场景

四、行业影响与未来展望

1. 对现有生态的冲击

MoR 的出现标志着大模型架构进入「效率优先」时代:

  • 训练成本降低:同等性能下算力需求减少 25%
  • 部署门槛降低:内存需求减半,适合边缘设备部署
  • 长文本处理优化:KV 缓存优化特别适合长上下文应用

2. 谷歌的架构创新脉络

从 Mixture-of-Experts(MoE)到 MoR,谷歌持续探索:

  • 2017: 首次将 MoE 用于 LSTM
  • 2021: Switch Transformer 简化路由机制
  • 2025: MoR 实现参数共享+动态计算+内存优化三位一体

3. 未来发展方向

  • 更大规模训练:当前实验最大到 1.7B 参数
  • 多模态扩展:架构天然支持视觉/语音等模态
  • 推理时扩展:通过增加递归深度提升生成质量

五、常见问题解答(FAQ)

Q1: MoR 会完全取代 Transformer 吗?

目前断言为时过早,但 MoR 展现了架构创新的潜力,特别是在:

  • 长文本处理场景
  • 资源受限的边缘部署
  • 需要实时响应的应用

Q2: MoR 的主要适用场景?

特别适合:

  • 需要实时交互的对话系统
  • 长文档分析(如法律文档)
  • 多模态应用(视频/音频处理)

Q3: 对比现有架构的优劣势?

架构类型 优势 劣势
传统 Transformer 成熟生态 算力/内存需求高
MoE 架构 参数效率高 路由复杂
MoR 三维效率优化 需要新工具链支持

Q4: 实际部署需要注意什么?

  • 框架支持:需修改现有推理框架支持动态路由
  • 缓存管理:需实现高效的 KV 缓存策略
  • 量化适配:与现有量化技术兼容性待验证

六、总结

MoR 架构通过参数共享、动态路由和 KV 缓存三维创新,在保持性能的前提下实现了:

  • 训练算力减少 25%
  • 内存占用降低 50%
  • 推理速度提升 2 倍

这对于大模型普及具有重要意义,特别是资源敏感型应用。虽然目前还处于早期阶段,但谷歌持续在架构创新上的投入,预示着未来大模型将朝着更高效、更智能的方向发展。

技术观察者手记:架构创新往往比单纯堆参数更具革命性,MoR 的出现再次印证了这一点。对于开发者而言,关注底层架构演进比追逐参数量更有价值。

退出移动版