大型语言模型 2025 年架构全景:从 DeepSeek-V3 到 Kimi 2,一张图看懂谁在“变”、谁在“守”

对话式导读:
“GPT 推出已经七年,模型真的脱胎换骨了吗?”
“如果我只关心推理速度和显存占用,应该选哪一个?”
“MoE、MLA、NoPE、QK-Norm……这些新词到底对开发者和使用者意味着什么?”

本文用问答与场景故事的方式,把 2025 年主流开源大模型的架构差异拆给你看。不追热点、不喊口号,只讲事实与可落地的选择建议。


目录

  1. 为什么我们今天还要聊架构
  2. 地图:一张图看懂 8 个模型家族
  3. 逐个拆解
    3.1 DeepSeek-V3 / R1:MLA + MoE 的“省显存”艺术
    3.2 OLMo 2:把 Norm 层玩出花
    3.3 Gemma 3:滑动窗口注意力与 RMSNorm 的“三明治”
    3.4 Gemma 3n:手机跑 4B 模型的两种新技巧
    3.5 Mistral Small 3.1:回归传统换来更低时延
    3.6 Llama 4:把 MoE 做得更“经典”
    3.7 Qwen3:一次性给出 0.6B–235B 的“全家桶”
    3.8 SmolLM3:3B 参数也能扔掉位置编码
    3.9 Kimi 2:DeepSeek-V3 的 1T 参数放大版
  4. 选型速查表
  5. 开发者常见 10 问
  6. 小结与展望

1. 为什么我们今天还要聊架构

七年前,GPT 用“堆 Transformer 块”的方式刷新了 NLP。七年后的今天,DeepSeek-V3、Llama 4、Gemma 3 等新模型依旧是一摞 Transformer,但细节已经天差地别:

  • 有的用 256 个专家却只激活 9 个(MoE);
  • 有的把 KV Cache 压缩到更低维度(MLA);
  • 有的把注意力窗口缩到 1024 token(滑动窗口);
  • 有的干脆把位置编码全部拿掉(NoPE)。

这些细节决定了你能否在一张 4090 上跑 70B 模型,也决定了手机端能不能塞进 4B 模型。


2. 地图:一张图看懂 8 个模型家族

模型 核心技术关键词 总参数量 激活参数量 典型适用场景
DeepSeek-V3 MLA + MoE + 共享专家 671 B 37 B 高吞吐推理、API 服务
OLMo 2 Post-Norm + QK-Norm + MHA 7 B/13 B 7 B/13 B 科研可复现、教学
Gemma 3 滑动窗口 + 混合 Norm + GQA 27 B 27 B 本地 27B、GPU 单卡
Gemma 3n PLE + MatFormer + 滑动窗口 4 B 4 B 手机/端侧
Mistral Small 3.1 GQA + 精简层数 24 B 24 B 低时延在线服务
Llama 4 MoE + GQA 400 B 17 B 通用大底座、可微调
Qwen3 分 dense & MoE 两条线 0.6 B–235 B 0.6 B–22 B 全尺寸覆盖
SmolLM3 NoPE(每 4 层一次) 3 B 3 B 本地小模型
Kimi 2 MLA + MoE 放大版 1 T ~55 B 极限性能、科研

3. 逐个拆解

3.1 DeepSeek-V3 / R1:MLA + MoE 的“省显存”艺术

3.1.1 Multi-Head Latent Attention(MLA)—— KV Cache 的“压缩包”

通俗解释
想像 KV Cache 是一张快递仓库的货架:

  • 传统 MHA:每层货架都放满 100 个箱子(key/value)。
  • GQA:两个货架共用 1 个箱子,省空间但可能拿错货。
  • MLA:先把箱子真空压缩,用的时候再充气,仓库瞬间空出 70% 空间。

技术细节

  • 训练时 query 也压缩;推理时只压缩 key/value。
  • 额外一次矩阵乘法换显存,实测速度不降反升。
  • DeepSeek-V2 的消融实验:MLA 比 GQA 建模更准,比 MHA 省显存。

3.1.2 Mixture-of-Experts(MoE)—— 只开 9 个灶台的 256 口锅

  • 256 个专家(FeedForward 模块)= 256 口锅
  • 每 token 只挑 8 个专家 + 1 个“公共锅”
  • 总参数 671 B,推理只激活 37 B → 显存立省 94%

共享专家的小心思
公共锅负责“通用知识”,其余专家专攻细分任务,减少重复学习。


3.2 OLMo 2:把 Norm 层玩出花

3.2.1 Post-Norm vs Pre-Norm

对比点 Post-Norm(原 Transformer) Pre-Norm(GPT-2 以后主流) OLMo 2 的混合做法
层位置 残差之后 残差之前 残差之后(RMSNorm)
梯度稳定性 需精细 warm-up 更稳 实验显示更稳
代码改动 两行代码挪位置

3.2.2 QK-Norm——再给 query/key 做一次“归一化 SPA”

  • 在 RoPE 之前,对 query 和 key 再做一次 RMSNorm。
  • 与 Post-Norm 组合后,训练 loss 曲线更平滑。

3.3 Gemma 3:滑动窗口注意力与 RMSNorm 的“三明治”

3.3.1 Sliding Window Attention——只看邻居的“近视眼”策略

  • 全局注意力:每个 token 看整句话。
  • 滑动窗口:只看左右 1024 个邻居。
  • Gemma 3 把 5/6 的层改成局部窗口,KV Cache 立省 5×。

3.3.2 Norm 层“三明治”

  • 先在 Attention 前做 RMSNorm(Pre-Norm)。
  • 再在 Attention 后做一次 RMSNorm(Post-Norm)。
  • 作者理由:多一点归一化,成本低、风险小。

3.4 Gemma 3n:手机跑 4B 模型的两种新技巧

技巧 作用 类比
PLE(Per-Layer Embedding) 把 embedding 权重放 SSD,用多少取多少 手机 App 按需加载资源包
MatFormer 同一套权重切成 1/2、1/4、1/8 也能独立跑 俄罗斯套娃,各尺寸都能用

3.5 Mistral Small 3.1:回归传统换来更低时延

  • 放弃滑动窗口 → 能用 FlashAttention 的极致优化内核。
  • 更少层数 + 自定义 tokenizer → 首 token 延迟下降 15–25%。
  • 24 B 打平 Gemma 3 27 B(除数学任务外)。

3.6 Llama 4:把 MoE 做得更“经典”

对比维度 Llama 4 Maverick DeepSeek-V3
总参数 400 B 671 B
激活参数 17 B 37 B
每专家 hidden size 8 k(大专家) 2 k(小专家)
MoE 层分布 隔层 MoE(1:1) 几乎每层 MoE

结论:两种路线都能 work,关键看部署场景。


3.7 Qwen3:一次性给出 0.6B–235B 的“全家桶”

3.7.1 Dense 系列——最小 0.6 B 也能打

  • 7 个尺寸:0.6 B、1.7 B、4 B、8 B、14 B、32 B。
  • 训练细节全公开,教学、微调首选。
  • 0.6 B 在 A100 上 1800 token/s,显存 < 2 GB。

3.7.2 MoE 系列——30 B-A3B 与 235 B-A22B

  • 命名规则:总参数-A激活参数,如 235B-A22B。
  • 去掉共享专家(对比 Qwen2.5-MoE),可能是专家数从 2→8 后冗余降低。

3.8 SmolLM3:3B 参数也能扔掉位置编码

  • NoPE(No Positional Embedding)

    • 不注入绝对/相对位置信息。
    • 靠 causal mask 让模型自己学顺序。
    • 论文实验:长度外推性能更好,但仅限小模型。
  • 折中落地:每 4 层扔掉一次 RoPE,兼顾效果与稳定。

3.9 Kimi 2:DeepSeek-V3 的 1T 参数放大版

  • 参数规模:1 T,公开权重里最大。
  • 架构:沿用 DeepSeek-V3 的 MLA + MoE,只是

    • 专家数更多
    • MLA 头数更少
  • 优化器:首次在 1 T 规模使用 Muon 替代 AdamW,训练曲线更平滑。

4. 选型速查表

需求 首选模型 一句话理由
本地 4090 单卡跑 30B 级 Gemma 3 27B 27B 性能、滑动窗口省显存
API 高并发 DeepSeek-V3 37B 激活、MoE 省成本
科研复现 OLMo 2 数据、代码、超参全公开
手机端离线 Gemma 3n 4B PLE + MatFormer 省内存
最低时延 Mistral Small 3.1 24B 24B 打平 27B,时延更低
全尺寸覆盖 Qwen3 系列 0.6 B–235 B 任意挑
小模型实验 NoPE SmolLM3 3B 3B 也能玩 NoPE
极限性能 Kimi 2 1T 公开权重里的天花板

5. 开发者常见 10 问(FAQ)

Q1:我想在单张 4090 上跑 70B 推理,可能吗?
A:用 MoE 版本的 Llama 4 或 DeepSeek-V3,只激活 17–37 B 参数即可。

Q2:滑动窗口注意力会降低精度吗?
A:Gemma 3 论文表明,在 5:1 的局部/全局比例下,perplexity 几乎不变。

Q3:MLA 和 GQA 哪个更值得接入我的框架?
A:如果你已用 KV Cache,优先 MLA;若求实现简单,GQA 也足够。

Q4:Post-Norm 会不会导致梯度爆炸?
A:OLMo 2 的实验显示,配合 QK-Norm 后反而更稳定。

Q5:NoPE 能直接搬到 70B 模型吗?
A:SmolLM3 只敢在 3 B 规模每 4 层用一次,大模型仍待验证。

Q6:MoE 的路由算法复杂吗?
A:DeepSeek 用简单的 top-k 路由即可,工程上已有成熟 CUDA kernel。

Q7:共享专家到底省不省?
A:DeepSeek 继续保留,Qwen3 去掉;两者差距 < 0.2% perplexity,可忽略。

Q8:MatFormer 需要改训练代码吗?
A:需要一次“套娃”训练,但推理时可零成本切分。

Q9:Muon 优化器能直接替换 AdamW 吗?
A:Kimi 2 给了成功案例,但需重写 optimizer 状态分片逻辑。

Q10:我想自己训一个 1B 以内的小模型,哪个架构最稳?
A:Qwen3 0.6B 或 SmolLM3 3B,训练细节全部公开,代码可直接跑。


6. 小结与展望

七年过去,大模型骨架依旧是 Transformer,但“骨缝”里的 MLA、MoE、滑动窗口、NoPE 正在悄悄改变游戏规则。

  • 省显存 有了 MLA + MoE 的“组合拳”;
  • 端侧跑大模型 有了 PLE + MatFormer 的“乾坤大挪移”;
  • 训练稳定性 有了 Post-Norm + QK-Norm 的“保险丝”。

下一次突破可能来自全新的基础架构,也可能来自今天这些微创新的再组合。保持好奇,保持工程务实——我们下篇再见。