大型语言模型 2025 年架构全景:从 DeepSeek-V3 到 Kimi 2,一张图看懂谁在“变”、谁在“守”
对话式导读:
“GPT 推出已经七年,模型真的脱胎换骨了吗?”
“如果我只关心推理速度和显存占用,应该选哪一个?”
“MoE、MLA、NoPE、QK-Norm……这些新词到底对开发者和使用者意味着什么?”
本文用问答与场景故事的方式,把 2025 年主流开源大模型的架构差异拆给你看。不追热点、不喊口号,只讲事实与可落地的选择建议。
目录
-
为什么我们今天还要聊架构 -
地图:一张图看懂 8 个模型家族 -
逐个拆解
3.1 DeepSeek-V3 / R1:MLA + MoE 的“省显存”艺术
3.2 OLMo 2:把 Norm 层玩出花
3.3 Gemma 3:滑动窗口注意力与 RMSNorm 的“三明治”
3.4 Gemma 3n:手机跑 4B 模型的两种新技巧
3.5 Mistral Small 3.1:回归传统换来更低时延
3.6 Llama 4:把 MoE 做得更“经典”
3.7 Qwen3:一次性给出 0.6B–235B 的“全家桶”
3.8 SmolLM3:3B 参数也能扔掉位置编码
3.9 Kimi 2:DeepSeek-V3 的 1T 参数放大版 -
选型速查表 -
开发者常见 10 问 -
小结与展望
1. 为什么我们今天还要聊架构
七年前,GPT 用“堆 Transformer 块”的方式刷新了 NLP。七年后的今天,DeepSeek-V3、Llama 4、Gemma 3 等新模型依旧是一摞 Transformer,但细节已经天差地别:
-
☾ 有的用 256 个专家却只激活 9 个(MoE); -
☾ 有的把 KV Cache 压缩到更低维度(MLA); -
☾ 有的把注意力窗口缩到 1024 token(滑动窗口); -
☾ 有的干脆把位置编码全部拿掉(NoPE)。
这些细节决定了你能否在一张 4090 上跑 70B 模型,也决定了手机端能不能塞进 4B 模型。
2. 地图:一张图看懂 8 个模型家族
3. 逐个拆解
3.1 DeepSeek-V3 / R1:MLA + MoE 的“省显存”艺术
3.1.1 Multi-Head Latent Attention(MLA)—— KV Cache 的“压缩包”
通俗解释
想像 KV Cache 是一张快递仓库的货架:
-
☾ 传统 MHA:每层货架都放满 100 个箱子(key/value)。 -
☾ GQA:两个货架共用 1 个箱子,省空间但可能拿错货。 -
☾ MLA:先把箱子真空压缩,用的时候再充气,仓库瞬间空出 70% 空间。
技术细节
-
☾ 训练时 query 也压缩;推理时只压缩 key/value。 -
☾ 额外一次矩阵乘法换显存,实测速度不降反升。 -
☾ DeepSeek-V2 的消融实验:MLA 比 GQA 建模更准,比 MHA 省显存。
3.1.2 Mixture-of-Experts(MoE)—— 只开 9 个灶台的 256 口锅
-
☾ 256 个专家(FeedForward 模块)= 256 口锅 -
☾ 每 token 只挑 8 个专家 + 1 个“公共锅” -
☾ 总参数 671 B,推理只激活 37 B → 显存立省 94%
共享专家的小心思
公共锅负责“通用知识”,其余专家专攻细分任务,减少重复学习。
3.2 OLMo 2:把 Norm 层玩出花
3.2.1 Post-Norm vs Pre-Norm
3.2.2 QK-Norm——再给 query/key 做一次“归一化 SPA”
-
☾ 在 RoPE 之前,对 query 和 key 再做一次 RMSNorm。 -
☾ 与 Post-Norm 组合后,训练 loss 曲线更平滑。
3.3 Gemma 3:滑动窗口注意力与 RMSNorm 的“三明治”
3.3.1 Sliding Window Attention——只看邻居的“近视眼”策略
-
☾ 全局注意力:每个 token 看整句话。 -
☾ 滑动窗口:只看左右 1024 个邻居。 -
☾ Gemma 3 把 5/6 的层改成局部窗口,KV Cache 立省 5×。
3.3.2 Norm 层“三明治”
-
☾ 先在 Attention 前做 RMSNorm(Pre-Norm)。 -
☾ 再在 Attention 后做一次 RMSNorm(Post-Norm)。 -
☾ 作者理由:多一点归一化,成本低、风险小。
3.4 Gemma 3n:手机跑 4B 模型的两种新技巧
3.5 Mistral Small 3.1:回归传统换来更低时延
-
☾ 放弃滑动窗口 → 能用 FlashAttention 的极致优化内核。 -
☾ 更少层数 + 自定义 tokenizer → 首 token 延迟下降 15–25%。 -
☾ 24 B 打平 Gemma 3 27 B(除数学任务外)。
3.6 Llama 4:把 MoE 做得更“经典”
结论:两种路线都能 work,关键看部署场景。
3.7 Qwen3:一次性给出 0.6B–235B 的“全家桶”
3.7.1 Dense 系列——最小 0.6 B 也能打
-
☾ 7 个尺寸:0.6 B、1.7 B、4 B、8 B、14 B、32 B。 -
☾ 训练细节全公开,教学、微调首选。 -
☾ 0.6 B 在 A100 上 1800 token/s,显存 < 2 GB。
3.7.2 MoE 系列——30 B-A3B 与 235 B-A22B
-
☾ 命名规则: 总参数-A激活参数
,如 235B-A22B。 -
☾ 去掉共享专家(对比 Qwen2.5-MoE),可能是专家数从 2→8 后冗余降低。
3.8 SmolLM3:3B 参数也能扔掉位置编码
-
☾ NoPE(No Positional Embedding) -
☾ 不注入绝对/相对位置信息。 -
☾ 靠 causal mask 让模型自己学顺序。 -
☾ 论文实验:长度外推性能更好,但仅限小模型。
-
-
☾ 折中落地:每 4 层扔掉一次 RoPE,兼顾效果与稳定。
3.9 Kimi 2:DeepSeek-V3 的 1T 参数放大版
-
☾ 参数规模:1 T,公开权重里最大。 -
☾ 架构:沿用 DeepSeek-V3 的 MLA + MoE,只是 -
☾ 专家数更多 -
☾ MLA 头数更少
-
-
☾ 优化器:首次在 1 T 规模使用 Muon 替代 AdamW,训练曲线更平滑。
4. 选型速查表
5. 开发者常见 10 问(FAQ)
Q1:我想在单张 4090 上跑 70B 推理,可能吗?
A:用 MoE 版本的 Llama 4 或 DeepSeek-V3,只激活 17–37 B 参数即可。
Q2:滑动窗口注意力会降低精度吗?
A:Gemma 3 论文表明,在 5:1 的局部/全局比例下,perplexity 几乎不变。
Q3:MLA 和 GQA 哪个更值得接入我的框架?
A:如果你已用 KV Cache,优先 MLA;若求实现简单,GQA 也足够。
Q4:Post-Norm 会不会导致梯度爆炸?
A:OLMo 2 的实验显示,配合 QK-Norm 后反而更稳定。
Q5:NoPE 能直接搬到 70B 模型吗?
A:SmolLM3 只敢在 3 B 规模每 4 层用一次,大模型仍待验证。
Q6:MoE 的路由算法复杂吗?
A:DeepSeek 用简单的 top-k 路由即可,工程上已有成熟 CUDA kernel。
Q7:共享专家到底省不省?
A:DeepSeek 继续保留,Qwen3 去掉;两者差距 < 0.2% perplexity,可忽略。
Q8:MatFormer 需要改训练代码吗?
A:需要一次“套娃”训练,但推理时可零成本切分。
Q9:Muon 优化器能直接替换 AdamW 吗?
A:Kimi 2 给了成功案例,但需重写 optimizer 状态分片逻辑。
Q10:我想自己训一个 1B 以内的小模型,哪个架构最稳?
A:Qwen3 0.6B 或 SmolLM3 3B,训练细节全部公开,代码可直接跑。
6. 小结与展望
七年过去,大模型骨架依旧是 Transformer,但“骨缝”里的 MLA、MoE、滑动窗口、NoPE 正在悄悄改变游戏规则。
-
☾ 省显存 有了 MLA + MoE 的“组合拳”; -
☾ 端侧跑大模型 有了 PLE + MatFormer 的“乾坤大挪移”; -
☾ 训练稳定性 有了 Post-Norm + QK-Norm 的“保险丝”。
下一次突破可能来自全新的基础架构,也可能来自今天这些微创新的再组合。保持好奇,保持工程务实——我们下篇再见。