大型语言模型 2025 年架构全景：从 DeepSeek-V3 到 Kimi 2，一张图看懂谁在“变”、谁在“守”

对话式导读：
“GPT 推出已经七年，模型真的脱胎换骨了吗？”
“如果我只关心推理速度和显存占用，应该选哪一个？”
“MoE、MLA、NoPE、QK-Norm……这些新词到底对开发者和使用者意味着什么？”

本文用问答与场景故事的方式，把 2025 年主流开源大模型的架构差异拆给你看。不追热点、不喊口号，只讲事实与可落地的选择建议。

为什么我们今天还要聊架构
地图：一张图看懂 8 个模型家族
逐个拆解
3.1 DeepSeek-V3 / R1：MLA + MoE 的“省显存”艺术
3.2 OLMo 2：把 Norm 层玩出花
3.3 Gemma 3：滑动窗口注意力与 RMSNorm 的“三明治”
3.4 Gemma 3n：手机跑 4B 模型的两种新技巧
3.5 Mistral Small 3.1：回归传统换来更低时延
3.6 Llama 4：把 MoE 做得更“经典”
3.7 Qwen3：一次性给出 0.6B–235B 的“全家桶”
3.8 SmolLM3：3B 参数也能扔掉位置编码
3.9 Kimi 2：DeepSeek-V3 的 1T 参数放大版
选型速查表
开发者常见 10 问
小结与展望

1. 为什么我们今天还要聊架构

七年前，GPT 用“堆 Transformer 块”的方式刷新了 NLP。七年后的今天，DeepSeek-V3、Llama 4、Gemma 3 等新模型依旧是一摞 Transformer，但细节已经天差地别：

☾ 有的用 256 个专家却只激活 9 个（MoE）；
☾ 有的把 KV Cache 压缩到更低维度（MLA）；
☾ 有的把注意力窗口缩到 1024 token（滑动窗口）；
☾ 有的干脆把位置编码全部拿掉（NoPE）。

这些细节决定了你能否在一张 4090 上跑 70B 模型，也决定了手机端能不能塞进 4B 模型。

2. 地图：一张图看懂 8 个模型家族

模型	核心技术关键词	总参数量	激活参数量	典型适用场景
DeepSeek-V3	MLA + MoE + 共享专家	671 B	37 B	高吞吐推理、API 服务
OLMo 2	Post-Norm + QK-Norm + MHA	7 B/13 B	7 B/13 B	科研可复现、教学
Gemma 3	滑动窗口 + 混合 Norm + GQA	27 B	27 B	本地 27B、GPU 单卡
Gemma 3n	PLE + MatFormer + 滑动窗口	4 B	4 B	手机/端侧
Mistral Small 3.1	GQA + 精简层数	24 B	24 B	低时延在线服务
Llama 4	MoE + GQA	400 B	17 B	通用大底座、可微调
Qwen3	分 dense & MoE 两条线	0.6 B–235 B	0.6 B–22 B	全尺寸覆盖
SmolLM3	NoPE（每 4 层一次）	3 B	3 B	本地小模型
Kimi 2	MLA + MoE 放大版	1 T	~55 B	极限性能、科研

3. 逐个拆解

3.1 DeepSeek-V3 / R1：MLA + MoE 的“省显存”艺术

3.1.1 Multi-Head Latent Attention（MLA）—— KV Cache 的“压缩包”

通俗解释
想像 KV Cache 是一张快递仓库的货架：

☾ 传统 MHA：每层货架都放满 100 个箱子（key/value）。
☾ GQA：两个货架共用 1 个箱子，省空间但可能拿错货。
☾ MLA：先把箱子真空压缩，用的时候再充气，仓库瞬间空出 70% 空间。

技术细节

☾ 训练时 query 也压缩；推理时只压缩 key/value。
☾ 额外一次矩阵乘法换显存，实测速度不降反升。
☾ DeepSeek-V2 的消融实验：MLA 比 GQA 建模更准，比 MHA 省显存。

3.1.2 Mixture-of-Experts（MoE）—— 只开 9 个灶台的 256 口锅

☾ 256 个专家（FeedForward 模块）= 256 口锅
☾ 每 token 只挑 8 个专家 + 1 个“公共锅”
☾ 总参数 671 B，推理只激活 37 B → 显存立省 94%

共享专家的小心思
公共锅负责“通用知识”，其余专家专攻细分任务，减少重复学习。

3.2 OLMo 2：把 Norm 层玩出花

3.2.1 Post-Norm vs Pre-Norm

对比点	Post-Norm（原 Transformer）	Pre-Norm（GPT-2 以后主流）	OLMo 2 的混合做法
层位置	残差之后	残差之前	残差之后（RMSNorm）
梯度稳定性	需精细 warm-up	更稳	实验显示更稳
代码改动	无	无	两行代码挪位置

3.2.2 QK-Norm——再给 query/key 做一次“归一化 SPA”

☾ 在 RoPE 之前，对 query 和 key 再做一次 RMSNorm。
☾ 与 Post-Norm 组合后，训练 loss 曲线更平滑。

3.3 Gemma 3：滑动窗口注意力与 RMSNorm 的“三明治”

3.3.1 Sliding Window Attention——只看邻居的“近视眼”策略

☾ 全局注意力：每个 token 看整句话。
☾ 滑动窗口：只看左右 1024 个邻居。
☾ Gemma 3 把 5/6 的层改成局部窗口，KV Cache 立省 5×。

3.3.2 Norm 层“三明治”

☾ 先在 Attention 前做 RMSNorm（Pre-Norm）。
☾ 再在 Attention 后做一次 RMSNorm（Post-Norm）。
☾ 作者理由：多一点归一化，成本低、风险小。

3.4 Gemma 3n：手机跑 4B 模型的两种新技巧

技巧	作用	类比
PLE（Per-Layer Embedding）	把 embedding 权重放 SSD，用多少取多少	手机 App 按需加载资源包
MatFormer	同一套权重切成 1/2、1/4、1/8 也能独立跑	俄罗斯套娃，各尺寸都能用

3.5 Mistral Small 3.1：回归传统换来更低时延

☾ 放弃滑动窗口 → 能用 FlashAttention 的极致优化内核。
☾ 更少层数 + 自定义 tokenizer → 首 token 延迟下降 15–25%。
☾ 24 B 打平 Gemma 3 27 B（除数学任务外）。

3.6 Llama 4：把 MoE 做得更“经典”

对比维度	Llama 4 Maverick	DeepSeek-V3
总参数	400 B	671 B
激活参数	17 B	37 B
每专家 hidden size	8 k（大专家）	2 k（小专家）
MoE 层分布	隔层 MoE（1:1）	几乎每层 MoE

结论：两种路线都能 work，关键看部署场景。

3.7 Qwen3：一次性给出 0.6B–235B 的“全家桶”

3.7.1 Dense 系列——最小 0.6 B 也能打

☾ 7 个尺寸：0.6 B、1.7 B、4 B、8 B、14 B、32 B。
☾ 训练细节全公开，教学、微调首选。
☾ 0.6 B 在 A100 上 1800 token/s，显存 < 2 GB。

3.7.2 MoE 系列——30 B-A3B 与 235 B-A22B

☾ 命名规则：总参数-A激活参数，如 235B-A22B。
☾ 去掉共享专家（对比 Qwen2.5-MoE），可能是专家数从 2→8 后冗余降低。

3.8 SmolLM3：3B 参数也能扔掉位置编码

☾ NoPE（No Positional Embedding）
- ☾ 不注入绝对/相对位置信息。
- ☾ 靠 causal mask 让模型自己学顺序。
- ☾ 论文实验：长度外推性能更好，但仅限小模型。
☾ 折中落地：每 4 层扔掉一次 RoPE，兼顾效果与稳定。

3.9 Kimi 2：DeepSeek-V3 的 1T 参数放大版

☾ 参数规模：1 T，公开权重里最大。
☾ 架构：沿用 DeepSeek-V3 的 MLA + MoE，只是
- ☾ 专家数更多
- ☾ MLA 头数更少
☾ 优化器：首次在 1 T 规模使用 Muon 替代 AdamW，训练曲线更平滑。

4. 选型速查表

需求	首选模型	一句话理由
本地 4090 单卡跑 30B 级	Gemma 3 27B	27B 性能、滑动窗口省显存
API 高并发	DeepSeek-V3	37B 激活、MoE 省成本
科研复现	OLMo 2	数据、代码、超参全公开
手机端离线	Gemma 3n 4B	PLE + MatFormer 省内存
最低时延	Mistral Small 3.1 24B	24B 打平 27B，时延更低
全尺寸覆盖	Qwen3 系列	0.6 B–235 B 任意挑
小模型实验 NoPE	SmolLM3 3B	3B 也能玩 NoPE
极限性能	Kimi 2 1T	公开权重里的天花板

5. 开发者常见 10 问（FAQ）

Q1：我想在单张 4090 上跑 70B 推理，可能吗？
A：用 MoE 版本的 Llama 4 或 DeepSeek-V3，只激活 17–37 B 参数即可。

Q2：滑动窗口注意力会降低精度吗？
A：Gemma 3 论文表明，在 5:1 的局部/全局比例下，perplexity 几乎不变。

Q3：MLA 和 GQA 哪个更值得接入我的框架？
A：如果你已用 KV Cache，优先 MLA；若求实现简单，GQA 也足够。

Q4：Post-Norm 会不会导致梯度爆炸？
A：OLMo 2 的实验显示，配合 QK-Norm 后反而更稳定。

Q5：NoPE 能直接搬到 70B 模型吗？
A：SmolLM3 只敢在 3 B 规模每 4 层用一次，大模型仍待验证。

Q6：MoE 的路由算法复杂吗？
A：DeepSeek 用简单的 top-k 路由即可，工程上已有成熟 CUDA kernel。

Q7：共享专家到底省不省？
A：DeepSeek 继续保留，Qwen3 去掉；两者差距 < 0.2% perplexity，可忽略。

Q8：MatFormer 需要改训练代码吗？
A：需要一次“套娃”训练，但推理时可零成本切分。

Q9：Muon 优化器能直接替换 AdamW 吗？
A：Kimi 2 给了成功案例，但需重写 optimizer 状态分片逻辑。

Q10：我想自己训一个 1B 以内的小模型，哪个架构最稳？
A：Qwen3 0.6B 或 SmolLM3 3B，训练细节全部公开，代码可直接跑。

6. 小结与展望

七年过去，大模型骨架依旧是 Transformer，但“骨缝”里的 MLA、MoE、滑动窗口、NoPE 正在悄悄改变游戏规则。

☾ 省显存 有了 MLA + MoE 的“组合拳”；
☾ 端侧跑大模型 有了 PLE + MatFormer 的“乾坤大挪移”；
☾ 训练稳定性 有了 Post-Norm + QK-Norm 的“保险丝”。

下一次突破可能来自全新的基础架构，也可能来自今天这些微创新的再组合。保持好奇，保持工程务实——我们下篇再见。

2025大模型架构终极PK：DeepSeek-V3、Kimi 2等8大模型谁主沉浮？

大型语言模型 2025 年架构全景：从 DeepSeek-V3 到 Kimi 2，一张图看懂谁在“变”、谁在“守”

目录

1. 为什么我们今天还要聊架构

2. 地图：一张图看懂 8 个模型家族

3. 逐个拆解

3.1 DeepSeek-V3 / R1：MLA + MoE 的“省显存”艺术

3.1.1 Multi-Head Latent Attention（MLA）—— KV Cache 的“压缩包”

3.1.2 Mixture-of-Experts（MoE）—— 只开 9 个灶台的 256 口锅

3.2 OLMo 2：把 Norm 层玩出花

3.2.1 Post-Norm vs Pre-Norm

3.2.2 QK-Norm——再给 query/key 做一次“归一化 SPA”

3.3 Gemma 3：滑动窗口注意力与 RMSNorm 的“三明治”

3.3.1 Sliding Window Attention——只看邻居的“近视眼”策略

3.3.2 Norm 层“三明治”

3.4 Gemma 3n：手机跑 4B 模型的两种新技巧

3.5 Mistral Small 3.1：回归传统换来更低时延

3.6 Llama 4：把 MoE 做得更“经典”

3.7 Qwen3：一次性给出 0.6B–235B 的“全家桶”

3.7.1 Dense 系列——最小 0.6 B 也能打

3.7.2 MoE 系列——30 B-A3B 与 235 B-A22B

3.8 SmolLM3：3B 参数也能扔掉位置编码

3.9 Kimi 2：DeepSeek-V3 的 1T 参数放大版

4. 选型速查表

5. 开发者常见 10 问（FAQ）

6. 小结与展望

2025大模型架构终极PK：DeepSeek-V3、Kimi 2等8大模型谁主沉浮？

大型语言模型 2025 年架构全景：从 DeepSeek-V3 到 Kimi 2，一张图看懂谁在“变”、谁在“守”

目录

1. 为什么我们今天还要聊架构

2. 地图：一张图看懂 8 个模型家族

3. 逐个拆解

3.1 DeepSeek-V3 / R1：MLA + MoE 的“省显存”艺术

3.1.1 Multi-Head Latent Attention（MLA）—— KV Cache 的“压缩包”

3.1.2 Mixture-of-Experts（MoE）—— 只开 9 个灶台的 256 口锅

3.2 OLMo 2：把 Norm 层玩出花

3.2.1 Post-Norm vs Pre-Norm

3.2.2 QK-Norm——再给 query/key 做一次“归一化 SPA”

3.3 Gemma 3：滑动窗口注意力与 RMSNorm 的“三明治”

3.3.1 Sliding Window Attention——只看邻居的“近视眼”策略

3.3.2 Norm 层“三明治”

3.4 Gemma 3n：手机跑 4B 模型的两种新技巧

3.5 Mistral Small 3.1：回归传统换来更低时延

3.6 Llama 4：把 MoE 做得更“经典”

3.7 Qwen3：一次性给出 0.6B–235B 的“全家桶”

3.7.1 Dense 系列——最小 0.6 B 也能打

3.7.2 MoE 系列——30 B-A3B 与 235 B-A22B

3.8 SmolLM3：3B 参数也能扔掉位置编码

3.9 Kimi 2：DeepSeek-V3 的 1T 参数放大版

4. 选型速查表

5. 开发者常见 10 问（FAQ）

6. 小结与展望

相关文章