从 GPT-2 到 Kimi 2：一张图看清 2025 年主流大模型架构到底改了什么

这篇文章写给已经会用 LLM、却常常被技术报告里拗口名词绕晕的你。我们只用一张图、一段代码、一句白话，把 DeepSeek-V3、Llama 4、Gemma 3、Qwen3、SmolLM3、Kimi 2 等 2025 年热门模型的核心改动讲清楚。读完你可以：

30 秒内向别人解释「为什么 671 B 参数的 DeepSeek-V3 跑起来比 405 B 的 Llama 3 还省」

快速判断「自己的业务该用 MoE 还是 dense」

在本地笔记本上跑通最小 0.6 B 的 Qwen3 demo

七年不变的主干：Transformer 到底改了哪里？
DeepSeek-V3 / R1：MLA + MoE 省显存的两大杀器
OLMo 2：把 LayerNorm 挪个位置就能稳定训练？
Gemma 3：Sliding Window Attention 让 27 B 模型在家用电脑跑起来
Mistral Small 3.1：24 B 比 27 B 更快，用了哪些“小伎俩”？
Llama 4：Meta 也做 MoE，但和 DeepSeek 有何不同？
Qwen3：一份模型、两种口味（dense & MoE）
SmolLM3：3 B 参数也能扔掉位置编码？
Kimi 2：把 DeepSeek-V3 放大到 1 T 参数会怎样？
一张总表：10 秒选对模型
常见疑问 FAQ

1. 七年不变的主干：Transformer 到底改了哪里？

模块	2019 GPT-2	2025 主流做法	一句话总结
位置编码	固定绝对位置	RoPE（旋转）	既省显存又支持更长上下文
Attention	Multi-Head	GQA / MLA	把 K/V 头分组或压缩，省缓存
激活函数	GELU	SwiGLU	更快、更省、略提分
FeedForward	单个大 FFN	MoE 或多层小 FFN	训练时容量爆炸，推理时只开几门
Norm 位置	Post-Norm	Pre-Norm / 混合	训练更稳

2. DeepSeek-V3 / R1：MLA + MoE 省显存的两大杀器

2.1 Multi-Head Latent Attention（MLA）是什么？

痛点：KV cache 占显存大头。
传统做法（GQA）：让 2 个 query 头共享 1 组 K/V，减少头数。
MLA 做法：先把 K/V 压成低维「潜向量」存进缓存，用的时候再投影回原始维度。
- 缓存 = 小矩阵 → 显存直接砍半。
- 论文显示比 GQA 还略提分。

# 伪代码：MLA 推理时解压
compressed_kv = cache[token_id]        # (batch, dim_latent)
key, value = up_proj(compressed_kv)    # 再放大回原维度

2.2 Mixture-of-Experts（MoE）

形象比喻：把原本一个“大食堂”拆成 256 个“小灶”，但每个 token 只让 8 个厨子上菜。
DeepSeek-V3 数据：
- 总参数 671 B，实际推理只激活 37 B（≈ 5.5 %）。
- 额外加 1 个「公共厨子」——共享 expert，专门学通用规律。
为什么能提分？ 模型容量变大了，但计算量几乎不变。

3. OLMo 2：把 LayerNorm 挪个位置就能稳定训练？

位置	原始 Transformer	GPT-2/Llama 3	OLMo 2
Norm 放哪里？	模块「之后」	模块「之前」	回到「之后」，但仍在残差内

动机：Pre-Norm 虽然好训，但作者发现 Post-Norm + RMSNorm 训练稳定性反而更好（实验见图 9）。
额外小动作：
- 在 Attention 内部再给 Q、K 做一次 RMSNorm（QK-Norm），防止梯度爆炸。
一句话：如果你训模型总炸，不妨试试 OLMo 2 的 Norm 配方。

4. Gemma 3：Sliding Window Attention 让 27 B 模型在家用电脑跑起来

4.1 滑动窗口注意力

原理：每个 token 只看左右 1024 个邻居，而不是全文。
效果：KV cache 内存 ↓ 5×，速度 ↑。
担心信息丢失？ 作者用 5:1 的局部 vs 全局层比例，整体困惑度没掉（见图 13）。

4.2 Norm 的「夹心」做法

在 Attention 前后各放一个 RMSNorm，既像 Pre 又像 Post，官方称「Sandwich Norm」。
好处：训练稳；坏处：几乎忽略不计的额外计算。

5. Mistral Small 3.1：24 B 比 27 B 更快，用了哪些“小伎俩”？

取消滑动窗口：换回标准 GQA，FlashAttention 可以全开优化，延迟更低。
更小词表 + 更浅层：
- tokenizer 压缩句子长度 → 同样句子更少 token → 更快。
- layer 数减少 → 串行步数减少。
结论：在大多数基准上秒掉 Gemma 3 27 B，数学除外。

6. Llama 4：Meta 也做 MoE，但和 DeepSeek 有何不同？

对比项	DeepSeek-V3	Llama 4 Maverick
总参数	671 B	400 B
激活参数	37 B	17 B
每层 expert 数	256（9 激活）	128（2 激活）
expert 隐藏维度	2048	8192
MoE 使用频率	除前 3 层外全部	隔层使用（1 MoE + 1 Dense）

一句话：DeepSeek 用「小而多」的专家，Llama 4 用「大而少」的专家；谁更好尚无定论，但 MoE 已是大势所趋。

7. Qwen3：一份模型、两种口味（dense & MoE）

7.1 Dense 版

最小 0.6 B，本地 CPU 都能跑。
架构更深、更窄 → 省显存但推理慢一些。
实测比 Llama 3 1 B 省 30 % 内存。

7.2 MoE 版

235 B-A22 B：总 235 B，激活 22 B。
相比 DeepSeek-V3 去掉了共享 expert，官方未解释原因；猜测是专家数从 2 增到 8 后共享 expert 收益变小。

8. SmolLM3：3 B 参数也能扔掉位置编码？

NoPE（No Positional Embedding）
- 完全不学位置向量，只靠 causal mask 的先后次序。
- 论文说长度泛化更好（见图 23），但作者保守地每 4 层用一次 NoPE，其余仍用 RoPE。
3 B 定位：填补 Qwen3 1.7 B 与 4 B 之间的空档，性能/显存平衡甜点。

9. Kimi 2：把 DeepSeek-V3 放大到 1 T 参数会怎样？

架构：DeepSeek-V3 的「超大杯」——更多专家、更少 MLA 头。
训练：首次在 1 T 规模上换掉 AdamW，改用 Muon 优化器，训练曲线干净得不像话。
成绩：官方宣称打平 Gemini/Claude/ChatGPT，是目前公开权重里最大、最强。

10. 一张总表：10 秒选对模型

模型	总/激活参数	显存占用 (推理)	特色	适用场景
DeepSeek-V3	671 B / 37 B	中	MLA+MoE	生产级推理，开源首选
Llama 4	400 B / 17 B	低	MoE 隔层	已用 Llama 生态平滑升级
Gemma 3 27 B	27 B / 27 B	高	滑动窗口	本地 24 GB 显卡可跑
Mistral Small 3.1	24 B / 24 B	低	优化 tokenizer	延迟敏感业务
Qwen3 0.6 B	0.6 B / 0.6 B	极低	最小可训练	教学、嵌入式
Qwen3 235 B-A22 B	235 B / 22 B	中	MoE 无共享专家	高并发在线服务
SmolLM3 3 B	3 B / 3 B	低	NoPE	中端显卡、个人项目
Kimi 2	1000 B / ?	高	最大公开权重	科研、对标闭源旗舰

11. 常见疑问 FAQ

Q1：KV cache 到底是啥？为什么 MLA / GQA / 滑动窗口都能省它？
A：自回归生成时要把之前算过的 K/V 矩阵存起来，省得重复算。KV cache = batch * seq_len * num_heads * head_dim * layers 字节。任何减少 seq_len、num_heads、head_dim 或层数的方法都能省显存。

Q2：MoE 会不会让推理变复杂？
A：会多一个 router 选专家的步骤，但主流框架（vLLM、TensorRT-LLM）都已支持，写几行配置即可。

Q3：Post-Norm 会不会回到早期 Transformer 的梯度爆炸？
A：OLMo 2 和 Gemma 3 的实践表明，RMSNorm + 适当的 warm-up + QK-Norm 可以把风险降到可接受范围。

Q4：NoPE 真的靠谱吗？
A：SmolLM3 只在部分层使用，属于保守尝试；如果你要训 100 B+，建议仍用 RoPE 或 ALiBi。

Q5：本地 Mac Mini 跑 27 B 的 Gemma 3 需要什么配置？
A：M2 Pro 32 GB 统一内存 + 8-bit 量化即可，速度约 8 tokens/s，日常对话够用。

结语

七年过去，Transformer 的主干并没被推翻，但“如何让它在同样算力下装下更多知识”已经被玩出花：

用 MLA / GQA 压缩缓存
用 MoE 把参数变“稀疏”
用滑动窗口把注意力变“局部”
用 Norm 的摆放位置换训练稳定

下一波突破也许来自全新架构，也许只是把以上技巧再组合一次。保持好奇、动手实验，你就走在了最前线。

如果本文帮你少走了弯路，欢迎把链接转发给同样在研究 LLM 的朋友。

2025主流大模型架构突变！1张图揭秘DeepSeek-V3与Kimi2如何突破671B参数极限

从 GPT-2 到 Kimi 2：一张图看清 2025 年主流大模型架构到底改了什么

目录

1. 七年不变的主干：Transformer 到底改了哪里？

2. DeepSeek-V3 / R1：MLA + MoE 省显存的两大杀器

2.1 Multi-Head Latent Attention（MLA）是什么？

2.2 Mixture-of-Experts（MoE）

3. OLMo 2：把 LayerNorm 挪个位置就能稳定训练？

4. Gemma 3：Sliding Window Attention 让 27 B 模型在家用电脑跑起来

4.1 滑动窗口注意力

4.2 Norm 的「夹心」做法

5. Mistral Small 3.1：24 B 比 27 B 更快，用了哪些“小伎俩”？

6. Llama 4：Meta 也做 MoE，但和 DeepSeek 有何不同？

7. Qwen3：一份模型、两种口味（dense & MoE）

7.1 Dense 版

7.2 MoE 版

8. SmolLM3：3 B 参数也能扔掉位置编码？

9. Kimi 2：把 DeepSeek-V3 放大到 1 T 参数会怎样？

10. 一张总表：10 秒选对模型

11. 常见疑问 FAQ

结语

2025主流大模型架构突变！1张图揭秘DeepSeek-V3与Kimi2如何突破671B参数极限

从 GPT-2 到 Kimi 2：一张图看清 2025 年主流大模型架构到底改了什么

目录

1. 七年不变的主干：Transformer 到底改了哪里？

2. DeepSeek-V3 / R1：MLA + MoE 省显存的两大杀器

2.1 Multi-Head Latent Attention（MLA）是什么？

2.2 Mixture-of-Experts（MoE）

3. OLMo 2：把 LayerNorm 挪个位置就能稳定训练？

4. Gemma 3：Sliding Window Attention 让 27 B 模型在家用电脑跑起来

4.1 滑动窗口注意力

4.2 Norm 的「夹心」做法

5. Mistral Small 3.1：24 B 比 27 B 更快，用了哪些“小伎俩”？

6. Llama 4：Meta 也做 MoE，但和 DeepSeek 有何不同？

7. Qwen3：一份模型、两种口味（dense & MoE）

7.1 Dense 版

7.2 MoE 版

8. SmolLM3：3 B 参数也能扔掉位置编码？

9. Kimi 2：把 DeepSeek-V3 放大到 1 T 参数会怎样？

10. 一张总表：10 秒选对模型

11. 常见疑问 FAQ

结语

相关文章