从 GPT-2 到 Kimi 2:一张图看清 2025 年主流大模型架构到底改了什么
这篇文章写给已经会用 LLM、却常常被技术报告里拗口名词绕晕的你。我们只用一张图、一段代码、一句白话,把 DeepSeek-V3、Llama 4、Gemma 3、Qwen3、SmolLM3、Kimi 2 等 2025 年热门模型的核心改动讲清楚。读完你可以:
30 秒内向别人解释「为什么 671 B 参数的 DeepSeek-V3 跑起来比 405 B 的 Llama 3 还省」 快速判断「自己的业务该用 MoE 还是 dense」 在本地笔记本上跑通最小 0.6 B 的 Qwen3 demo
目录
-
七年不变的主干:Transformer 到底改了哪里? -
DeepSeek-V3 / R1:MLA + MoE 省显存的两大杀器 -
OLMo 2:把 LayerNorm 挪个位置就能稳定训练? -
Gemma 3:Sliding Window Attention 让 27 B 模型在家用电脑跑起来 -
Mistral Small 3.1:24 B 比 27 B 更快,用了哪些“小伎俩”? -
Llama 4:Meta 也做 MoE,但和 DeepSeek 有何不同? -
Qwen3:一份模型、两种口味(dense & MoE) -
SmolLM3:3 B 参数也能扔掉位置编码? -
Kimi 2:把 DeepSeek-V3 放大到 1 T 参数会怎样? -
一张总表:10 秒选对模型 -
常见疑问 FAQ
1. 七年不变的主干:Transformer 到底改了哪里?
模块 | 2019 GPT-2 | 2025 主流做法 | 一句话总结 |
---|---|---|---|
位置编码 | 固定绝对位置 | RoPE(旋转) | 既省显存又支持更长上下文 |
Attention | Multi-Head | GQA / MLA | 把 K/V 头分组或压缩,省缓存 |
激活函数 | GELU | SwiGLU | 更快、更省、略提分 |
FeedForward | 单个大 FFN | MoE 或多层小 FFN | 训练时容量爆炸,推理时只开几门 |
Norm 位置 | Post-Norm | Pre-Norm / 混合 | 训练更稳 |
2. DeepSeek-V3 / R1:MLA + MoE 省显存的两大杀器
2.1 Multi-Head Latent Attention(MLA)是什么?
-
痛点:KV cache 占显存大头。 -
传统做法(GQA):让 2 个 query 头共享 1 组 K/V,减少头数。 -
MLA 做法:先把 K/V 压成低维「潜向量」存进缓存,用的时候再投影回原始维度。 -
缓存 = 小矩阵 → 显存直接砍半。 -
论文显示比 GQA 还略提分。
-
# 伪代码:MLA 推理时解压
compressed_kv = cache[token_id] # (batch, dim_latent)
key, value = up_proj(compressed_kv) # 再放大回原维度
2.2 Mixture-of-Experts(MoE)
-
形象比喻:把原本一个“大食堂”拆成 256 个“小灶”,但每个 token 只让 8 个厨子上菜。 -
DeepSeek-V3 数据: -
总参数 671 B,实际推理只激活 37 B(≈ 5.5 %)。 -
额外加 1 个「公共厨子」——共享 expert,专门学通用规律。
-
-
为什么能提分? 模型容量变大了,但计算量几乎不变。
3. OLMo 2:把 LayerNorm 挪个位置就能稳定训练?
位置 | 原始 Transformer | GPT-2/Llama 3 | OLMo 2 |
---|---|---|---|
Norm 放哪里? | 模块「之后」 | 模块「之前」 | 回到「之后」,但仍在残差内 |
-
动机:Pre-Norm 虽然好训,但作者发现 Post-Norm + RMSNorm 训练稳定性反而更好(实验见图 9)。 -
额外小动作: -
在 Attention 内部再给 Q、K 做一次 RMSNorm(QK-Norm),防止梯度爆炸。
-
-
一句话:如果你训模型总炸,不妨试试 OLMo 2 的 Norm 配方。
4. Gemma 3:Sliding Window Attention 让 27 B 模型在家用电脑跑起来
4.1 滑动窗口注意力
-
原理:每个 token 只看左右 1024 个邻居,而不是全文。 -
效果:KV cache 内存 ↓ 5×,速度 ↑。 -
担心信息丢失? 作者用 5:1 的局部 vs 全局层比例,整体困惑度没掉(见图 13)。
4.2 Norm 的「夹心」做法
-
在 Attention 前后各放一个 RMSNorm,既像 Pre 又像 Post,官方称「Sandwich Norm」。 -
好处:训练稳;坏处:几乎忽略不计的额外计算。
5. Mistral Small 3.1:24 B 比 27 B 更快,用了哪些“小伎俩”?
-
取消滑动窗口:换回标准 GQA,FlashAttention 可以全开优化,延迟更低。 -
更小词表 + 更浅层: -
tokenizer 压缩句子长度 → 同样句子更少 token → 更快。 -
layer 数减少 → 串行步数减少。
-
-
结论:在大多数基准上秒掉 Gemma 3 27 B,数学除外。
6. Llama 4:Meta 也做 MoE,但和 DeepSeek 有何不同?
对比项 | DeepSeek-V3 | Llama 4 Maverick |
---|---|---|
总参数 | 671 B | 400 B |
激活参数 | 37 B | 17 B |
每层 expert 数 | 256(9 激活) | 128(2 激活) |
expert 隐藏维度 | 2048 | 8192 |
MoE 使用频率 | 除前 3 层外全部 | 隔层使用(1 MoE + 1 Dense) |
-
一句话:DeepSeek 用「小而多」的专家,Llama 4 用「大而少」的专家;谁更好尚无定论,但 MoE 已是大势所趋。
7. Qwen3:一份模型、两种口味(dense & MoE)
7.1 Dense 版
-
最小 0.6 B,本地 CPU 都能跑。 -
架构更深、更窄 → 省显存但推理慢一些。 -
实测比 Llama 3 1 B 省 30 % 内存。
7.2 MoE 版
-
235 B-A22 B:总 235 B,激活 22 B。 -
相比 DeepSeek-V3 去掉了共享 expert,官方未解释原因;猜测是专家数从 2 增到 8 后共享 expert 收益变小。
8. SmolLM3:3 B 参数也能扔掉位置编码?
-
NoPE(No Positional Embedding) -
完全不学位置向量,只靠 causal mask 的先后次序。 -
论文说长度泛化更好(见图 23),但作者保守地每 4 层用一次 NoPE,其余仍用 RoPE。
-
-
3 B 定位:填补 Qwen3 1.7 B 与 4 B 之间的空档,性能/显存平衡甜点。
9. Kimi 2:把 DeepSeek-V3 放大到 1 T 参数会怎样?
-
架构:DeepSeek-V3 的「超大杯」——更多专家、更少 MLA 头。 -
训练:首次在 1 T 规模上换掉 AdamW,改用 Muon 优化器,训练曲线干净得不像话。 -
成绩:官方宣称打平 Gemini/Claude/ChatGPT,是目前公开权重里最大、最强。
10. 一张总表:10 秒选对模型
模型 | 总/激活参数 | 显存占用 (推理) | 特色 | 适用场景 |
---|---|---|---|---|
DeepSeek-V3 | 671 B / 37 B | 中 | MLA+MoE | 生产级推理,开源首选 |
Llama 4 | 400 B / 17 B | 低 | MoE 隔层 | 已用 Llama 生态平滑升级 |
Gemma 3 27 B | 27 B / 27 B | 高 | 滑动窗口 | 本地 24 GB 显卡可跑 |
Mistral Small 3.1 | 24 B / 24 B | 低 | 优化 tokenizer | 延迟敏感业务 |
Qwen3 0.6 B | 0.6 B / 0.6 B | 极低 | 最小可训练 | 教学、嵌入式 |
Qwen3 235 B-A22 B | 235 B / 22 B | 中 | MoE 无共享专家 | 高并发在线服务 |
SmolLM3 3 B | 3 B / 3 B | 低 | NoPE | 中端显卡、个人项目 |
Kimi 2 | 1000 B / ? | 高 | 最大公开权重 | 科研、对标闭源旗舰 |
11. 常见疑问 FAQ
Q1:KV cache 到底是啥?为什么 MLA / GQA / 滑动窗口都能省它?
A:自回归生成时要把之前算过的 K/V 矩阵存起来,省得重复算。KV cache = batch * seq_len * num_heads * head_dim * layers
字节。任何减少 seq_len
、num_heads
、head_dim
或层数的方法都能省显存。
Q2:MoE 会不会让推理变复杂?
A:会多一个 router 选专家的步骤,但主流框架(vLLM、TensorRT-LLM)都已支持,写几行配置即可。
Q3:Post-Norm 会不会回到早期 Transformer 的梯度爆炸?
A:OLMo 2 和 Gemma 3 的实践表明,RMSNorm + 适当的 warm-up + QK-Norm 可以把风险降到可接受范围。
Q4:NoPE 真的靠谱吗?
A:SmolLM3 只在部分层使用,属于保守尝试;如果你要训 100 B+,建议仍用 RoPE 或 ALiBi。
Q5:本地 Mac Mini 跑 27 B 的 Gemma 3 需要什么配置?
A:M2 Pro 32 GB 统一内存 + 8-bit 量化即可,速度约 8 tokens/s,日常对话够用。
结语
七年过去,Transformer 的主干并没被推翻,但“如何让它在同样算力下装下更多知识”已经被玩出花:
-
用 MLA / GQA 压缩缓存 -
用 MoE 把参数变“稀疏” -
用滑动窗口把注意力变“局部” -
用 Norm 的摆放位置换训练稳定
下一波突破也许来自全新架构,也许只是把以上技巧再组合一次。保持好奇、动手实验,你就走在了最前线。
如果本文帮你少走了弯路,欢迎把链接转发给同样在研究 LLM 的朋友。