从 GPT-2 到 Kimi 2:一张图看清 2025 年主流大模型架构到底改了什么

这篇文章写给已经会用 LLM、却常常被技术报告里拗口名词绕晕的你。我们只用一张图、一段代码、一句白话,把 DeepSeek-V3、Llama 4、Gemma 3、Qwen3、SmolLM3、Kimi 2 等 2025 年热门模型的核心改动讲清楚。读完你可以:

  • 30 秒内向别人解释「为什么 671 B 参数的 DeepSeek-V3 跑起来比 405 B 的 Llama 3 还省」
  • 快速判断「自己的业务该用 MoE 还是 dense」
  • 在本地笔记本上跑通最小 0.6 B 的 Qwen3 demo

目录

  1. 七年不变的主干:Transformer 到底改了哪里?
  2. DeepSeek-V3 / R1:MLA + MoE 省显存的两大杀器
  3. OLMo 2:把 LayerNorm 挪个位置就能稳定训练?
  4. Gemma 3:Sliding Window Attention 让 27 B 模型在家用电脑跑起来
  5. Mistral Small 3.1:24 B 比 27 B 更快,用了哪些“小伎俩”?
  6. Llama 4:Meta 也做 MoE,但和 DeepSeek 有何不同?
  7. Qwen3:一份模型、两种口味(dense & MoE)
  8. SmolLM3:3 B 参数也能扔掉位置编码?
  9. Kimi 2:把 DeepSeek-V3 放大到 1 T 参数会怎样?
  10. 一张总表:10 秒选对模型
  11. 常见疑问 FAQ

1. 七年不变的主干:Transformer 到底改了哪里?

模块 2019 GPT-2 2025 主流做法 一句话总结
位置编码 固定绝对位置 RoPE(旋转) 既省显存又支持更长上下文
Attention Multi-Head GQA / MLA 把 K/V 头分组或压缩,省缓存
激活函数 GELU SwiGLU 更快、更省、略提分
FeedForward 单个大 FFN MoE 或多层小 FFN 训练时容量爆炸,推理时只开几门
Norm 位置 Post-Norm Pre-Norm / 混合 训练更稳

2. DeepSeek-V3 / R1:MLA + MoE 省显存的两大杀器

2.1 Multi-Head Latent Attention(MLA)是什么?

  • 痛点:KV cache 占显存大头。
  • 传统做法(GQA):让 2 个 query 头共享 1 组 K/V,减少头数。
  • MLA 做法:先把 K/V 压成低维「潜向量」存进缓存,用的时候再投影回原始维度。

    • 缓存 = 小矩阵 → 显存直接砍半。
    • 论文显示比 GQA 还略提分。
# 伪代码:MLA 推理时解压
compressed_kv = cache[token_id]        # (batch, dim_latent)
key, value = up_proj(compressed_kv)    # 再放大回原维度

2.2 Mixture-of-Experts(MoE)

  • 形象比喻:把原本一个“大食堂”拆成 256 个“小灶”,但每个 token 只让 8 个厨子上菜。
  • DeepSeek-V3 数据

    • 总参数 671 B,实际推理只激活 37 B(≈ 5.5 %)。
    • 额外加 1 个「公共厨子」——共享 expert,专门学通用规律。
  • 为什么能提分? 模型容量变大了,但计算量几乎不变。

3. OLMo 2:把 LayerNorm 挪个位置就能稳定训练?

位置 原始 Transformer GPT-2/Llama 3 OLMo 2
Norm 放哪里? 模块「之后」 模块「之前」 回到「之后」,但仍在残差内
  • 动机:Pre-Norm 虽然好训,但作者发现 Post-Norm + RMSNorm 训练稳定性反而更好(实验见图 9)。
  • 额外小动作

    • 在 Attention 内部再给 Q、K 做一次 RMSNorm(QK-Norm),防止梯度爆炸。
  • 一句话:如果你训模型总炸,不妨试试 OLMo 2 的 Norm 配方。

4. Gemma 3:Sliding Window Attention 让 27 B 模型在家用电脑跑起来

4.1 滑动窗口注意力

  • 原理:每个 token 只看左右 1024 个邻居,而不是全文。
  • 效果:KV cache 内存 ↓ 5×,速度 ↑。
  • 担心信息丢失? 作者用 5:1 的局部 vs 全局层比例,整体困惑度没掉(见图 13)。

4.2 Norm 的「夹心」做法

  • 在 Attention 前后各放一个 RMSNorm,既像 Pre 又像 Post,官方称「Sandwich Norm」。
  • 好处:训练稳;坏处:几乎忽略不计的额外计算。

5. Mistral Small 3.1:24 B 比 27 B 更快,用了哪些“小伎俩”?

  • 取消滑动窗口:换回标准 GQA,FlashAttention 可以全开优化,延迟更低。
  • 更小词表 + 更浅层

    • tokenizer 压缩句子长度 → 同样句子更少 token → 更快。
    • layer 数减少 → 串行步数减少。
  • 结论:在大多数基准上秒掉 Gemma 3 27 B,数学除外。

6. Llama 4:Meta 也做 MoE,但和 DeepSeek 有何不同?

对比项 DeepSeek-V3 Llama 4 Maverick
总参数 671 B 400 B
激活参数 37 B 17 B
每层 expert 数 256(9 激活) 128(2 激活)
expert 隐藏维度 2048 8192
MoE 使用频率 除前 3 层外全部 隔层使用(1 MoE + 1 Dense)
  • 一句话:DeepSeek 用「小而多」的专家,Llama 4 用「大而少」的专家;谁更好尚无定论,但 MoE 已是大势所趋。

7. Qwen3:一份模型、两种口味(dense & MoE)

7.1 Dense 版

  • 最小 0.6 B,本地 CPU 都能跑。
  • 架构更深、更窄 → 省显存但推理慢一些。
  • 实测比 Llama 3 1 B 省 30 % 内存。

7.2 MoE 版

  • 235 B-A22 B:总 235 B,激活 22 B。
  • 相比 DeepSeek-V3 去掉了共享 expert,官方未解释原因;猜测是专家数从 2 增到 8 后共享 expert 收益变小。

8. SmolLM3:3 B 参数也能扔掉位置编码?

  • NoPE(No Positional Embedding)

    • 完全不学位置向量,只靠 causal mask 的先后次序。
    • 论文说长度泛化更好(见图 23),但作者保守地每 4 层用一次 NoPE,其余仍用 RoPE。
  • 3 B 定位:填补 Qwen3 1.7 B 与 4 B 之间的空档,性能/显存平衡甜点。

9. Kimi 2:把 DeepSeek-V3 放大到 1 T 参数会怎样?

  • 架构:DeepSeek-V3 的「超大杯」——更多专家、更少 MLA 头。
  • 训练:首次在 1 T 规模上换掉 AdamW,改用 Muon 优化器,训练曲线干净得不像话。
  • 成绩:官方宣称打平 Gemini/Claude/ChatGPT,是目前公开权重里最大、最强。

10. 一张总表:10 秒选对模型

模型 总/激活参数 显存占用 (推理) 特色 适用场景
DeepSeek-V3 671 B / 37 B MLA+MoE 生产级推理,开源首选
Llama 4 400 B / 17 B MoE 隔层 已用 Llama 生态平滑升级
Gemma 3 27 B 27 B / 27 B 滑动窗口 本地 24 GB 显卡可跑
Mistral Small 3.1 24 B / 24 B 优化 tokenizer 延迟敏感业务
Qwen3 0.6 B 0.6 B / 0.6 B 极低 最小可训练 教学、嵌入式
Qwen3 235 B-A22 B 235 B / 22 B MoE 无共享专家 高并发在线服务
SmolLM3 3 B 3 B / 3 B NoPE 中端显卡、个人项目
Kimi 2 1000 B / ? 最大公开权重 科研、对标闭源旗舰

11. 常见疑问 FAQ

Q1:KV cache 到底是啥?为什么 MLA / GQA / 滑动窗口都能省它?
A:自回归生成时要把之前算过的 K/V 矩阵存起来,省得重复算。KV cache = batch * seq_len * num_heads * head_dim * layers 字节。任何减少 seq_lennum_headshead_dim 或层数的方法都能省显存。

Q2:MoE 会不会让推理变复杂?
A:会多一个 router 选专家的步骤,但主流框架(vLLM、TensorRT-LLM)都已支持,写几行配置即可。

Q3:Post-Norm 会不会回到早期 Transformer 的梯度爆炸?
A:OLMo 2 和 Gemma 3 的实践表明,RMSNorm + 适当的 warm-up + QK-Norm 可以把风险降到可接受范围。

Q4:NoPE 真的靠谱吗?
A:SmolLM3 只在部分层使用,属于保守尝试;如果你要训 100 B+,建议仍用 RoPE 或 ALiBi。

Q5:本地 Mac Mini 跑 27 B 的 Gemma 3 需要什么配置?
A:M2 Pro 32 GB 统一内存 + 8-bit 量化即可,速度约 8 tokens/s,日常对话够用。


结语

七年过去,Transformer 的主干并没被推翻,但“如何让它在同样算力下装下更多知识”已经被玩出花:

  • 用 MLA / GQA 压缩缓存
  • 用 MoE 把参数变“稀疏”
  • 用滑动窗口把注意力变“局部”
  • 用 Norm 的摆放位置换训练稳定

下一波突破也许来自全新架构,也许只是把以上技巧再组合一次。保持好奇、动手实验,你就走在了最前线。

如果本文帮你少走了弯路,欢迎把链接转发给同样在研究 LLM 的朋友。