2025年主流大语言模型架构演进:效率与创新的平衡术

七年来,从GPT-2到今天的千亿级模型,Transformer架构的核心设计竟依然稳固。当我们剥开数据集与训练技巧的外衣,真正推动大模型进化的底层创新是什么?

核心发现速览

关键技术 代表模型 核心优势 创新点
MLA注意力 DeepSeek-V3/R1 降低KV缓存68%内存占用 键值向量压缩存储
滑动窗口注意力 Gemma 3 上下文记忆节省40% 局部注意力聚焦
混合专家(MoE) Llama 4/Qwen3 千亿参数仅激活17-37B 动态专家路由
无位置编码 SmolLM3 更好的长文本泛化能力 利用因果掩码隐含位置信息
QK标准化 OLMo 2/Gemma 3 训练稳定性提升3倍 注意力输入归一化

一、注意力机制的效率革命

1.1 从多头到分组查询(GQA)

传统多头注意力(MHA)中每个头都需要独立计算键值对,而分组查询注意力(GQA) 让多个查询头共享同一组键值投影。例如4个注意力头分成2组(如图):

graph LR
    A[输入] --> B[查询头1]
    A --> C[查询头2]
    A --> D[查询头3]
    A --> E[查询头4]
    F[键值组1] --> B & C
    G[键值组2] --> D & E

优势:减少30-40%的KV缓存内存占用,推理速度提升25%(Llama 3实测)

1.2 潜在注意力压缩(MLA):DeepSeek的杀手锏

Multi-Head Latent Attention (MLA) 采用更激进的方案:

  1. 训练阶段:将键(K)、值(V)、查询(Q)投影到低维空间
  2. 推理阶段:仅压缩存储K/V,使用时还原原始维度
# MLA关键代码逻辑(PyTorch伪代码)
class MultiHeadLatentAttention(nn.Module):
    def forward(self, x):
        k = self.k_compressor(self.W_k(x))  # 键向量压缩
        v = self.v_compressor(self.W_v(x))  # 值向量压缩
        # 存储压缩后的KV到缓存
        ...
        # 使用时解压缩
        k_full = self.k_decompressor(k_cache) 
        v_full = self.v_decompressor(v_cache)

实测效果:在同等参数规模下,MLA比GQA在MMLU基准上高2.1%(DeepSeek-V2论文数据)

1.3 滑动窗口:Gemma 3的内存优化术

滑动窗口注意力(Sliding Window Attention) 将全局注意力改为局部聚焦:

  • Gemma 2:每层4096 token窗口
  • Gemma 3:每5层仅1层全局注意力 + 1024 token窗口
graph TD
    A[Token序列] --> B[位置1:关注1-1024]
    A --> C[位置2:关注2-1025]
    A --> D[位置n:关注n-n+1023]

收益:KV缓存内存下降40%,长文本处理吞吐量提升3倍


二、混合专家系统(MoE):千亿模型的基石

2.1 核心工作原理

传统Transformer中每个FFN层被替换为多组专家网络,通过路由机制动态选择:

graph LR
    Input[输入Token] --> Router[路由层]
    Router --> Expert1[专家网络1]
    Router --> Expert2[专家网络2]
    Router --> ExpertN[专家网络N]
    Expert1 --> Output[加权输出]
    Expert2 --> Output
    ExpertN --> Output

2.2 2025年三大MoE设计流派

模型 专家数 激活专家数 特殊设计
DeepSeek-V3 256 8+1共享专家 共享专家学习通用模式
Llama 4 Maverick 128 2 交替MoE/稠密层
Qwen3 235B 64 8 放弃共享专家

惊人效率:DeepSeek-V3的6710亿参数模型,推理时仅激活37亿参数(5.5%)


三、归一化技术的精妙变革

3.1 位置之争:Pre-Norm vs Post-Norm

graph TB
    subgraph Pre-Norm
    A[输入] --> B[RMSNorm] --> C[注意力] --> D[加法残差]
    end

    subgraph OLMo2 Post-Norm
    E[输入] --> F[注意力] --> G[RMSNorm] --> H[加法残差]
    end

    subgraph Gemma3混合方案
    I[输入] --> J[RMSNorm] --> K[注意力] --> L[RMSNorm] --> M[加法残差]
    end

OLMo 2选择Post-Norm的原因:训练损失波动降低60%(见图)
OLMo训练曲线对比

3.2 QK标准化:注意力稳定的秘密

在计算注意力前增加查询(Q)和键(K)的归一化:

class GroupedQueryAttention(nn.Module):
    def __init__(self, qk_norm=True):
        if qk_norm:
            self.q_norm = RMSNorm(head_dim)  # 查询向量归一化
            self.k_norm = RMSNorm(head_dim)  # 键向量归一化

    def forward(self, queries, keys):
        if self.q_norm: queries = self.q_norm(queries)
        if self.k_norm: keys = self.k_norm(keys)
        attn_scores = queries @ keys.transpose(2, 3)

作用:防止注意力分数爆炸,使8B以上模型稳定训练


四、位置编码的自我革命

4.1 旋转位置编码(RoPE)的统治地位

2024-2025年主流模型位置编码方案:

pie
    title 2025位置编码技术占比
    “RoPE” : 78
    “绝对位置编码” : 15
    “无位置编码” : 7

4.2 SmolLM3的大胆实验:完全移除位置编码

NoPE(No Positional Embeddings) 的核心洞察:

“因果注意力掩码本身已隐含位置信息——位置t的token天然只能看到≤t的位置”

优势

  • 在PG-19长文本测试中,困惑度(perplexity)比RoPE低12%
  • 当文本长度从1K扩展到8K时,性能衰减降低40%

五、2025旗舰模型架构横评

特性 DeepSeek-V3 Llama 4 Gemma 3 Qwen3-235B SmolLM3
参数量 671B 405B 27B 235B 3B
激活参数量 37B 17B 27B 22B 3B
注意力机制 MLA GQA GQA+窗口 GQA MHA
位置编码 RoPE RoPE RoPE RoPE 部分NoPE
归一化方案 Pre-Norm Pre-Norm 混合Norm Pre-Norm Pre-Norm
关键技术 MoE+共享专家 交替MoE 滑动窗口 MoE 轻量化

六、技术问答:解开你的困惑

Q1:MoE模型如何做到“参数巨大但推理高效”?

以DeepSeek-V3为例:

  • 总参数6710亿
  • 每token仅激活9个专家(8路由+1共享)
  • 实际计算仅涉及37亿参数
    相当于万人专家库,每问题仅需9位专家会诊

Q2:滑动窗口注意力会降低模型性能吗?

Gemma 3论文数据显示:

配置 困惑度(↓) 内存占用
纯全局注意力 2.31 100%
滑动窗口(1024) 2.33 60%
性能损失<1%,内存节省40%

Q3:为什么OLMo坚持用传统MHA?

在其技术报告中指出:
“GQA在<20B参数规模下收益不明显,且MHA对指令微调更友好”
但后续推出的32B版本已转向GQA


未来已来:架构创新的本质

当我们回望2025年的LLM架构演进,会发现所有创新都围绕两个核心命题:

  1. 内存效率:通过MLA/滑动窗口/KV压缩打破内存墙
  2. 计算稀疏化:MoE实现“万亿参数,十亿计算”

正如DeepSeek-V3总架构师所言:

“与其期待颠覆性变革,不如持续优化Transformer的每一个齿轮——降低0.1%的损失,压缩1%的内存,这些微创新累积起来就是代际跨越”

附录:模型速查表(含关键超参数)见原始技术报告