《AI 模型界的 “混血儿”:DeepSeek R1T2 Chimera 的诞生与优势》

在 AI 模型飞速发展的当下,如何在保持模型高性能的同时降低推理成本,成为众多研究者和企业关注的焦点。近期,德国的 TNG Technology Consulting GmbH 公司推出了一种创新的模型构建方法 ——“Assembly of Experts”(AoE),并基于此方法成功打造出了 DeepSeek R1T2 Chimera 这一独特的大型语言模型(LLM)变体。今天,就让我们一同深入了解这个模型以及它背后的奥秘。

一、为何要探索新的模型构建方法?

当前,大型语言模型(LLM)的预训练过程耗费巨大。举例来说,仅为了计算出一个 8 位权重,可能就需要进行 10^13^ 至 10^15^ 次浮点运算(FLOPs),这无疑是极其昂贵且低效的。不仅如此,传统的模型适应方法,如指令微调(instruction fine-tuning)和基于人类反馈的强化学习(RLHF),虽然效果显著,但同样需要昂贵的梯度更新以及大量的训练数据。

于是,研究者们开始思考:是否可以不依赖于这些资源密集型的训练方式,而是通过组合已有预训练模型的参数,来快速创建出具备新特性、能满足不同需求的模型呢?在这样的思考驱动下,“Assembly of Experts”(AoE)方法应运而生。

二、“Assembly of Experts”(AoE)方法是什么?

(一)与 “Mixture of Experts”(MoE)的区别

首先,“Mixture of Experts”(MoE)是一种模型架构设计。在 MoE 架构中,模型会根据输入数据的不同,有条件地激活不同的 “专家” 组件。例如,在 DeepSeek-V3 或 Mixtral 这样的 MoE LLM 中,每次 tokens 的前向传播过程中,只有部分专家层(比如 256 个中的 8 个)会被激活。这种设计使得非常大的模型可以在保持可管理的推理成本的同时,拥有更高的参数数量和更强的领域专长。

而 “Assembly of Experts”(AoE)则是一种模型合并技术,而非架构。它通过从多个预训练的 MoE 模型中选择性地插值它们的权重张量,来创建一个新的模型。这里的 “专家” 指的是在合并过程中被选中的模型组件,通常是 MoE 层中的路由专家张量,而不是像 MoE 架构中那样在运行时被动态激活的专家。

(二)AoE 方法的核心思想

AoE 方法的核心在于对多个预训练模型的权重张量进行插值组合。具体来说,就是对一组具有相同架构的模型 M^((i))^(i = 1,…,n)进行操作,这些模型可以是通过微调基础预训练模型 M^((1))^ 得到的。在合并过程中:

  • 选择一个张量子集 S ⊂ L(L 为所有张量的索引集合)来进行合并。这个子集可以包括所有张量,也可以仅包含路由专家等特定部分。未被选中的张量则直接取自基础模型 M^((1))^。
  • 每个模型都分配一个权重系数 λi(i = 1,…,n)。通常会采用凸组合的方式,即要求 λi ≥ 0 且 Σλi = 1。不过,也可以为每个张量单独分配权重,但为了简化,目前一般保持每个模型的权重系数固定。
  • 受到参数 “修剪” 方法的启发,仅合并那些在不同模型之间有显著差异的张量。具体通过设定一个阈值 δ ≥ 0,只有当基础模型 M^((1))^ 与其他模型 M^((i))^(i = 2,…,n)之间的张量差异的归一化弗罗贝尼乌斯范数(Frobenius norms divided by the square root of the number of elements in the tensors)的最大值超过 δ 时,才会对该张量进行合并。

数学上,合并后的模型 M^((*)) 的张量 W^((*))_l 可表示为:

$$W^{(\ast)}_l:=\left\{\begin{aligned}{}&{{}\sum_{i=1}^{n}\lambda_{i}W^{(i)}_l}&{}&{{}\mathrm{i f~}l\in\mathcal{S}~\mathrm{and}\operatorname*{m a x}_{i=2,\ldots,n}\left\|W^{(1)}_l-W^{(i)}_l\right\|_{\mathrm{F,~n o r m.}}>\delta}\\ {}&{{}W^{(1)}_l}&{}&{{}\mathrm{o t h e r w i s e}}\\ \end{aligned}\right.\qquad\forall l\in\mathcal{L}.
$$

(来源:文件 1)

(三)AoE 方法的应用场景

  • 「加权平均合并」 :通过调整权重系数 λ1(分配给 V3-0324)和 λ2(分配给 R1),可以控制 V3-0324 和 R1 在合并模型中的相对贡献。当 λ1 = λ2 = 0.5 时,对应的就是标准模型合并中的均匀平均情况。而在极端情况下,λ = (0,1) 会使合并张量 S 全部取自 R1,而 λ = (1,0) 则会得到原始的 V3-0324 基础模型。
  • 「阈值控制合并」 :基于张量与基础模型之间的差异来控制哪些张量会被合并。若张量与基础模型的差异的归一化弗罗贝尼乌斯范数超过设定的阈值 δ,则该张量会被纳入合并范围。这种方法旨在聚焦于不同模型与基础模型之间的重要差异,避免因冗余适配而导致的不良影响。
  • 「专家合并与完整合并」 :由于稀疏 MoE 架构中张量对象具有细致的专家子结构,因此可以采用多种合并策略来衍生新的模型实例。例如,可以选择仅合并路由专家块中的张量(专家合并),或者合并所有张量(完整合并)。在专家合并中,还会排除门控张量。

三、DeepSeek R1T2 Chimera 的诞生

基于 AoE 方法,TNG Technology Consulting GmbH 公司成功构建了 DeepSeek R1T2 Chimera 这一模型。它是在其之前推出的 R1T Chimera 模型的基础上发展而来的。R1T Chimera 是一个结合了 DeepSeek V3-0324 和 R1 模型变体的 6710 亿参数的开放权重混合模型。该模型仅继承了 R1 的路由专家张量,却达到了约 R1 智力水平,同时输出 tokens 数量减少了约 40%,接近 V3 的速度。而且,R1T Chimera 是在没有任何微调或蒸馏的情况下构建的,展现出令人惊讶的紧凑、有序推理能力。

而 R1T2 Chimera 则进一步引入了新的 “Tri-Mind” 配置,整合了三个父模型:DeepSeek-R1-0528、DeepSeek-R1 和 DeepSeek-V3-0324。它继承了 R1-0528 的推理能力、R1 的结构化思维模式以及 V3-0324 的简洁、指令导向行为,从而为企业和研究用途提供了一个更高效、功能更强大的模型。

四、DeepSeek R1T2 Chimera 的优势

(一)性能与推理成本

根据 TNG 提供的基准测试比较结果,R1T2 在 AIME-24、AIME-25 和 GPQA-Diamond 测试集上的推理性能达到了其最智能的父模型 DeepSeek-R1-0528 的 90% 至 92%。然而,与 R1-0528 不同,R1T2 的设计更加简洁。它能够在使用显著更少的词汇量的情况下,提供同样智能的回答。

TNG 采用输出 token 数量作为衡量 “速度” 的指标,这实际上是推理时间和计算负载的一个实际代理。根据 TNG 分享的基准测试,R1T2 生成回答所需的 token 数量大约是 R1-0528 的 40%。这意味着输出长度减少了 60%,直接缩短了推理时间和计算负载,使得响应速度提高了 2 倍,即 200%。

与最初的 DeepSeek-R1 相比,R1T2 平均也更加简洁 20%,在高吞吐量或成本敏感的部署中提供了有意义的效率提升。在推理成本方面,R1T2 表现出色。以下图表展示了不同模型在推理成本(以 R1 输出 token 的百分比表示)与智能得分(基于 AIME-2024 基准测试和 MT-Bench 问题的平均结果)之间的关系。

(此处插入文件 1 中的图表,描述:图中显示了 R1T2 在保持较高智能得分的同时,推理成本显著低于其他模型,如原始 R1 和 V3 等。)

(二)智能与行为特性

在探索 AoE 方法构建的模型空间时,研究者们发现了一个有趣的现象:生成的几乎所有模型都是功能性的,并且能够继承父模型的特性。在调整从 R1 继承的权重比例时,他们观察到,模型的一些属性(如总体智能)会随着 R1 贡献的增加而平滑变化,而其他行为特征(如 R1 特有的结构化

推理痕迹)则会在合并比例达到特定阈值时突然出现。

例如,当 R1 的贡献比例(λ2)接近 0.5 时,模型的推理成本(以输出 token 数量衡量)会出现陡峭的上升。而在仅合并路由专家张量的情况下,这种上升趋势相对不那么显著。此外,当模型响应中出现 标签的频率也是一个行为信号。V3-0324 不会产生这些标签,而 R1 则是在其推理痕迹中生成这些标签的。结果显示,在 R1 贡献比例达到 0.504 或更高时,合并模型通常会发出该标签,而具有更高 V3-0324 比例的模型则一般不会。

(三)性能与推理成本的平衡

R1T2 能够在智能与推理成本之间取得良好的平衡。如文件 1 中的图表所示,R1T2 位于一个理想区域,既保留了推理质量,又最大限度地减少了冗长。这对于企业应用至关重要,因为在企业应用中,推理速度、吞吐量和成本都是关键因素。

五、DeepSeek R1T2 Chimera 的应用与部署

(一)应用场景

R1T2 适用于多种任务场景。在基准测试中,它不仅在推理性能上表现出色,在 BigCodeBench 编码基准测试中也展现出了强大的代码生成和指令遵循能力。这表明 R1T2 能够在多种任务中实现平衡,满足不同领域的需求。

不过,需要注意的是,由于继承了 DeepSeek-R1 的血统,R1T2 目前不推荐用于需要函数调用或工具使用的场景。但 TNG 公司表示,未来更新可能会解决这些限制。

(二)部署与可用性

R1T2 采用 MIT 许可证发布,现已在 Hugging Face 上提供,这意味着它是开源的,可以用于商业应用。对于欧盟用户,TNG 建议评估其对 2025 年 8 月 2 日生效的欧盟 AI 法的合规性。而美国公司在国内运营且服务于美国用户,或服务于其他国家的用户时,则不受欧盟 AI 法的约束,这为这些企业使用和部署这个免费、快速的开源推理模型提供了相当大的灵活性。

TNG 之前已通过 OpenRouter 和 Chutes 等平台提供了 Chimera 变体,据报道,这些变体每天处理数十亿个 tokens。R1T2 的发布代表了这一公开可用性努力的进一步发展。

六、对企业技术决策者的意义

对于首席技术官、AI 平台所有者、工程负责人和 IT 采购团队等企业技术决策者来说,R1T2 带来了实实在在的好处和战略选择:

  • 「降低推理成本」 :由于每个任务所需的输出 token 数量减少,R1T2 缩短了 GPU 时间和能源消耗,直接转化为基础设施成本的节省。这对于高吞吐量或实时环境尤为重要。
  • 「无需额外开销的高推理质量」 :它保留了 R1-0528 等顶级模型的大部分推理能力,但避免了冗长的输出。这对于数学、编程、逻辑等结构化任务来说是非常理想的,因为这些任务更倾向于简洁的答案。
  • 「开放且可修改」 :MIT 许可证允许完全的部署控制和定制,从而实现私有托管、模型对齐或在受监管或隔离环境中进行进一步训练。
  • 「新兴的模块化特性」 :AoE 方法预示着一个模型模块化构建的未来,使企业能够通过重组现有模型的优势来组装专业变体,而不是从头开始重新训练。

当然,也有一些需要注意的地方。对于依赖函数调用、工具使用或高级代理编排的企业来说,应考虑到 R1T2 当前的局限性,尽管未来的 Chimera 更新可能会弥补这些不足。

七、常见问题解答(FAQ)

  • 「Q」 :什么是 “Assembly of Experts”(AoE)方法?
    「A」 :AoE 是一种模型合并技术,通过从多个预训练的 “Mixture of Experts”(MoE)模型中选择性地插值它们的权重张量来创建新模型。与 MoE 架构不同,AoE 中的 “专家” 指的是被合并的模型组件,通常是 MoE 层中的路由专家张量。这种方法允许我们在不进行额外微调或重新训练的情况下,构建出继承父模型优势的新模型。
  • 「Q」 :DeepSeek R1T2 Chimera 是如何构建的?
    「A」 :R1T2 Chimera 基于 TNG 的 AoE 方法构建,整合了三个父模型:DeepSeek-R1-0528、DeepSeek-R1 和 DeepSeek-V3-0324。它继承了 R1-0528 的推理能力、R1 的结构化思维模式以及 V3-0324 的简洁、指令导向行为,从而成为一个更高效、功能更强大的模型。
  • 「Q」 :R1T2 Chimera 的性能如何?
    「A」 :根据基准测试,R1T2 的推理性能达到了其最智能的父模型 DeepSeek-R1-0528 的 90% 至 92%。同时,它生成回答所需的 token 数量大约是 R1-0528 的 40%,这意味着输出长度减少了 60%,推理时间和计算负载显著降低,响应速度提高了 2 倍。
  • 「Q」 :R1T2 Chimera 适用于哪些场景?
    「A」 :R1T2 Chimera 适用于多种任务场景,包括但不限于数学、编程、逻辑等结构化任务。它能够提供简洁且智能的回答,满足高吞吐量或成本敏感的部署需求。然而,由于继承了 DeepSeek-R1 的特性,目前不推荐用于需要函数调用或工具使用的场景。
  • 「Q」 :如何部署 R1T2 Chimera?
    「A」 :R1T2 Chimera 采用 MIT 许可证发布,可在 Hugging Face 上获取。它开源且可用于商业应用。对于欧盟用户,需要注意其对欧盟 AI 法的合规性。美国企业在国内运营且服务于美国用户或其他国家用户时,不受欧盟 AI 法的约束,可以灵活地使用和部署该模型。

八、结语

DeepSeek R1T2 Chimera 的出现,为我们展示了 AI 模型领域的一种全新可能性。通过 “Assembly of Experts”(AoE)方法,我们能够在不依赖于传统资源密集型训练方式的情况下,构建出兼具高性能和低成本推理优势的新模型。这对于推动 AI 技术在企业中的广泛应用,以及促进 AI 模型的进一步发展,都具有重要的意义。随着相关技术的不断进步和完善,相信未来会有更多像 R1T2 Chimera 这样优秀且实用的 AI 模型诞生,为我们的生活和工作带来更多的便利与创新。

(全文完)