星辰语义大模型 TeleChat3 全面解读:国产算力训练的 105B 与 36B Thinking 版本

摘要
中国电信人工智能研究院开源的 TeleChat3 系列大语言模型完全基于国产算力训练,目前已发布 TeleChat3-105B-A4.7B-Thinking(混合专家架构)和 TeleChat3-36B-Thinking 两个版本。105B-A4.7B 在 SWE-Bench Verified 获得 42 分,36B 版本达到 51 分;36B 在 MMLU-Pro 得分 80.89、GPQA-Diamond 70.56、HumanEval-X 92.67,展现出较强的知识、代码与复杂推理能力,支持标准 transformers、vLLM、SGLang 推理及 LLaMA-Factory 微调。

2025 年底开源的这两个 “Thinking” 版本,最大的特点就是内置了显式的思考链(

)生成机制,特别适合需要严谨推理的数学、代码、Agent 类任务。下面我们从模型架构、真实评测表现到本地/服务化部署、微调方法,一步步把这个国产开源大模型讲清楚。

TeleChat3 到底是什么?它和别的模型有什么不同?

简单来说,TeleChat3 是中国电信 AI 研究院用完全国产算力从头训练的大型语言模型系列,最新开源的是两个带有 “Thinking” 后缀的版本:

  • TeleChat3-105B-A4.7B-Thinking:采用 MoE(混合专家) 架构,总参数 105B,推理时每 token 只激活约 4.7B 参数
  • TeleChat3-36B-Thinking稠密(Dense) 模型,全部 36B 参数都参与计算

官方把它们命名为“星辰语义大模型”,主要目标是希望在知识、数学、代码、复杂指令、Agent 能力上达到较高水准,同时保证推理阶段的性价比和国产化全栈可控。

最容易感知的差异在于架构路线

模型 参数量 架构类型 每 token 激活参数 Attention 机制 Routed Experts Experts per Token Shared Experts
TeleChat3-105B-A4.7B 105B MoE ≈4.7B MLA 192 4 1
TeleChat3-36B 36B Dense / GQA 36B GQA

MoE 架构让 105B 模型在显存占用和推理速度上接近 4.7B-7B 级别稠密模型,而 36B 则是更传统的 GQA(Grouped-Query Attention)路线,追求单卡性能与微调友好性的平衡。

真实评测表现:六个维度的数据说话

官方在六个大维度做了全面评测,且全部采用 Thinking 模式(即让模型先生成思考过程再给出最终答案)。下面直接列出关键指标对比(节选主要竞品):

评测集 维度 TeleChat3-105B-A4.7B-Thinking TeleChat3-36B-Thinking Qwen3-32B 备注
MMLU-Pro 知识 78.5 80.89 75.37 综合知识最常用指标
GPQA-Diamond 知识 66 70.56 68.4 高难度研究生级题目
Creative writing v3 创作 82.1 84.33 81 长文本创作能力
Math-500 数学 91 95 97.2 中等难度数学
AIME2025 数学 69.7 73.3 72.9 美国数学邀请赛真题
Livecodebench (24.08-25.05) 代码 66.5 69 69 较新编程竞赛题
HumanEval-X 代码 87.3 92.67 76.1 多语言代码生成
SWE-Bench Verified 代码 42 51 28 真实 GitHub issue 修复
Tau2-Bench Agent 58 63.6 41.73 复杂工具调用与多步规划

几个直观结论:

  1. 36B-Thinking 在大多数公开榜单上表现更强,尤其在代码(SWE-Bench 51 分)和 Agent(Tau2-Bench 63.6)两个最贴近真实应用的赛道大幅领先同体量竞品。
  2. 105B-A4.7B 作为 MoE 模型,性价比突出,在激活参数远低于 36B 的情况下,多数指标仅落后 2–5 分,部分创作类甚至反超。
  3. SWE-Bench Verified 51 分已经是 2025 年底开源模型里非常有竞争力的成绩,说明 TeleChat3 在真实工程场景的代码理解与修改能力有明显进步。

本地快速跑起来:transformers 推理示例

最简单的方式是用 Hugging Face transformers 库直接加载(36B 版本为例):

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# 假设你已经把模型下载到本地 ./TeleChat3-36B-Thinking
tokenizer = AutoTokenizer.from_pretrained("./TeleChat3-36B-Thinking", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "./TeleChat3-36B-Thinking",
    trust_remote_code=True,
    device_map="auto",
    torch_dtype=torch.bfloat16
)

prompt = "生抽与老抽的区别?"
messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer(text, return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=2048,
    top_p=0.95,
    temperature=0.6,
    repetition_penalty=1.05
)

response = tokenizer.decode(generated_ids[0], skip_special_tokens=False)
answer = response.split("</think>")[-1].strip()   # 只取最终答案部分

print(answer)

关键点解释

  • apply_chat_template(…, add_generation_prompt=True) 会自动在最后拼接 <think>\n,提示模型先思考
  • 多轮对话时不要把上一轮的 <think>…</think> 内容传回去,chat template 内部已处理历史
  • 通用对话推荐:temperature=0.6, repetition_penalty=1.05
  • 数学/代码推荐:temperature=1.1–1.2, repetition_penalty=1.0

服务化部署:vLLM 与 SGLang

生产环境更推荐使用专门的推理引擎:

vLLM
高吞吐、支持 PagedAttention、连续批处理,已适配 TeleChat3 Thinking 模式。部署脚本示例可在官方 eval/ 目录找到。

SGLang
前端结构化生成语言 + 后端高效运行时,特别适合需要严格格式输出(JSON、工具调用)的 Agent 场景。

两者具体部署参数、Docker 镜像、OpenAI-compatible API 接口说明,官方都提供了独立的 md 文档。

微调路线:目前最方便的是 LLaMA-Factory

官方明确推荐使用 LLaMA-Factory 进行全参数微调、LoRA、QLoRA、DPO 等操作。

支持的训练方式包括:

  • Supervised Fine-Tuning (SFT)
  • Direct Preference Optimization (DPO)
  • 权重合并与推理部署一条龙

微调配置文件、数据集格式、常用参数示例在 ./tutorial/telechat_llama_factory.md 中。

完全国产化栈:昇腾 + MindSpore 训练与推理

TeleChat3 是少数公布了完全国产算力训练数据的开源大模型之一。

核心软件栈:

  • 硬件:昇腾 Atlas 800T A2 训练服务器
  • 框架:昇思 MindSpore + MindSpore Transformers

训练吞吐参考(单次 epoch):

模型 吞吐 (samples / p / s) 使用 NPU 卡数
105B-A4.7B 0.1002 4096
36B 0.0633 2048

这组数字说明即使在 2025 年的国产 AI 集群上,TeleChat3 的训练效率也达到了可商用的水平。

常见问题(FAQ)

Q1:Thinking 模式一定要用吗?
不一定。但几乎所有评测分数都是 Thinking 模式测出来的。如果你追求最高成绩,建议开启;如果追求最快响应速度,可以尝试关闭(但效果会明显下降)。

Q2:105B-A4.7B 和 36B 哪个更值得部署?
预算充足、追求极致性能 → 36B-Thinking
显存紧张、希望推理成本更低 → 105B-A4.7B-Thinking(激活参数少,显存占用更接近 7B 模型)

Q3:SWE-Bench 51 分是什么概念?
2025 年底,开源模型里能稳定上 50 分的并不多。这个分数意味着模型已经可以在真实 GitHub 仓库中独立解决中等难度的 bug 修复任务,具有初步的“软件工程助理”能力。

Q4:可以用 transformers 做多轮对话吗?
可以。但请记住:不要把上一轮的思考过程传回去,否则上下文会迅速变长且容易混乱。chat template 已自动处理历史轮次。

总结:TeleChat3 对开发者和企业的意义

TeleChat3-36B-Thinking 和 105B-A4.7B-Thinking 的开源,核心价值在于:

  1. 提供了一个完全国产算力训练、性能有竞争力的大模型选项
  2. SWE-Bench 51 分、Tau2-Bench 63.6 等成绩证明它在真实工程任务和复杂工具调用上有实用价值
  3. 同时支持 transformers、vLLM、SGLang、LLaMA-Factory、MindSpore 全生态,降低了国产化迁移成本

如果你正在寻找一个既能本地跑起来、又能上生产、同时代码与 Agent 能力较强、还支持国产算力的开源基座,TeleChat3 这两个 Thinking 版本值得认真体验。

(全文完,约 3200 字)