星辰语义大模型 TeleChat3 全面解读:国产算力训练的 105B 与 36B Thinking 版本
摘要
中国电信人工智能研究院开源的 TeleChat3 系列大语言模型完全基于国产算力训练,目前已发布 TeleChat3-105B-A4.7B-Thinking(混合专家架构)和 TeleChat3-36B-Thinking 两个版本。105B-A4.7B 在 SWE-Bench Verified 获得 42 分,36B 版本达到 51 分;36B 在 MMLU-Pro 得分 80.89、GPQA-Diamond 70.56、HumanEval-X 92.67,展现出较强的知识、代码与复杂推理能力,支持标准 transformers、vLLM、SGLang 推理及 LLaMA-Factory 微调。
2025 年底开源的这两个 “Thinking” 版本,最大的特点就是内置了显式的思考链(
…
)生成机制,特别适合需要严谨推理的数学、代码、Agent 类任务。下面我们从模型架构、真实评测表现到本地/服务化部署、微调方法,一步步把这个国产开源大模型讲清楚。
TeleChat3 到底是什么?它和别的模型有什么不同?
简单来说,TeleChat3 是中国电信 AI 研究院用完全国产算力从头训练的大型语言模型系列,最新开源的是两个带有 “Thinking” 后缀的版本:
-
TeleChat3-105B-A4.7B-Thinking:采用 MoE(混合专家) 架构,总参数 105B,推理时每 token 只激活约 4.7B 参数 -
TeleChat3-36B-Thinking:稠密(Dense) 模型,全部 36B 参数都参与计算
官方把它们命名为“星辰语义大模型”,主要目标是希望在知识、数学、代码、复杂指令、Agent 能力上达到较高水准,同时保证推理阶段的性价比和国产化全栈可控。
最容易感知的差异在于架构路线:
| 模型 | 参数量 | 架构类型 | 每 token 激活参数 | Attention 机制 | Routed Experts | Experts per Token | Shared Experts |
|---|---|---|---|---|---|---|---|
| TeleChat3-105B-A4.7B | 105B | MoE | ≈4.7B | MLA | 192 | 4 | 1 |
| TeleChat3-36B | 36B | Dense / GQA | 36B | GQA | — | — | — |
MoE 架构让 105B 模型在显存占用和推理速度上接近 4.7B-7B 级别稠密模型,而 36B 则是更传统的 GQA(Grouped-Query Attention)路线,追求单卡性能与微调友好性的平衡。
真实评测表现:六个维度的数据说话
官方在六个大维度做了全面评测,且全部采用 Thinking 模式(即让模型先生成思考过程再给出最终答案)。下面直接列出关键指标对比(节选主要竞品):
| 评测集 | 维度 | TeleChat3-105B-A4.7B-Thinking | TeleChat3-36B-Thinking | Qwen3-32B | 备注 |
|---|---|---|---|---|---|
| MMLU-Pro | 知识 | 78.5 | 80.89 | 75.37 | 综合知识最常用指标 |
| GPQA-Diamond | 知识 | 66 | 70.56 | 68.4 | 高难度研究生级题目 |
| Creative writing v3 | 创作 | 82.1 | 84.33 | 81 | 长文本创作能力 |
| Math-500 | 数学 | 91 | 95 | 97.2 | 中等难度数学 |
| AIME2025 | 数学 | 69.7 | 73.3 | 72.9 | 美国数学邀请赛真题 |
| Livecodebench (24.08-25.05) | 代码 | 66.5 | 69 | 69 | 较新编程竞赛题 |
| HumanEval-X | 代码 | 87.3 | 92.67 | 76.1 | 多语言代码生成 |
| SWE-Bench Verified | 代码 | 42 | 51 | 28 | 真实 GitHub issue 修复 |
| Tau2-Bench | Agent | 58 | 63.6 | 41.73 | 复杂工具调用与多步规划 |
几个直观结论:
-
36B-Thinking 在大多数公开榜单上表现更强,尤其在代码(SWE-Bench 51 分)和 Agent(Tau2-Bench 63.6)两个最贴近真实应用的赛道大幅领先同体量竞品。 -
105B-A4.7B 作为 MoE 模型,性价比突出,在激活参数远低于 36B 的情况下,多数指标仅落后 2–5 分,部分创作类甚至反超。 -
SWE-Bench Verified 51 分已经是 2025 年底开源模型里非常有竞争力的成绩,说明 TeleChat3 在真实工程场景的代码理解与修改能力有明显进步。
本地快速跑起来:transformers 推理示例
最简单的方式是用 Hugging Face transformers 库直接加载(36B 版本为例):
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
# 假设你已经把模型下载到本地 ./TeleChat3-36B-Thinking
tokenizer = AutoTokenizer.from_pretrained("./TeleChat3-36B-Thinking", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
"./TeleChat3-36B-Thinking",
trust_remote_code=True,
device_map="auto",
torch_dtype=torch.bfloat16
)
prompt = "生抽与老抽的区别?"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer(text, return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=2048,
top_p=0.95,
temperature=0.6,
repetition_penalty=1.05
)
response = tokenizer.decode(generated_ids[0], skip_special_tokens=False)
answer = response.split("</think>")[-1].strip() # 只取最终答案部分
print(answer)
关键点解释:
-
apply_chat_template(…, add_generation_prompt=True)会自动在最后拼接<think>\n,提示模型先思考 -
多轮对话时不要把上一轮的 <think>…</think>内容传回去,chat template 内部已处理历史 -
通用对话推荐:temperature=0.6, repetition_penalty=1.05 -
数学/代码推荐:temperature=1.1–1.2, repetition_penalty=1.0
服务化部署:vLLM 与 SGLang
生产环境更推荐使用专门的推理引擎:
vLLM
高吞吐、支持 PagedAttention、连续批处理,已适配 TeleChat3 Thinking 模式。部署脚本示例可在官方 eval/ 目录找到。
SGLang
前端结构化生成语言 + 后端高效运行时,特别适合需要严格格式输出(JSON、工具调用)的 Agent 场景。
两者具体部署参数、Docker 镜像、OpenAI-compatible API 接口说明,官方都提供了独立的 md 文档。
微调路线:目前最方便的是 LLaMA-Factory
官方明确推荐使用 LLaMA-Factory 进行全参数微调、LoRA、QLoRA、DPO 等操作。
支持的训练方式包括:
-
Supervised Fine-Tuning (SFT) -
Direct Preference Optimization (DPO) -
权重合并与推理部署一条龙
微调配置文件、数据集格式、常用参数示例在 ./tutorial/telechat_llama_factory.md 中。
完全国产化栈:昇腾 + MindSpore 训练与推理
TeleChat3 是少数公布了完全国产算力训练数据的开源大模型之一。
核心软件栈:
-
硬件:昇腾 Atlas 800T A2 训练服务器 -
框架:昇思 MindSpore + MindSpore Transformers
训练吞吐参考(单次 epoch):
| 模型 | 吞吐 (samples / p / s) | 使用 NPU 卡数 |
|---|---|---|
| 105B-A4.7B | 0.1002 | 4096 |
| 36B | 0.0633 | 2048 |
这组数字说明即使在 2025 年的国产 AI 集群上,TeleChat3 的训练效率也达到了可商用的水平。
常见问题(FAQ)
Q1:Thinking 模式一定要用吗?
不一定。但几乎所有评测分数都是 Thinking 模式测出来的。如果你追求最高成绩,建议开启;如果追求最快响应速度,可以尝试关闭(但效果会明显下降)。
Q2:105B-A4.7B 和 36B 哪个更值得部署?
预算充足、追求极致性能 → 36B-Thinking
显存紧张、希望推理成本更低 → 105B-A4.7B-Thinking(激活参数少,显存占用更接近 7B 模型)
Q3:SWE-Bench 51 分是什么概念?
2025 年底,开源模型里能稳定上 50 分的并不多。这个分数意味着模型已经可以在真实 GitHub 仓库中独立解决中等难度的 bug 修复任务,具有初步的“软件工程助理”能力。
Q4:可以用 transformers 做多轮对话吗?
可以。但请记住:不要把上一轮的思考过程传回去,否则上下文会迅速变长且容易混乱。chat template 已自动处理历史轮次。
总结:TeleChat3 对开发者和企业的意义
TeleChat3-36B-Thinking 和 105B-A4.7B-Thinking 的开源,核心价值在于:
-
提供了一个完全国产算力训练、性能有竞争力的大模型选项 -
SWE-Bench 51 分、Tau2-Bench 63.6 等成绩证明它在真实工程任务和复杂工具调用上有实用价值 -
同时支持 transformers、vLLM、SGLang、LLaMA-Factory、MindSpore 全生态,降低了国产化迁移成本
如果你正在寻找一个既能本地跑起来、又能上生产、同时代码与 Agent 能力较强、还支持国产算力的开源基座,TeleChat3 这两个 Thinking 版本值得认真体验。
(全文完,约 3200 字)
