TeleChat3-36B国产大模型测评：SWE-Bench 51分，超越竞品的代码与Agent能力全解析

高效码农

2 月前

星辰语义大模型 TeleChat3 全面解读：国产算力训练的 105B 与 36B Thinking 版本

摘要
中国电信人工智能研究院开源的 TeleChat3 系列大语言模型完全基于国产算力训练，目前已发布 TeleChat3-105B-A4.7B-Thinking（混合专家架构）和 TeleChat3-36B-Thinking 两个版本。105B-A4.7B 在 SWE-Bench Verified 获得 42 分，36B 版本达到 51 分；36B 在 MMLU-Pro 得分 80.89、GPQA-Diamond 70.56、HumanEval-X 92.67，展现出较强的知识、代码与复杂推理能力，支持标准 transformers、vLLM、SGLang 推理及 LLaMA-Factory 微调。

2025 年底开源的这两个 “Thinking” 版本，最大的特点就是内置了显式的思考链（

…

）生成机制，特别适合需要严谨推理的数学、代码、Agent 类任务。下面我们从模型架构、真实评测表现到本地/服务化部署、微调方法，一步步把这个国产开源大模型讲清楚。

TeleChat3 到底是什么？它和别的模型有什么不同？

简单来说，TeleChat3 是中国电信 AI 研究院用完全国产算力从头训练的大型语言模型系列，最新开源的是两个带有 “Thinking” 后缀的版本：

TeleChat3-105B-A4.7B-Thinking：采用 MoE（混合专家） 架构，总参数 105B，推理时每 token 只激活约 4.7B 参数
TeleChat3-36B-Thinking：稠密（Dense） 模型，全部 36B 参数都参与计算

官方把它们命名为“星辰语义大模型”，主要目标是希望在知识、数学、代码、复杂指令、Agent 能力上达到较高水准，同时保证推理阶段的性价比和国产化全栈可控。

最容易感知的差异在于架构路线：

模型	参数量	架构类型	每 token 激活参数	Attention 机制	Routed Experts	Experts per Token	Shared Experts
TeleChat3-105B-A4.7B	105B	MoE	≈4.7B	MLA	192	4	1
TeleChat3-36B	36B	Dense / GQA	36B	GQA	—	—	—

MoE 架构让 105B 模型在显存占用和推理速度上接近 4.7B-7B 级别稠密模型，而 36B 则是更传统的 GQA（Grouped-Query Attention）路线，追求单卡性能与微调友好性的平衡。

真实评测表现：六个维度的数据说话

官方在六个大维度做了全面评测，且全部采用 Thinking 模式（即让模型先生成思考过程再给出最终答案）。下面直接列出关键指标对比（节选主要竞品）：

评测集	维度	TeleChat3-105B-A4.7B-Thinking	TeleChat3-36B-Thinking	Qwen3-32B	备注
MMLU-Pro	知识	78.5	80.89	75.37	综合知识最常用指标
GPQA-Diamond	知识	66	70.56	68.4	高难度研究生级题目
Creative writing v3	创作	82.1	84.33	81	长文本创作能力
Math-500	数学	91	95	97.2	中等难度数学
AIME2025	数学	69.7	73.3	72.9	美国数学邀请赛真题
Livecodebench (24.08-25.05)	代码	66.5	69	69	较新编程竞赛题
HumanEval-X	代码	87.3	92.67	76.1	多语言代码生成
SWE-Bench Verified	代码	42	51	28	真实 GitHub issue 修复
Tau2-Bench	Agent	58	63.6	41.73	复杂工具调用与多步规划

几个直观结论：

36B-Thinking 在大多数公开榜单上表现更强，尤其在代码（SWE-Bench 51 分）和 Agent（Tau2-Bench 63.6）两个最贴近真实应用的赛道大幅领先同体量竞品。
105B-A4.7B 作为 MoE 模型，性价比突出，在激活参数远低于 36B 的情况下，多数指标仅落后 2–5 分，部分创作类甚至反超。
SWE-Bench Verified 51 分已经是 2025 年底开源模型里非常有竞争力的成绩，说明 TeleChat3 在真实工程场景的代码理解与修改能力有明显进步。

本地快速跑起来：transformers 推理示例

最简单的方式是用 Hugging Face transformers 库直接加载（36B 版本为例）：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# 假设你已经把模型下载到本地 ./TeleChat3-36B-Thinking
tokenizer = AutoTokenizer.from_pretrained("./TeleChat3-36B-Thinking", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "./TeleChat3-36B-Thinking",
    trust_remote_code=True,
    device_map="auto",
    torch_dtype=torch.bfloat16
)

prompt = "生抽与老抽的区别？"
messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer(text, return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=2048,
    top_p=0.95,
    temperature=0.6,
    repetition_penalty=1.05
)

response = tokenizer.decode(generated_ids[0], skip_special_tokens=False)
answer = response.split("</think>")[-1].strip()   # 只取最终答案部分

print(answer)

关键点解释：

apply_chat_template(…, add_generation_prompt=True) 会自动在最后拼接 <think>\n，提示模型先思考
多轮对话时不要把上一轮的 <think>…</think> 内容传回去，chat template 内部已处理历史
通用对话推荐：temperature=0.6, repetition_penalty=1.05
数学/代码推荐：temperature=1.1–1.2, repetition_penalty=1.0

服务化部署：vLLM 与 SGLang

生产环境更推荐使用专门的推理引擎：

vLLM
高吞吐、支持 PagedAttention、连续批处理，已适配 TeleChat3 Thinking 模式。部署脚本示例可在官方 eval/ 目录找到。

SGLang
前端结构化生成语言 + 后端高效运行时，特别适合需要严格格式输出（JSON、工具调用）的 Agent 场景。

两者具体部署参数、Docker 镜像、OpenAI-compatible API 接口说明，官方都提供了独立的 md 文档。

微调路线：目前最方便的是 LLaMA-Factory

官方明确推荐使用 LLaMA-Factory 进行全参数微调、LoRA、QLoRA、DPO 等操作。

支持的训练方式包括：

Supervised Fine-Tuning (SFT)
Direct Preference Optimization (DPO)
权重合并与推理部署一条龙

微调配置文件、数据集格式、常用参数示例在 ./tutorial/telechat_llama_factory.md 中。

完全国产化栈：昇腾 + MindSpore 训练与推理

TeleChat3 是少数公布了完全国产算力训练数据的开源大模型之一。

核心软件栈：

硬件：昇腾 Atlas 800T A2 训练服务器
框架：昇思 MindSpore + MindSpore Transformers

训练吞吐参考（单次 epoch）：

模型	吞吐 (samples / p / s)	使用 NPU 卡数
105B-A4.7B	0.1002	4096
36B	0.0633	2048

这组数字说明即使在 2025 年的国产 AI 集群上，TeleChat3 的训练效率也达到了可商用的水平。

常见问题（FAQ）

Q1：Thinking 模式一定要用吗？
不一定。但几乎所有评测分数都是 Thinking 模式测出来的。如果你追求最高成绩，建议开启；如果追求最快响应速度，可以尝试关闭（但效果会明显下降）。

Q2：105B-A4.7B 和 36B 哪个更值得部署？
预算充足、追求极致性能 → 36B-Thinking
显存紧张、希望推理成本更低 → 105B-A4.7B-Thinking（激活参数少，显存占用更接近 7B 模型）

Q3：SWE-Bench 51 分是什么概念？
2025 年底，开源模型里能稳定上 50 分的并不多。这个分数意味着模型已经可以在真实 GitHub 仓库中独立解决中等难度的 bug 修复任务，具有初步的“软件工程助理”能力。

Q4：可以用 transformers 做多轮对话吗？
可以。但请记住：不要把上一轮的思考过程传回去，否则上下文会迅速变长且容易混乱。chat template 已自动处理历史轮次。

总结：TeleChat3 对开发者和企业的意义

TeleChat3-36B-Thinking 和 105B-A4.7B-Thinking 的开源，核心价值在于：

提供了一个完全国产算力训练、性能有竞争力的大模型选项
SWE-Bench 51 分、Tau2-Bench 63.6 等成绩证明它在真实工程任务和复杂工具调用上有实用价值
同时支持 transformers、vLLM、SGLang、LLaMA-Factory、MindSpore 全生态，降低了国产化迁移成本

如果你正在寻找一个既能本地跑起来、又能上生产、同时代码与 Agent 能力较强、还支持国产算力的开源基座，TeleChat3 这两个 Thinking 版本值得认真体验。

（全文完，约 3200 字）