认识 Qwen3-235B-A22B-Thinking-2507:把复杂推理模型的真实能力一次讲透
本文面向已经具备基础 AI 知识、希望真正弄清「大模型推理能力」如何落地的读者。我们完全基于官方发布文档,用日常语言把模型的技术细节、使用门槛、场景边界和实测数据拆开说明,帮助你判断它是否值得投入时间与算力。
目录
-
它到底是什么? -
核心变化:三个月里到底改进了什么 -
模型规格一览 -
实测成绩:用表格说话 -
如何运行:从 0 到第一次推理 -
部署细节:SGLang、vLLM、本地工具 -
把它变成 Agent:工具调用与长对话 -
最佳实践:调参、上下文、输出长度 -
常见问题解答(FAQ)
它到底是什么?
Qwen3-235B-A22B-Thinking-2507(下文简称「2507 版」)是 Qwen 团队在 2025 年 7 月放出的最新开源推理模型。名字里那串数字可以简单理解为:
-
235B:总参数量 2350 亿 -
A22B:每次推理只激活 220 亿参数(MoE 架构的结果) -
Thinking:专为“深度思考”场景训练,默认强制进入推理模式 -
2507:2025 年 7 月迭代版本号
一句话总结:它在保持相对可控的推理成本(220 亿激活参数)的同时,把推理深度和长度都继续往前推了一步。
核心变化:三个月里到底改进了什么
官方把过去三个月的努力总结为三大关键词:质量、深度、长度。
维度 | 旧版(Qwen3-235B-A22B Thinking) | 新版 2507 | 你能感知到的差异 |
---|---|---|---|
数学竞赛题 AIME25 | 81.5 分 | 92.3 分 | 原来偶尔算错的高阶题,现在大概率一次算对 |
代码竞赛 LiveCodeBench | 55.7 分 | 74.1 分 | 复杂算法模板可直接生成,减少人工修补 |
长文理解(262K token) | 基础支持 | 精细支持 | 可以一次读完 20 万汉字的技术报告并回答细节 |
思考长度 | 32K token 上限 | 82K token 可用 | 模型会给出更长的逐步推导,不再“跳步” |
换句话说:如果你之前的痛点是「模型写着写着就停了」或「关键步骤一笔带过」,2507 版会显著缓解这类问题。
模型规格一览
项目 | 数值 | 通俗解释 |
---|---|---|
总参数 | 2350 亿 | 相当于 235 本 1 亿字的中文小说全部叠在一起 |
激活参数 | 220 亿 | 每次推理时真正“动脑”的部分,决定显存占用 |
层数 | 94 层 | 决定了信息从输入到输出的“加工站”数量 |
专家数 | 128 个 | 类似 128 位专科医生,各管一摊,按需叫号 |
激活专家 | 8 个 | 每次只请 8 位医生会诊,既省资源又保质量 |
上下文长度 | 262,144 token | 约 21 万汉字,可一次读完《三体》三部曲 |
训练阶段 | 预训练 + 后训练 | 先学语言规律,再学如何“思考”和“对齐” |
唯一需要注意的是:该版本仅支持「思考模式」。也就是说,它默认全程开动脑筋,哪怕你只是问一句「今天天气如何」也会先在心里演算一番——这会带来更长的输出和更高的算力需求。
实测成绩:用表格说话
官方一共跑了 20 余项基准测试,我们挑出与日常使用最相关的 6 类场景,把 2507 版与几款常见模型放在一起对比。分数越高越好,加粗 为该项第一。
场景 | 细分任务 | 2507 版 | Deepseek-R1 | OpenAI O3 | Gemini-2.5 Pro | 一眼可见的结论 |
---|---|---|---|---|---|---|
通识问答 | MMLU-Pro | 84.4 | 85.0 | 85.9 | 85.6 | 第一梯队差距极小,日常使用无感知差异 |
科学推理 | GPQA | 81.1 | 81.0 | 83.3* | 86.4 | 化学/物理高阶题仍略逊 Gemini,但已追平 DeepSeek |
数学竞赛 | AIME25 | 92.3 | 87.5 | 88.9* | 88.0 | 唯一突破 90 分门槛的开源模型 |
代码竞赛 | LiveCodeBench | 74.1 | 68.7 | 58.6 | 72.5 | 领先第二名 6 分,代码生成可用性提升明显 |
人类对齐 | IFEval | 87.8 | 79.1 | 92.1 | 90.8 | 指令遵循能力已接近 OpenAI O3 |
创意写作 | WritingBench | 88.3 | 83.2 | 85.3 | 83.1 | 写长报告、技术文档时格式与内容质量更高 |
标注 * 表示 OpenAI 使用了「高推理强度」模式,相当于开足马力;未标注则为中等强度。
一句话总结:2507 版在需要「长链推理」的科目(数学、代码、复杂写作)优势明显;在纯知识问答上,与第一梯队差距已缩小到误差范围。
如何运行:从 0 到第一次推理
步骤 1:准备环境
-
Python ≥ 3.9 -
transformers ≥ 4.51.0(低于此版本会报错) -
GPU:官方测试用 8×A100 80G,你也可以尝试 4×A100 40G 并减小 batch size
步骤 2:安装依赖
pip install -U transformers torch
步骤 3:最小可运行示例(PyTorch)
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
prompt = "用 200 字介绍量子计算的基本原理。"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(**model_inputs, max_new_tokens=2048)
# 拆分思考过程与最终答案
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
try:
idx = len(output_ids) - output_ids[::-1].index(151668) # </think> 的 token id
except ValueError:
idx = 0
thinking = tokenizer.decode(output_ids[:idx], skip_special_tokens=True)
answer = tokenizer.decode(output_ids[idx:], skip_special_tokens=True)
print("思考过程:\n", thinking)
print("最终答案:\n", answer)
运行成功后,你会看到两段输出:
-
思考过程:模型自己写的草稿、公式、伪代码 -
最终答案:经过整理、面向用户的简洁回答
部署细节:SGLang、vLLM、本地工具
生产级部署:SGLang
python -m sglang.launch_server \
--model-path Qwen/Qwen3-235B-A22B-Thinking-2507 \
--tp 8 \
--context-length 262144 \
--reasoning-parser deepseek-r1
-
--tp 8
:8 张 GPU 并行 -
--reasoning-parser
:自动识别思考标签,方便前端隐藏草稿
备用方案:vLLM
vllm serve Qwen/Qwen3-235B-A22B-Thinking-2507 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--enable-reasoning \
--reasoning-parser deepseek_r1
如果你显存吃紧,可把 --max-model-len
降到 131072,但别低于 81920,否则长思考会被截断。
本地轻量尝试
-
Ollama / LMStudio / llama.cpp / MLX-LM / KTransformers 均已官宣支持 -
注意:量化版本会牺牲推理精度,数学与代码任务建议保持原精度
把它变成 Agent:工具调用与长对话
官方推荐用 Qwen-Agent 来调用外部工具,一个最小可运行的例子如下:
from qwen_agent.agents import Assistant
# 使用阿里灵积(DashScope)API
llm_cfg = {
'model': 'qwen3-235b-a22b-thinking-2507',
'model_type': 'qwen_dashscope',
}
# 定义工具:时间查询 + 网页抓取
tools = [
{'mcpServers': {
'time': {
'command': 'uvx',
'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
},
'fetch': {
'command': 'uvx',
'args': ['mcp-server-fetch']
}
}},
'code_interpreter',
]
bot = Assistant(llm=llm_cfg, function_list=tools)
# 多轮对话
messages = [{'role': 'user', 'content': '访问 https://qwenlm.github.io/blog/ 并总结最新动态'}]
for rsp in bot.run(messages):
pass
print(rsp)
核心要点:
-
工具调用模板与解析器已封装在 Qwen-Agent,不必自己写正则 -
历史对话只需保留最终答案,不要塞进思考过程,否则 token 暴涨
最佳实践:调参、上下文、输出长度
场景 | 推荐参数 | 理由 |
---|---|---|
通用对话 | Temperature=0.6, TopP=0.95, TopK=20, MinP=0 | 平衡创造性与稳定性 |
数学/代码竞赛 | Temperature=0.3 | 降低随机性,保证答案一致 |
长文写作 | max_new_tokens=81920 | 给模型足够空间展开逻辑链 |
多轮问答 | 历史记录不含 <think> 段落 |
减少冗余,提高速度 |
出现循环输出 | 适当调高 presence_penalty(0.5~1.5) | 打断重复,但过高会打乱语言风格 |
常见问题解答(FAQ)
Q1:我只有 2×A100 40G,能跑吗?
可以,但需要把 --max-model-len
降到 32768 以下,并打开 8-bit 量化。数学与代码精度会下降,建议仅做演示。
Q2:为什么输出里只有 </think>
没有 <think>
?
官方模板已自动在输入里追加 <think>
,因此输出不再重复。这样做的好处是:前端可以直接隐藏思考过程,无需额外过滤。
Q3:它适合做聊天机器人吗?
适合高复杂度任务(科研、法律咨询、代码审计)。如果只是想闲聊,成本偏高,建议用普通版 Qwen3。
Q4:上下文 262K 是一次性塞满吗?
不是。262K 是上限,实际能利用多少取决于显存和 batch size。经验法则:8×A100 80G 下可稳定跑 128K 输入 + 32K 输出。
Q5:如何复现官方榜单分数?
-
数学/代码任务:max_tokens=81920 -
其他任务:max_tokens=32768 -
采样温度统一 0.6,TopP 0.95 -
使用官方提供的 system prompt: Please reason step by step, and put your final answer within \boxed{}.
写在最后
如果你正面临以下场景:
-
需要一次性处理上百页技术文档并回答细节 -
希望让模型独立完成多步骤数学证明 -
想在本地部署一个可离线、可定制的“高阶推理引擎”
Qwen3-235B-A22B-Thinking-2507 是目前开源社区里为数不多能把这三件事同时做到 90 分以上的选择。它的代价是显存和电费——但比起人力成本,这笔账对很多团队来说已经划算了。