认识 Qwen3-235B-A22B-Thinking-2507:把复杂推理模型的真实能力一次讲透

本文面向已经具备基础 AI 知识、希望真正弄清「大模型推理能力」如何落地的读者。我们完全基于官方发布文档,用日常语言把模型的技术细节、使用门槛、场景边界和实测数据拆开说明,帮助你判断它是否值得投入时间与算力。


目录

  1. 它到底是什么?
  2. 核心变化:三个月里到底改进了什么
  3. 模型规格一览
  4. 实测成绩:用表格说话
  5. 如何运行:从 0 到第一次推理
  6. 部署细节:SGLang、vLLM、本地工具
  7. 把它变成 Agent:工具调用与长对话
  8. 最佳实践:调参、上下文、输出长度
  9. 常见问题解答(FAQ)

它到底是什么?

Qwen3-235B-A22B-Thinking-2507(下文简称「2507 版」)是 Qwen 团队在 2025 年 7 月放出的最新开源推理模型。名字里那串数字可以简单理解为:

  • 235B:总参数量 2350 亿
  • A22B:每次推理只激活 220 亿参数(MoE 架构的结果)
  • Thinking:专为“深度思考”场景训练,默认强制进入推理模式
  • 2507:2025 年 7 月迭代版本号

一句话总结:它在保持相对可控的推理成本(220 亿激活参数)的同时,把推理深度和长度都继续往前推了一步。


核心变化:三个月里到底改进了什么

官方把过去三个月的努力总结为三大关键词:质量、深度、长度

维度 旧版(Qwen3-235B-A22B Thinking) 新版 2507 你能感知到的差异
数学竞赛题 AIME25 81.5 分 92.3 分 原来偶尔算错的高阶题,现在大概率一次算对
代码竞赛 LiveCodeBench 55.7 分 74.1 分 复杂算法模板可直接生成,减少人工修补
长文理解(262K token) 基础支持 精细支持 可以一次读完 20 万汉字的技术报告并回答细节
思考长度 32K token 上限 82K token 可用 模型会给出更长的逐步推导,不再“跳步”

换句话说:如果你之前的痛点是「模型写着写着就停了」或「关键步骤一笔带过」,2507 版会显著缓解这类问题。


模型规格一览

项目 数值 通俗解释
总参数 2350 亿 相当于 235 本 1 亿字的中文小说全部叠在一起
激活参数 220 亿 每次推理时真正“动脑”的部分,决定显存占用
层数 94 层 决定了信息从输入到输出的“加工站”数量
专家数 128 个 类似 128 位专科医生,各管一摊,按需叫号
激活专家 8 个 每次只请 8 位医生会诊,既省资源又保质量
上下文长度 262,144 token 约 21 万汉字,可一次读完《三体》三部曲
训练阶段 预训练 + 后训练 先学语言规律,再学如何“思考”和“对齐”

唯一需要注意的是:该版本仅支持「思考模式」。也就是说,它默认全程开动脑筋,哪怕你只是问一句「今天天气如何」也会先在心里演算一番——这会带来更长的输出和更高的算力需求。


实测成绩:用表格说话

官方一共跑了 20 余项基准测试,我们挑出与日常使用最相关的 6 类场景,把 2507 版与几款常见模型放在一起对比。分数越高越好,加粗 为该项第一。

场景 细分任务 2507 版 Deepseek-R1 OpenAI O3 Gemini-2.5 Pro 一眼可见的结论
通识问答 MMLU-Pro 84.4 85.0 85.9 85.6 第一梯队差距极小,日常使用无感知差异
科学推理 GPQA 81.1 81.0 83.3* 86.4 化学/物理高阶题仍略逊 Gemini,但已追平 DeepSeek
数学竞赛 AIME25 92.3 87.5 88.9* 88.0 唯一突破 90 分门槛的开源模型
代码竞赛 LiveCodeBench 74.1 68.7 58.6 72.5 领先第二名 6 分,代码生成可用性提升明显
人类对齐 IFEval 87.8 79.1 92.1 90.8 指令遵循能力已接近 OpenAI O3
创意写作 WritingBench 88.3 83.2 85.3 83.1 写长报告、技术文档时格式与内容质量更高

标注 * 表示 OpenAI 使用了「高推理强度」模式,相当于开足马力;未标注则为中等强度。

一句话总结:2507 版在需要「长链推理」的科目(数学、代码、复杂写作)优势明显;在纯知识问答上,与第一梯队差距已缩小到误差范围。


如何运行:从 0 到第一次推理

步骤 1:准备环境

  • Python ≥ 3.9
  • transformers ≥ 4.51.0(低于此版本会报错)
  • GPU:官方测试用 8×A100 80G,你也可以尝试 4×A100 40G 并减小 batch size

步骤 2:安装依赖

pip install -U transformers torch

步骤 3:最小可运行示例(PyTorch)

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

prompt = "用 200 字介绍量子计算的基本原理。"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(**model_inputs, max_new_tokens=2048)

# 拆分思考过程与最终答案
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
try:
    idx = len(output_ids) - output_ids[::-1].index(151668)  # </think> 的 token id
except ValueError:
    idx = 0

thinking = tokenizer.decode(output_ids[:idx], skip_special_tokens=True)
answer = tokenizer.decode(output_ids[idx:], skip_special_tokens=True)

print("思考过程:\n", thinking)
print("最终答案:\n", answer)

运行成功后,你会看到两段输出:

  • 思考过程:模型自己写的草稿、公式、伪代码
  • 最终答案:经过整理、面向用户的简洁回答

部署细节:SGLang、vLLM、本地工具

生产级部署:SGLang

python -m sglang.launch_server \
  --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 \
  --tp 8 \
  --context-length 262144 \
  --reasoning-parser deepseek-r1
  • --tp 8:8 张 GPU 并行
  • --reasoning-parser:自动识别思考标签,方便前端隐藏草稿

备用方案:vLLM

vllm serve Qwen/Qwen3-235B-A22B-Thinking-2507 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --enable-reasoning \
  --reasoning-parser deepseek_r1

如果你显存吃紧,可把 --max-model-len 降到 131072,但别低于 81920,否则长思考会被截断。

本地轻量尝试

  • Ollama / LMStudio / llama.cpp / MLX-LM / KTransformers 均已官宣支持
  • 注意:量化版本会牺牲推理精度,数学与代码任务建议保持原精度

把它变成 Agent:工具调用与长对话

官方推荐用 Qwen-Agent 来调用外部工具,一个最小可运行的例子如下:

from qwen_agent.agents import Assistant

# 使用阿里灵积(DashScope)API
llm_cfg = {
    'model': 'qwen3-235b-a22b-thinking-2507',
    'model_type': 'qwen_dashscope',
}

# 定义工具:时间查询 + 网页抓取
tools = [
    {'mcpServers': {
        'time': {
            'command': 'uvx',
            'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
        },
        'fetch': {
            'command': 'uvx',
            'args': ['mcp-server-fetch']
        }
    }},
    'code_interpreter',
]

bot = Assistant(llm=llm_cfg, function_list=tools)

# 多轮对话
messages = [{'role': 'user', 'content': '访问 https://qwenlm.github.io/blog/ 并总结最新动态'}]
for rsp in bot.run(messages):
    pass
print(rsp)

核心要点:

  • 工具调用模板与解析器已封装在 Qwen-Agent,不必自己写正则
  • 历史对话只需保留最终答案,不要塞进思考过程,否则 token 暴涨

最佳实践:调参、上下文、输出长度

场景 推荐参数 理由
通用对话 Temperature=0.6, TopP=0.95, TopK=20, MinP=0 平衡创造性与稳定性
数学/代码竞赛 Temperature=0.3 降低随机性,保证答案一致
长文写作 max_new_tokens=81920 给模型足够空间展开逻辑链
多轮问答 历史记录不含 <think> 段落 减少冗余,提高速度
出现循环输出 适当调高 presence_penalty(0.5~1.5) 打断重复,但过高会打乱语言风格

常见问题解答(FAQ)

Q1:我只有 2×A100 40G,能跑吗?
可以,但需要把 --max-model-len 降到 32768 以下,并打开 8-bit 量化。数学与代码精度会下降,建议仅做演示。

Q2:为什么输出里只有 </think> 没有 <think>
官方模板已自动在输入里追加 <think>,因此输出不再重复。这样做的好处是:前端可以直接隐藏思考过程,无需额外过滤。

Q3:它适合做聊天机器人吗?
适合高复杂度任务(科研、法律咨询、代码审计)。如果只是想闲聊,成本偏高,建议用普通版 Qwen3。

Q4:上下文 262K 是一次性塞满吗?
不是。262K 是上限,实际能利用多少取决于显存和 batch size。经验法则:8×A100 80G 下可稳定跑 128K 输入 + 32K 输出。

Q5:如何复现官方榜单分数?

  • 数学/代码任务:max_tokens=81920
  • 其他任务:max_tokens=32768
  • 采样温度统一 0.6,TopP 0.95
  • 使用官方提供的 system prompt:

    Please reason step by step, and put your final answer within \boxed{}.
    

写在最后

如果你正面临以下场景:

  • 需要一次性处理上百页技术文档并回答细节
  • 希望让模型独立完成多步骤数学证明
  • 想在本地部署一个可离线、可定制的“高阶推理引擎”

Qwen3-235B-A22B-Thinking-2507 是目前开源社区里为数不多能把这三件事同时做到 90 分以上的选择。它的代价是显存和电费——但比起人力成本,这笔账对很多团队来说已经划算了。