开源推理模型刷新记录！Qwen3-235B数学竞赛92.3分全解密

高效码农

5 月前

认识 Qwen3-235B-A22B-Thinking-2507：把复杂推理模型的真实能力一次讲透

本文面向已经具备基础 AI 知识、希望真正弄清「大模型推理能力」如何落地的读者。我们完全基于官方发布文档，用日常语言把模型的技术细节、使用门槛、场景边界和实测数据拆开说明，帮助你判断它是否值得投入时间与算力。

它到底是什么？
核心变化：三个月里到底改进了什么
模型规格一览
实测成绩：用表格说话
如何运行：从 0 到第一次推理
部署细节：SGLang、vLLM、本地工具
把它变成 Agent：工具调用与长对话
最佳实践：调参、上下文、输出长度
常见问题解答（FAQ）

它到底是什么？

Qwen3-235B-A22B-Thinking-2507（下文简称「2507 版」）是 Qwen 团队在 2025 年 7 月放出的最新开源推理模型。名字里那串数字可以简单理解为：

235B：总参数量 2350 亿
A22B：每次推理只激活 220 亿参数（MoE 架构的结果）
Thinking：专为“深度思考”场景训练，默认强制进入推理模式
2507：2025 年 7 月迭代版本号

一句话总结：它在保持相对可控的推理成本（220 亿激活参数）的同时，把推理深度和长度都继续往前推了一步。

核心变化：三个月里到底改进了什么

官方把过去三个月的努力总结为三大关键词：质量、深度、长度。

维度	旧版（Qwen3-235B-A22B Thinking）	新版 2507	你能感知到的差异
数学竞赛题 AIME25	81.5 分	92.3 分	原来偶尔算错的高阶题，现在大概率一次算对
代码竞赛 LiveCodeBench	55.7 分	74.1 分	复杂算法模板可直接生成，减少人工修补
长文理解（262K token）	基础支持	精细支持	可以一次读完 20 万汉字的技术报告并回答细节
思考长度	32K token 上限	82K token 可用	模型会给出更长的逐步推导，不再“跳步”

换句话说：如果你之前的痛点是「模型写着写着就停了」或「关键步骤一笔带过」，2507 版会显著缓解这类问题。

模型规格一览

项目	数值	通俗解释
总参数	2350 亿	相当于 235 本 1 亿字的中文小说全部叠在一起
激活参数	220 亿	每次推理时真正“动脑”的部分，决定显存占用
层数	94 层	决定了信息从输入到输出的“加工站”数量
专家数	128 个	类似 128 位专科医生，各管一摊，按需叫号
激活专家	8 个	每次只请 8 位医生会诊，既省资源又保质量
上下文长度	262,144 token	约 21 万汉字，可一次读完《三体》三部曲
训练阶段	预训练 + 后训练	先学语言规律，再学如何“思考”和“对齐”

唯一需要注意的是：该版本仅支持「思考模式」。也就是说，它默认全程开动脑筋，哪怕你只是问一句「今天天气如何」也会先在心里演算一番——这会带来更长的输出和更高的算力需求。

实测成绩：用表格说话

官方一共跑了 20 余项基准测试，我们挑出与日常使用最相关的 6 类场景，把 2507 版与几款常见模型放在一起对比。分数越高越好，加粗为该项第一。

场景	细分任务	2507 版	Deepseek-R1	OpenAI O3	Gemini-2.5 Pro	一眼可见的结论
通识问答	MMLU-Pro	84.4	85.0	85.9	85.6	第一梯队差距极小，日常使用无感知差异
科学推理	GPQA	81.1	81.0	83.3*	86.4	化学/物理高阶题仍略逊 Gemini，但已追平 DeepSeek
数学竞赛	AIME25	92.3	87.5	88.9*	88.0	唯一突破 90 分门槛的开源模型
代码竞赛	LiveCodeBench	74.1	68.7	58.6	72.5	领先第二名 6 分，代码生成可用性提升明显
人类对齐	IFEval	87.8	79.1	92.1	90.8	指令遵循能力已接近 OpenAI O3
创意写作	WritingBench	88.3	83.2	85.3	83.1	写长报告、技术文档时格式与内容质量更高

标注 * 表示 OpenAI 使用了「高推理强度」模式，相当于开足马力；未标注则为中等强度。

一句话总结：2507 版在需要「长链推理」的科目（数学、代码、复杂写作）优势明显；在纯知识问答上，与第一梯队差距已缩小到误差范围。

如何运行：从 0 到第一次推理

步骤 1：准备环境

Python ≥ 3.9
transformers ≥ 4.51.0（低于此版本会报错）
GPU：官方测试用 8×A100 80G，你也可以尝试 4×A100 40G 并减小 batch size

步骤 2：安装依赖

pip install -U transformers torch

步骤 3：最小可运行示例（PyTorch）

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

prompt = "用 200 字介绍量子计算的基本原理。"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(**model_inputs, max_new_tokens=2048)

# 拆分思考过程与最终答案
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
try:
    idx = len(output_ids) - output_ids[::-1].index(151668)  # </think> 的 token id
except ValueError:
    idx = 0

thinking = tokenizer.decode(output_ids[:idx], skip_special_tokens=True)
answer = tokenizer.decode(output_ids[idx:], skip_special_tokens=True)

print("思考过程：\n", thinking)
print("最终答案：\n", answer)

运行成功后，你会看到两段输出：

思考过程：模型自己写的草稿、公式、伪代码
最终答案：经过整理、面向用户的简洁回答

部署细节：SGLang、vLLM、本地工具

生产级部署：SGLang

python -m sglang.launch_server \
  --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 \
  --tp 8 \
  --context-length 262144 \
  --reasoning-parser deepseek-r1

--tp 8：8 张 GPU 并行
--reasoning-parser：自动识别思考标签，方便前端隐藏草稿

备用方案：vLLM

vllm serve Qwen/Qwen3-235B-A22B-Thinking-2507 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --enable-reasoning \
  --reasoning-parser deepseek_r1

如果你显存吃紧，可把 --max-model-len 降到 131072，但别低于 81920，否则长思考会被截断。

本地轻量尝试

Ollama / LMStudio / llama.cpp / MLX-LM / KTransformers 均已官宣支持
注意：量化版本会牺牲推理精度，数学与代码任务建议保持原精度

把它变成 Agent：工具调用与长对话

官方推荐用 Qwen-Agent 来调用外部工具，一个最小可运行的例子如下：

from qwen_agent.agents import Assistant

# 使用阿里灵积（DashScope）API
llm_cfg = {
    'model': 'qwen3-235b-a22b-thinking-2507',
    'model_type': 'qwen_dashscope',
}

# 定义工具：时间查询 + 网页抓取
tools = [
    {'mcpServers': {
        'time': {
            'command': 'uvx',
            'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
        },
        'fetch': {
            'command': 'uvx',
            'args': ['mcp-server-fetch']
        }
    }},
    'code_interpreter',
]

bot = Assistant(llm=llm_cfg, function_list=tools)

# 多轮对话
messages = [{'role': 'user', 'content': '访问 https://qwenlm.github.io/blog/ 并总结最新动态'}]
for rsp in bot.run(messages):
    pass
print(rsp)

核心要点：

工具调用模板与解析器已封装在 Qwen-Agent，不必自己写正则
历史对话只需保留最终答案，不要塞进思考过程，否则 token 暴涨

最佳实践：调参、上下文、输出长度

场景	推荐参数	理由
通用对话	Temperature=0.6, TopP=0.95, TopK=20, MinP=0	平衡创造性与稳定性
数学/代码竞赛	Temperature=0.3	降低随机性，保证答案一致
长文写作	max_new_tokens=81920	给模型足够空间展开逻辑链
多轮问答	历史记录不含 `<think>` 段落	减少冗余，提高速度
出现循环输出	适当调高 presence_penalty（0.5~1.5）	打断重复，但过高会打乱语言风格

常见问题解答（FAQ）

Q1：我只有 2×A100 40G，能跑吗？
可以，但需要把 --max-model-len 降到 32768 以下，并打开 8-bit 量化。数学与代码精度会下降，建议仅做演示。

Q2：为什么输出里只有 </think> 没有 <think>？
官方模板已自动在输入里追加 <think>，因此输出不再重复。这样做的好处是：前端可以直接隐藏思考过程，无需额外过滤。

Q3：它适合做聊天机器人吗？
适合高复杂度任务（科研、法律咨询、代码审计）。如果只是想闲聊，成本偏高，建议用普通版 Qwen3。

Q4：上下文 262K 是一次性塞满吗？
不是。262K 是上限，实际能利用多少取决于显存和 batch size。经验法则：8×A100 80G 下可稳定跑 128K 输入 + 32K 输出。

Q5：如何复现官方榜单分数？

数学/代码任务：max_tokens=81920
其他任务：max_tokens=32768
采样温度统一 0.6，TopP 0.95

使用官方提供的 system prompt：

Please reason step by step, and put your final answer within \boxed{}.

写在最后

如果你正面临以下场景：

需要一次性处理上百页技术文档并回答细节
希望让模型独立完成多步骤数学证明
想在本地部署一个可离线、可定制的“高阶推理引擎”

Qwen3-235B-A22B-Thinking-2507 是目前开源社区里为数不多能把这三件事同时做到 90 分以上的选择。它的代价是显存和电费——但比起人力成本，这笔账对很多团队来说已经划算了。