在人工智能快速发展的今天,大型语言模型正朝着参数规模更大、上下文处理能力更强的方向演进。今天我们要深入探讨的Qwen3-Next-80B-A3B-Thinking模型,正是这一趋势下的重要成果。无论你是AI开发者、研究人员,还是对前沿技术感兴趣的学习者,这篇文章都将为你全面解析这一模型的技术特点、性能表现和实际应用方法。
什么是Qwen3-Next-80B-A3B-Thinking?
Qwen3-Next-80B-A3B-Thinking是Qwen团队推出的新一代基础模型系列中的首个版本。这个模型专门针对复杂推理任务进行了优化,在参数效率和推理速度方面都实现了显著提升。
简单来说,这就像是一个拥有超强思考能力的人工智能大脑。与普通模型直接输出答案不同,这个模型会先进行“思考”,生成内部推理过程,然后再给出最终答案。这种机制使得它在处理数学问题、编程挑战和复杂逻辑推理时表现尤为出色。

模型的核心技术突破
混合注意力机制:让长文本处理更高效
传统的语言模型在处理长文本时往往会遇到效率瓶颈。Qwen3-Next通过创新的混合注意力机制解决了这一问题:
-
Gated DeltaNet:专门负责处理超长上下文,能够高效捕捉文本中的长期依赖关系 -
Gated Attention:在需要时提供精确的注意力计算,保证模型的理解精度
这种组合就像是一个阅读专家,既能快速浏览长文档把握整体脉络,又能在关键细节处停下来仔细推敲。
高稀疏性专家混合:智能激活参数
想象一下,当你在解决不同问题时,大脑并不会激活所有神经元,而是根据任务类型调用相关的知识模块。Qwen3-Next的MoE架构正是基于类似原理:
-
总参数量达到800亿,但每次推理只激活30亿参数 -
拥有512个专家网络,每次只调用10个最相关的专家 -
包含1个共享专家,确保基础能力的稳定性
这种设计大幅降低了计算成本,使得这个庞大模型能够以较高的速度运行。
多令牌预测:加速推理过程
多令牌预测技术让模型能够同时预测后续多个令牌,这类似于熟练的阅读者能够预判下文内容。虽然这项功能在Hugging Face Transformers中尚未全面开放,但在专用推理框架中已经能够发挥显著效果。
稳定性优化:训练更稳定,效果更可靠
通过零中心化和权重衰减的层归一化等技术,模型在训练和微调过程中保持了更好的稳定性,这意味着开发者能够获得更一致、可靠的结果。
性能表现:数据说话
为了客观展示Qwen3-Next-80B-A3B-Thinking的实际能力,我们来看一组详细的性能对比数据:
| 测试领域 | 测试项目 | Qwen3-30B-A3B-Thinking | Qwen3-32B-Thinking | Gemini-2.5-Flash-Thinking | Qwen3-Next-80B-A3B-Thinking |
|---|---|---|---|---|---|
| 知识理解 | MMLU-Pro | 80.9 | 79.1 | 81.9 | 82.7 |
| 数学推理 | AIME25 | 85.0 | 72.9 | 72.0 | 87.8 |
| 编程能力 | LiveCodeBench | 66.0 | 60.6 | 61.2 | 68.7 |
| 代码生成 | OJBench | 25.1 | 24.1 | 23.5 | 29.7 |
| 指令遵循 | IFEval | 88.9 | 85.0 | 89.8 | 88.9 |
| 智能体任务 | TAU1-Retail | 67.8 | 52.8 | 65.2 | 69.6 |

从数据中可以看出,Qwen3-Next在大多数测试项目中都超越了前代模型和竞争对手,特别是在数学推理和编程任务中表现突出。
如何快速上手使用?
环境安装与基础配置
要开始使用Qwen3-Next-80B-A3B-Thinking,首先需要安装最新版本的Hugging Face Transformers:
pip install git+https://github.com/huggingface/transformers.git@main
请注意,如果使用旧版本会遇到KeyError: 'qwen3_next'错误,这是因为模型架构定义需要最新支持。
基础使用代码示例
下面是一个完整的使用示例,展示如何加载模型并生成包含思考过程的内容:
from transformers import AutoModelForCausalLM, AutoTokenizer
# 加载模型和分词器
model_name = "Qwen/Qwen3-Next-80B-A3B-Thinking"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
dtype="auto",
device_map="auto"
)
# 准备输入
prompt = "请解释人工智能在医疗领域的应用前景。"
messages = [
{"role": "user", "content": prompt},
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# 生成回复
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768,
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
# 解析思考内容和最终回复
try:
index = len(output_ids) - output_ids[::-1].index(151668) # 151668对应</think>
except ValueError:
index = 0
thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
final_content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")
print("思考过程:", thinking_content)
print("最终回复:", final_content)
需要注意的是,模型的输出会自动包含思考过程,但只会显示闭合标签</think>,这是正常现象。
高效部署方案
对于生产环境,我们推荐使用专门的推理框架来获得最佳性能。
使用SGLang部署
SGLang是一个专为大语言模型设计的高效服务框架:
# 安装SGLang
pip install 'sglang[all]>=0.5.2'
# 启动服务(4GPU并行)
python -m sglang.launch_server --model-path Qwen/Qwen3-Next-80B-A3B-Thinking --port 30000 --tp-size 4 --context-length 262144 --reasoning-parser deepseek-r1 --mem-fraction-static 0.8
如果需要启用多令牌预测优化:
python -m sglang.launch_server --model-path Qwen/Qwen3-Next-80B-A3B-Thinking --port 30000 --tp-size 4 --context-length 262144 --reasoning-parser deepseek-r1 --mem-fraction-static 0.8 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4
使用vLLM部署
vLLM是另一个流行的高吞吐量推理引擎:
# 安装vLLM
pip install 'vllm>=0.10.2'
# 启动基础服务
vllm serve Qwen/Qwen3-Next-80B-A3B-Thinking --port 8000 --tensor-parallel-size 4 --max-model-len 262144 --reasoning-parser deepseek_r1
# 启用MTP优化
vllm serve Qwen/Qwen3-Next-80B-A3B-Thinking --port 8000 --tensor-parallel-size 4 --max-model-len 262144 --reasoning-parser deepseek_r1 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
重要提醒:模型默认支持256K上下文长度,如果遇到内存不足问题,可以适当减小上下文长度,但为了保证推理质量,建议至少保持131,072的长度。
构建智能体应用
Qwen3-Next在工具调用方面表现出色,结合Qwen-Agent框架可以轻松构建复杂的智能体应用:
from qwen_agent.agents import Assistant
# 配置模型(使用DashScope服务)
llm_cfg = {
'model': 'Qwen3-Next-80B-A3B-Thinking',
'model_type': 'qwen_dashscope',
}
# 或者使用本地部署的OpenAI兼容接口
# llm_cfg = {
# 'model': 'Qwen3-Next-80B-A3B-Thinking',
# 'model_server': 'http://localhost:8000/v1',
# 'api_key': 'EMPTY',
# }
# 定义可用工具
tools = [
{'mcpServers': {
'time': {
'command': 'uvx',
'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
},
"fetch": {
"command": "uvx",
"args": ["mcp-server-fetch"]
}
}},
'code_interpreter', # 内置代码解释器
]
# 创建智能体
agent = Assistant(llm=llm_cfg, function_list=tools)
# 运行对话
messages = [{'role': 'user', 'content': '请获取当前时间并简要介绍Qwen的最新发展'}]
for response in agent.run(messages=messages):
# 处理流式响应
pass
print(response)
处理超长文本的技术方案
Qwen3-Next原生支持262,144个令牌的上下文长度,但如果需要处理更长的文档(比如达到100万字),可以使用YaRN扩展技术。
配置YaRN上下文扩展
有两种方法启用YaRN:
方法一:修改模型配置文件
在模型的config.json中添加:
{
"rope_scaling": {
"rope_type": "yarn",
"factor": 4.0,
"original_max_position_embeddings": 262144
}
}
方法二:通过命令行参数
vLLM用户:
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":262144}' --max-model-len 1010000
SGLang用户:
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":262144}}' --context-length 1010000
重要提示:当前开源的YaRN实现采用静态缩放,这意味着即使处理短文本也会应用缩放因子,可能影响短文本的处理效果。建议只在确实需要处理长文本时启用此功能,并根据实际需求调整缩放因子。
最佳实践指南
为了获得最优的模型表现,我们推荐以下配置和实践方法:
采样参数设置
-
温度:0.6 – 平衡创造性和一致性 -
TopP:0.95 – 保持输出的多样性 -
TopK:20 – 限制候选词范围 -
MinP:0 – 不设置最小概率阈值
如果遇到重复生成的问题,可以适当调整presence_penalty参数(0-2之间),但注意过高的值可能导致语言混合或性能下降。
输出长度建议
-
常规任务:32,768令牌 – 满足大多数应用场景 -
复杂推理任务:81,920令牌 – 为数学证明、复杂编程题提供充足空间
输出格式标准化
在不同的应用场景中,通过提示词工程标准化输出格式可以显著提升结果质量:
数学问题提示词:
请逐步推理,并将最终答案放在\\boxed{}中。
选择题提示词:
请将你的选择以JSON格式输出,例如:{"answer": "C"}
多轮对话处理
在进行多轮对话时,历史记录中应该只包含模型的最终输出,而不包含思考过程。这在官方提供的Jinja2聊天模板中已经自动处理,但如果使用其他框架,需要开发者手动确保符合这一规范。
常见问题解答
Q: Qwen3-Next-80B-A3B-Thinking与其他版本的主要区别是什么?
A: 这个版本专门针对复杂推理任务优化,具备思考模式,会在生成最终答案前先进行内部推理。相比前代模型,它在参数效率、推理速度和长文本处理能力方面都有显著提升。
Q: 模型运行需要多少GPU内存?
A: 由于采用MoE架构,虽然总参数量为800亿,但每次推理只激活30亿参数。使用4卡并行时,配合适当的量化技术,可以在合理的内存配置下运行。具体需求取决于上下文长度和批处理大小。
Q: 如何处理模型输出中的思考内容?
A: 模型的思考内容会自动包含在输出中,以</think>标签结束。你可以按照上文提供的代码示例来分离思考内容和最终回复。如果不需要思考过程,可以考虑使用非Thinking版本的模型。
Q: 模型支持多语言吗?
A: 是的,从性能表格中的MultiIF、MMLU-ProX等多语言测试结果可以看出,模型具备良好的多语言处理能力,特别是在中英文方面表现优异。
Q: 如何进一步提升推理速度?
A: 除了使用SGLang或vLLM等优化框架外,还可以考虑启用多令牌预测功能,安装flash-linear-attention和causal-conv1d等加速库,并根据实际需求调整并行策略和量化精度。
Q: 模型在哪些应用场景中表现最好?
A: 该模型特别适合需要复杂推理的任务,包括:数学问题求解、代码生成与调试、科学计算、长文档分析、逻辑推理游戏、研究辅助等场景。
技术贡献与引用
如果你在研究或项目中使用Qwen3-Next,建议引用以下技术报告:
@misc{qwen3technicalreport,
title={Qwen3 Technical Report},
author={Qwen Team},
year={2025},
eprint={2505.09388},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.09388},
}
@article{qwen2.5-1m,
title={Qwen2.5-1M Technical Report},
author={An Yang and Bowen Yu and Chengyuan Li and Dayiheng Liu and Fei Huang and Haoyan Huang and Jianhong Tu and Jianwei Zhang and Jingren Zhou and Junyang Lin and Kai Dang and Kexin Yang and Le Yu and Mei Li and Minmin Sun and Qin Zhu and Rui Men and Tao He and Weijia Xu and Wenbiao Yin and Wenyuan Yu and Xiafei Qiu and Xingzhang Ren and Xinlong Yang and Yong Li and Zhiying Xu and Zipeng Zhang},
journal={arXiv preprint arXiv:2501.15383},
year={2025}
}
结语
Qwen3-Next-80B-A3B-Thinking代表了当前大语言模型技术的前沿水平,特别是在推理能力和效率平衡方面取得了重要突破。通过本文的技术解析和实践指南,希望能够帮助开发者更好地理解和应用这一强大工具。
无论你是要构建下一代AI应用,还是进行前沿的AI研究,这个模型都值得你深入探索。记住,合适的工具配置和使用方法往往比模型本身的能力更重要——花时间理解这些最佳实践,将会让你的项目事半功倍。
技术的价值在于应用,期待看到大家基于Qwen3-Next创造的创新成果!

