你是否好奇过,能否在不需要超级计算机的情况下,获得大型 AI 系统的强大计算能力?新浪微博的团队正是基于这样一个问题,开发出了 VibeThinker-1.5B。这不仅仅是另一个语言模型,而是一款专为处理复杂推理任务而设计的 1.5 亿参数稠密模型,比如数学难题和编程挑战。更妙的是,它在体型上远小于 DeepSeek R1(6710 亿参数)的庞然大物,却能在基准测试中与之匹敌。
在这篇文章中,我们将一步步剖析 VibeThinker-1.5B 的核心机制,从其创新训练方法到实际性能数据。我会用像咖啡闲聊一样的轻松方式来讲解,帮助你理解这款模型如何颠覆“越大越好”的传统观念。如果你是一名研究生初入 AI 领域,或是工程师对高效模型感兴趣,那就继续读下去吧——我们会从基础入手,深入技术细节,还会教你如何在自己的机器上运行它。
为什么要在推理任务上押注小模型?
先来看大局。大多数 AI 从业者认为,要应对复杂逻辑——比如解一个棘手的代数题或调试代码——就必须用数百亿参数的模型。这就好比盖高楼:层数越多,越稳固。但如果一座精心设计的平房也能胜任,且成本只是高楼的零头呢?
VibeThinker-1.5B 正是要挑战这个观点。它基于一个仅 1.5 亿参数的基础模型,通过一种名为“频谱到信号原则”(Spectrum-to-Signal Principle,简称 SSP)的后训练方法进行优化。这种方法不是靠蛮力扩展规模,而是巧妙引导模型在训练中广泛探索想法,然后聚焦最佳路径。结果呢?它比 Kimi K2(超过 1 万亿参数)小 100 到 600 倍,却在基准测试中表现出色。
你可能会问:“听起来不错,但实际效果如何?”答案是肯定的。在 AIME24 数学测试中,它得分 80.3,略胜 DeepSeek R1 的 79.8。这不是运气,而是跨编码和其他逻辑密集任务的一贯表现。稍后我们会细聊这些数据。现在,你只需知道,这款模型为那些没有海量 GPU 资源的科研者和开发者打开了大门。它让强大的推理能力变得普惠,而不是专属。

图 1:VibeThinker-1.5B 在关键数学和编码基准上的得分对比。注意它在 AIME24 和 LiveCodeBench V6 中的领先优势。
核心理念:频谱到信号原则(SSP)
VibeThinker-1.5B 的灵魂是 SSP 框架,它将后训练分为两个智慧阶段:先构建多样性,再精炼精度。传统训练往往急于追逐单一“完美”答案,但这可能让模型陷入狭隘思维。SSP 的观点是:“先撒开大网,再收紧赢家。”
第一阶段:频谱阶段(监督微调,SFT)
这里的目标是教模型为同一问题生成多种解决方案。不是只奖励单一最佳响应(Pass@1 准确率),而是聚焦 Pass@K——即在 K 次尝试中,至少一次命中的概率有多高?
-
多样性为什么重要:现实中,解谜不是一条路走到底,而是多角度尝试直到灵光一闪。低多样性会导致重复输出,就像学生卡在同一个错误公式上。高多样性?那就是探索多条路径,提升创造力和鲁棒性。 -
实现方式:采用“两阶段多样性探索蒸馏”方法。第一阶段:从更大教师模型中蒸馏灵感。第二阶段:精炼以保持多样性,同时不失质量。
这个阶段像打造一个“频谱”般的答案库,让模型拥有工具箱,而不是单一锤子。
第二阶段:信号阶段(强化学习,RL)
有了这个工具箱,RL 就来挑选并放大最强的工具。它使用“最大熵引导策略优化”(MaxEnt-Guided Policy Optimization,简称 MGPO),优先训练模型最不确定的地方——通过最大化熵来高效探索。
-
关键改进:不像标准 RL 可能在简单胜局上反复钻牛角尖,MGPO 聚焦高不确定性问题。这加速学习,避免过拟合。 -
收益:从多样基础出发,RL 提升正确路径的生成概率,将潜力转化为精度。
这两个阶段让 SSP 成为一种协同:SFT 广泛探索,RL 深度利用。就像训练运动员——先练全面技能,再专攻强项。

图 2:SSP 管道的可视化分解,展示 SFT 如何构建频谱,RL 如何放大信号。
如果你好奇这与标准方法有何不同,不妨想想 Group Relative Policy Optimization(GRPO),一种常见 RL 工具。GRPO 通过采样响应组,并根据组内奖励统计(均值和标准差)计算相对优势,减少噪声而无需外部评论模型。VibeThinker 在此基础上叠加 SSP,效果更佳。
突出性能:数据说话
来点硬证据。VibeThinker-1.5B 在模拟真实推理需求的严苛基准上接受测试。下面是与竞争对手的关键结果表格:
| 基准测试 | VibeThinker-1.5B | DeepSeek R1 (6710 亿参数) | GPT-OSS-20B Medium | Magistral Medium | 基础模型得分 |
|---|---|---|---|---|---|
| AIME24 | 80.3 | 79.8 | – | – | 6.7 |
| AIME25 | 74.4 | 70.0 | 72.1 | – | 4.3 |
| HMMT25 | 50.4 | 41.7 | – | – | 0.6 |
| LiveCodeBench V6 | 51.1 | – | – | 50.3 | 0.0 |
这些数据不是挑拣出来的,而是来自数学奥林匹克式问题(AIME、HMMT)和编码竞赛(LiveCodeBench)的严格评估。基础模型——SSP 训练前——勉强及格,但训练后?脱胎换骨。
-
数学优势:在三个数学测试中均胜 DeepSeek R1(大 400 倍)。这对需要逐步逻辑的任务意义重大。 -
编码实力:略超 Magistral Medium,并碾压非推理模型如 GPT-4.1(51.1 vs. 44.7)。 -
总体:与开源重量级如 GPT-OSS-20B Medium 相当,尽管小 13 倍。
直观来看:

图 3:并排得分显示 VibeThinker-1.5B 在数学和编码评估中稳稳对抗更大模型。

图 4:效率曲线——VibeThinker-1.5B 用低参数实现高分,重塑“越大越好”的界线。
实际意义是什么?如果你在处理竞赛数学或生成代码片段,这款模型能提供可靠输出,而无需大系统的开销。
成本视角:AI 开发的民主化
训练成本是许多人的拦路虎。DeepSeek R1?29.4 万美元。MiniMax-M1?53.5 万美元。VibeThinker-1.5B?仅 7800 美元——降幅 30 到 60 倍。这不是魔法,而是高效设计。
-
分解:SSP 将计算聚焦关键处——多样探索和针对性 RL——避免浪费性扩展。 -
更广影响:低成本意味着更多团队(大学、初创)能上手。不再被大厂 GPU 预算垄断。
这不只是省钱;这是包容性。想象一个研究生实验室在普通集群上跑前沿研究。

图 5:后训练费用:VibeThinker-1.5B vs. 大模型——聪明方法胜过纯规模的证明。
入门指南:下载与运行 VibeThinker-1.5B
想试试?模型开源了,检查点在 Hugging Face 和 ModelScope 上。MIT 许可,随意修改。
一步步设置
-
前提:Python 3.12+ 环境。通过 pip 安装 transformers(版本 >=4.54.0): pip install transformers>=4.54.0。为更快推理,安装 vLLM (0.10.1) 或 SGLang (>=0.4.9.post6)。 -
下载:从 Hugging Face 获取。用 git clone或网页界面。 -
加载模型:用这个 Python 类简化推理:
from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
class VibeThinker:
def __init__(self, model_path):
self.model_path = model_path
self.model = AutoModelForCausalLM.from_pretrained(
self.model_path,
low_cpu_mem_usage=True,
torch_dtype="bfloat16",
device_map="auto"
)
self.tokenizer = AutoTokenizer.from_pretrained(self.model_path, trust_remote_code=True)
def infer_text(self, prompt):
messages = [{"role": "user", "content": prompt}]
text = self.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = self.tokenizer([text], return_tensors="pt").to(self.model.device)
generation_config = dict(
max_new_tokens=40960,
do_sample=True,
temperature=0.6, # 或 1.0——根据需要试试
top_p=0.95,
top_k=None # 在 vLLM/SGLang 中设为 -1
)
generated_ids = self.model.generate(
**model_inputs,
generation_config=GenerationConfig(**generation_config)
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = self.tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
return response
if __name__ == '__main__':
model = VibeThinker('WeiboAI/VibeThinker-1.5B') # 你的本地路径
prompt = '求解:x^2 从 0 到 1 的积分是多少?'
print(model.infer_text(prompt))
-
最佳实践:用于竞赛数学/编码。参数:温度 0.6/1.0,最大 token 40960,top_p 0.95,top_k -1(优化引擎中)。期待思维链式输出。 -
自测评估:用提供的脚本重现结果:数学评估 和 编码评估。基准样本响应在 这个 Google Drive 文件夹。
故障排除提示:如果推理慢,切换到 vLLM——它优化长序列。
重现评估:动手指南
想自己验证基准得分?仓库里有现成评估代码。
如何运行数学评估
-
进入 ./eval/math/。 -
遵循 README.md:安装依赖,加载模型,运行 python evaluate_aime.py --model_path your_path。 -
输出:AIME24/25、HMMT25 的 Pass@1 得分。默认参数下,AIME24 约 80%。
如何运行编码评估
-
进入 ./eval/code/。 -
设置: pip install -r requirements.txt。 -
执行: python livecodebench_eval.py。 -
指标:V6 数据集的功能正确性——目标 51%+。
这些工具用标准配置,你的成绩应与之接近。是个好机会调整参数,亲眼见 SSP 威力。
VibeThinker-1.5B 常见问题解答
VibeThinker-1.5B 到底适合做什么?
它专为推理密集任务设计,如数学竞赛(例如 AIME 问题)和编码挑战(例如 LiveCodeBench)。适合逐步逻辑,而非闲聊。
SSP 与常规微调有何不同?
常规 SFT 最大化单次准确;SSP 分开处理——SFT 构建多样选项(Pass@K),RL 通过 MGPO 精炼最佳。像头脑风暴后编辑。
能在笔记本上运行吗?
能,用 bfloat16 和 device_map=”auto”,适合消费级 GPU(如 RTX 3060)。长生成用 vLLM 助攻。
为什么训练成本这么低?
SSP 高效分配计算——无需巨型集群。7800 美元覆盖全后训练管道。
它在所有领域都比大模型强吗?
还没——通用知识与巨头有差距。但在数学/编码推理中?常胜或平手,尽管体型小。
如何在工作中引用它?
用:@misc{xu2025tinymodelbiglogic, title={Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B}, author={Sen Xu and Yi Zhou and Wei Wang and Jixin Min and Zhibin Yin and Yingwei Dai and Shixi Liu and Lianyu Pang and Yirong Chen and Junlin Zhang}, year={2025}, eprint={2511.06221}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2511.06221}}。完整论文在 arXiv。
结语:这对你意味着什么
VibeThinker-1.5B 不是炒作——它是证明。小模型,经 SSP 等精心调优,能匹敌大联盟的推理智慧。无论你优化代码、解方程,还是好奇 AI 效率,这都铺开实用路径。
团队于 2025 年 11 月 11 日开源它,以激发更多紧凑推理研究。下载权重,跑个评估,自己瞧瞧。有改动或结果?GitHub 等着你: https://github.com/WeiboAI/VibeThinker。
你怎么看——小模型能改变 AI 构建方式吗?下方留言你的实验心得,我很期待。

