从“会做题”到“会反思”:一文看懂 MetaStone-S1 如何让 32 B 模型追上 OpenAI o3-mini
开场白:为什么大模型也需要“考试时的草稿纸”?
想象一下,你在考场上遇到一道数学压轴题。
如果只给一次答题机会,很多人可能会丢分;但如果允许你先打草稿、再挑最好的解法交卷,正确率立刻飙升。
大模型也是一样——传统“一步出答案”的模式已经摸到天花板,而 Test-Time Scaling(TTS,测试时扩算) 就是让模型在考试时“打草稿”的技术。
今天的主角 MetaStone-S1 把草稿纸升级成了“会自我批改的草稿纸”:
-
只用 32 B 参数; -
不需人工逐行标注; -
生成 + 打分 + 挑最优,全在一个网络里完成; -
数学、编程、中文推理三项任务 追平甚至超过 OpenAI o3-mini。
下面我们一起拆开它到底怎么做到的。
1. TTS 的两种姿势:内部 vs 外部
类型 | 内部 TTS(长链思考) | 外部 TTS(草稿+打分) |
---|---|---|
思路 | 模型一次输出超长思考链 | 模型一次出多条草稿,外部打分挑最佳 |
缺点 | 容易“想太多”还浪费 token | 需要额外打分模型,成本高 |
代表 | DeepSeek R1 | Best-of-N、Beam Search |
MetaStone-S1 把两者的优点合并:
-
继续保留“草稿”思想(外部 TTS); -
但打分模型 与主模型共享 99 % 参数,省算力; -
训练时 只用最终答案对错 就能学会打分,省人工。
2. 一张图看懂“反思式生成结构”
输入问题
│
├─ Policy Head → 生成 k 条思考链(<think>…</think>)
│
└─ SPRM Head → 给每条思考链逐句打分
↓
选分数最高的思考链 → 生成最终答案
图:Reflective Generative Form 框架(论文 Figure 2)
关键创新 1:统一接口
-
主模型与打分模型 共享 Transformer 主干,只加 53 M 额外参数(32 B 版本)。 -
推理时一次前向就能同时拿到“草稿”与“分数”,无需再跑一个 72 B 的 PRM。
关键创新 2:自监督打分
-
传统 PRM 需要人工标每一步对错,贵且慢。 -
MetaStone-S1 设计 SPR Loss: -
只看最终答案正确与否; -
每一步先由模型自己打“伪标签”,再和答案对错比对; -
只有伪标签与最终答案一致时才回传梯度,避免噪声。
-
3. 三步完成推理(开发者版指南)
步骤 | 作用 | 对应脚本 |
---|---|---|
① 启动打分服务 | 把 SPRM 封装成 API | score_model_queue.py |
② 启动生成服务 | 把主模型封装成 API | policy_model_queue.py |
③ 批量推理 | 调用上面两个 API 做 Best-of-N | inference.py |
官方仓库 README 已给出完整命令,复制粘贴即可跑通 AIME24 评测。
4. 实验结果:把 32 B 玩出了 70 B 的效果
4.1 主战场:数学 + 编程 + 中文
模型 | AIME24 | AIME25 | LiveCodeBench v5 | C-EVAL |
---|---|---|---|---|
OpenAI o3-mini-medium | 79.6 | 74.8 | 66.3 | 75.9 |
MetaStone-S1-32B-high | 85.2 | 73.6 | 64.2 | 89.7 |
提升 | +5.6 | –1.2 | –2.1 | +13.8 |
在数学与中文任务上已反超;编程略低,但仍领先大多数开源 32 B 模型。
4.2 小模型也能逆袭
规模 | 模型 | AIME24 | 对比同量级 |
---|---|---|---|
1.5 B | MetaStone-S1-high | 57.9 | 超过 R1-Distill-Qwen-7B |
7 B | MetaStone-S1-high | 70.2 | 超过 QwQ-32B |
说明 统一接口 + 自监督打分 对算力有限的同学极具性价比。
5. 深挖:aha moment 与 scaling law
5.1 “顿悟时刻”
训练曲线会出现一个 aha moment——原本正确/错误轨迹分数黏在一起,突然分开。
就像学生突然明白“哦,原来这里要通分!”——之后模型打分明显更准。

图:训练 20 k 步左右,红蓝曲线开始分叉(论文 Figure 4)
5.2 规模定律
把 计算预算 C = 模型参数 × 推理 token 数 画成横轴,
性能 ≈ log(C) 线性增长,直到 32× token 后边际收益递减。
因此官方推荐 Best-of-32 作为性价比拐点。
6. 开发者 FAQ
Q1:我只有 1 张 A100,能玩吗?
可以。1.5 B 版本仅需 5 M 额外参数,单卡即可推理;训练用 40 k 条开源数学题即可复现。
Q2:为什么不用现成的 Qwen2.5-Math-PRM 打分?
实验表明 72 B PRM 比 MetaStone-S1 自带的 5 M 头还低 1–2 分,并且推理延迟高 100×。
Q3:能否把 SPRM 接入 MCTS?
论文已验证:把 SPRM 作为 MCTS 节点价值函数,可在 AIME24 上把 1.5 B 模型从 39.3 提升到 52.8,虽仍低于 Best-of-N,但证明框架可扩展。
Q4:训练数据从哪里下?
官方把 NuminaMath、DeepScaleR、OREAL-RL 等多源数据清洗成 40 k 条,脚本已开源,按流程跑即可复现。
7. 快速上手:一条命令跑推理
# 1. 启动打分模型
CUDA_VISIBLE_DEVICES=0 python test/score_model_queue.py \
--model_path MetaStoneTec/XBai-o4 \
--score_model_dim 1536 --lang en --ip 0.0.0.0 --port 8001
# 2. 启动主模型
CUDA_VISIBLE_DEVICES=1 python test/policy_model_queue.py \
--model_path MetaStoneTec/XBai-o4 --ip 0.0.0.0 --port 8000
# 3. 跑 AIME24,16 并发,Best-of-2(low 模式)
python test/inference.py --task aime24 \
--input_file data/aime24.jsonl \
--output_file result.jsonl \
--n_samples 16 --branch 2 \
--response_api_url "http://localhost:8000" \
--score_api_url "http://localhost:8001/score"
# 4. 计算 Pass@1
python test/compute_metric.py --task aime24 \
--result_paths result.jsonl --N 2
8. 写在最后:为什么值得关心 MetaStone-S1?
-
省:统一网络 + 自监督,省显存、省标注、省训练费。 -
强:32 B 打平闭源 o3-mini,1.5 B 打平 7 B 竞品。 -
易用:脚本开源,单卡可跑,README 复制粘贴即可复现。 -
开放:Apache-2.0 License,可商用,可继续微调。
如果你正在寻找 低成本 + 高推理能力 的方案,无论是做竞赛数学、代码生成还是中文问答,MetaStone-S1 都值得一试。
引用格式(BibTeX)
@misc{wang2025testtimescalingreflectivegenerative,
title={Test-Time Scaling with Reflective Generative Model},
author={Zixiao Wang and Yuxin Wang and Xiaorui Wang and others},
year={2025},
eprint={2507.01951},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2507.01951}
}