从“会做题”到“会反思”：一文看懂 MetaStone-S1 如何让 32 B 模型追上 OpenAI o3-mini

开场白：为什么大模型也需要“考试时的草稿纸”？

想象一下，你在考场上遇到一道数学压轴题。
如果只给一次答题机会，很多人可能会丢分；但如果允许你先打草稿、再挑最好的解法交卷，正确率立刻飙升。
大模型也是一样——传统“一步出答案”的模式已经摸到天花板，而 Test-Time Scaling（TTS，测试时扩算） 就是让模型在考试时“打草稿”的技术。

今天的主角 MetaStone-S1 把草稿纸升级成了“会自我批改的草稿纸”：

只用 32 B 参数；
不需人工逐行标注；
生成 + 打分 + 挑最优，全在一个网络里完成；
数学、编程、中文推理三项任务 追平甚至超过 OpenAI o3-mini。

下面我们一起拆开它到底怎么做到的。

1. TTS 的两种姿势：内部 vs 外部

类型	内部 TTS（长链思考）	外部 TTS（草稿+打分）
思路	模型一次输出超长思考链	模型一次出多条草稿，外部打分挑最佳
缺点	容易“想太多”还浪费 token	需要额外打分模型，成本高
代表	DeepSeek R1	Best-of-N、Beam Search

MetaStone-S1 把两者的优点合并：

继续保留“草稿”思想（外部 TTS）；
但打分模型 与主模型共享 99 % 参数，省算力；
训练时 只用最终答案对错 就能学会打分，省人工。

2. 一张图看懂“反思式生成结构”

输入问题
   │
   ├─ Policy Head → 生成 k 条思考链（<think>…</think>）
   │
   └─ SPRM Head → 给每条思考链逐句打分
        ↓
选分数最高的思考链 → 生成最终答案

图：Reflective Generative Form 框架（论文 Figure 2）

关键创新 1：统一接口

主模型与打分模型 共享 Transformer 主干，只加 53 M 额外参数（32 B 版本）。
推理时一次前向就能同时拿到“草稿”与“分数”，无需再跑一个 72 B 的 PRM。

关键创新 2：自监督打分

传统 PRM 需要人工标每一步对错，贵且慢。
MetaStone-S1 设计 SPR Loss：
- 只看最终答案正确与否；
- 每一步先由模型自己打“伪标签”，再和答案对错比对；
- 只有伪标签与最终答案一致时才回传梯度，避免噪声。

3. 三步完成推理（开发者版指南）

步骤	作用	对应脚本
① 启动打分服务	把 SPRM 封装成 API	`score_model_queue.py`
② 启动生成服务	把主模型封装成 API	`policy_model_queue.py`
③ 批量推理	调用上面两个 API 做 Best-of-N	`inference.py`

官方仓库 README 已给出完整命令，复制粘贴即可跑通 AIME24 评测。

4. 实验结果：把 32 B 玩出了 70 B 的效果

4.1 主战场：数学 + 编程 + 中文

模型	AIME24	AIME25	LiveCodeBench v5	C-EVAL
OpenAI o3-mini-medium	79.6	74.8	66.3	75.9
MetaStone-S1-32B-high	85.2	73.6	64.2	89.7
提升	+5.6	–1.2	–2.1	+13.8

在数学与中文任务上已反超；编程略低，但仍领先大多数开源 32 B 模型。

4.2 小模型也能逆袭

规模	模型	AIME24	对比同量级
1.5 B	MetaStone-S1-high	57.9	超过 R1-Distill-Qwen-7B
7 B	MetaStone-S1-high	70.2	超过 QwQ-32B

说明 统一接口 + 自监督打分 对算力有限的同学极具性价比。

5. 深挖：aha moment 与 scaling law

5.1 “顿悟时刻”

训练曲线会出现一个 aha moment——原本正确/错误轨迹分数黏在一起，突然分开。
就像学生突然明白“哦，原来这里要通分！”——之后模型打分明显更准。

图：训练 20 k 步左右，红蓝曲线开始分叉（论文 Figure 4）

5.2 规模定律

把 计算预算 C = 模型参数 × 推理 token 数 画成横轴，
性能 ≈ log(C) 线性增长，直到 32× token 后边际收益递减。
因此官方推荐 Best-of-32 作为性价比拐点。

6. 开发者 FAQ

Q1：我只有 1 张 A100，能玩吗？
可以。1.5 B 版本仅需 5 M 额外参数，单卡即可推理；训练用 40 k 条开源数学题即可复现。

Q2：为什么不用现成的 Qwen2.5-Math-PRM 打分？
实验表明 72 B PRM 比 MetaStone-S1 自带的 5 M 头还低 1–2 分，并且推理延迟高 100×。

Q3：能否把 SPRM 接入 MCTS？
论文已验证：把 SPRM 作为 MCTS 节点价值函数，可在 AIME24 上把 1.5 B 模型从 39.3 提升到 52.8，虽仍低于 Best-of-N，但证明框架可扩展。

Q4：训练数据从哪里下？
官方把 NuminaMath、DeepScaleR、OREAL-RL 等多源数据清洗成 40 k 条，脚本已开源，按流程跑即可复现。

7. 快速上手：一条命令跑推理

# 1. 启动打分模型
CUDA_VISIBLE_DEVICES=0 python test/score_model_queue.py \
  --model_path MetaStoneTec/XBai-o4 \
  --score_model_dim 1536 --lang en --ip 0.0.0.0 --port 8001

# 2. 启动主模型
CUDA_VISIBLE_DEVICES=1 python test/policy_model_queue.py \
  --model_path MetaStoneTec/XBai-o4 --ip 0.0.0.0 --port 8000

# 3. 跑 AIME24，16 并发，Best-of-2（low 模式）
python test/inference.py --task aime24 \
  --input_file data/aime24.jsonl \
  --output_file result.jsonl \
  --n_samples 16 --branch 2 \
  --response_api_url "http://localhost:8000" \
  --score_api_url "http://localhost:8001/score"

# 4. 计算 Pass@1
python test/compute_metric.py --task aime24 \
  --result_paths result.jsonl --N 2

8. 写在最后：为什么值得关心 MetaStone-S1？

省：统一网络 + 自监督，省显存、省标注、省训练费。
强：32 B 打平闭源 o3-mini，1.5 B 打平 7 B 竞品。
易用：脚本开源，单卡可跑，README 复制粘贴即可复现。
开放：Apache-2.0 License，可商用，可继续微调。

如果你正在寻找 低成本 + 高推理能力 的方案，无论是做竞赛数学、代码生成还是中文问答，MetaStone-S1 都值得一试。

引用格式（BibTeX）

@misc{wang2025testtimescalingreflectivegenerative,
  title={Test-Time Scaling with Reflective Generative Model},
  author={Zixiao Wang and Yuxin Wang and Xiaorui Wang and others},
  year={2025},
  eprint={2507.01951},
  archivePrefix={arXiv},
  primaryClass={cs.LG},
  url={https://arxiv.org/abs/2507.01951}
}

32B小模型逆袭OpenAI！MetaStone-S1的’自我批改草稿纸’黑科技解密