破解LLM难题：AggLM如何用强化学习超越多数投票

高效码农

3 月前

大型语言模型中的解决方案聚合：多数投票并非总是正确

大家好，如果你对大型语言模型（LLM）感兴趣，想知道如何让它们在解决复杂问题时更聪明一些，那你来对地方了。最近我一直在思考这个问题，特别是通过生成多个解决方案然后从中选择或聚合的方式来提升性能。但如果这些解决方案中最受欢迎的那个其实是错的呢？这就很有意思了。在这篇文章中，我们将一步步拆解一种名为AggLM的方法，它使用强化学习来训练模型更有效地聚合解决方案。我会用简单易懂的语言、表格和数学竞赛的例子来解释清楚。让我们开始吧。

为什么需要更好的解决方案聚合方式？

想象一下，你在解决一个难题。你让LLM生成几个可能的解决方案，希望其中一个是对的。传统上，你会用多数投票——选出现最多的那个答案。这听起来合理吧？但问题在于：有时正确答案是少数派。也许模型只对了一次，其他时候因为训练偏差而出错了。或者不同解决方案的部分是正确的，如果组合起来就能得到完整答案。

这在大规模测试时计算扩展中很常见。通过生成多个独立解决方案并聚合它们，我们可以在数学或代码生成等挑战任务上提升准确率。但简单的方法如多数投票或使用奖励模型排名往往忽略了那些隐藏的宝藏。AggLM通过训练模型推理候选解决方案、调和差异并合成更好的最终答案来改变这一点。它把聚合变成了一个可学习的技能。

为了直观理解AggLM的工作原理，这里是它的高层示意图：

AggLM是什么？它如何工作？

我们来聊聊核心想法。AggLM代表聚合语言模型。过程很简单：

从LLM采样多个解决方案。
将这些解决方案反馈给另一个LLM（或同一个），附上聚合指令。
聚合器审视解决方案、纠正错误、填补空白或组合想法，生成最终答案。

关键创新？我们使用可验证奖励的强化学习（RLVR）来训练这个聚合器。这意味着我们可以对照已知正确答案评估输出，并相应奖励模型。

问题表述

假设有一个问题 x 和它的真实解决方案 y★。解决方案模型生成候选 y1 到 ym。然后聚合器产生最终 ỹ。

解决方案独立采样： yi ~ pθ(y | x)
聚合解决方案： ỹ ~ pϕ(y | x, y1:m)

模型可以共享参数或分开。本文重点训练强大的聚合模型；在主要实验中，解决方案模型是现成的生成器，便于与基线比较。但我们也报告了共享参数的单一模型结果，性能相似。

训练数据与易难样本平衡

为了有效训练，我们创建解决方案集，并标记为“易”（多数正确）或“难”（多数错误）。我们平衡混合——比如50%易样本——帮助模型学会既选明显胜者，又恢复稀有正确答案。

我们使用组相对策略优化（GRPO），二元奖励：正确为1，否则为0。

这里是用于聚合的提示模板：

给定以下问题：
{problem}
和这些解决方案尝试：
{solutions}
这些解决方案可能全部、部分或都不正确或完整。请仔细审视提供的解决方案，将它们作为起点——纠正错误、填补空白和/或组合有用想法——生成最终、全面且正确的解决方案。

AggLM与其他方法相比如何？

你可能会问，“不是已经有方法了吗？”没错。我们来比较一下。

规则-based投票

多数投票：统计最频繁答案。简单，但如果多数错，就会放大错误。
变体：动态采样或启发式过滤。

这些方法可靠，但当正确解决方案是少数时失败。

模型-based选择和聚合

奖励模型：为候选打分，选最高（best-of-N）或加权投票。
提示聚合：如通用自一致性（USC），模型检查样本选最连贯的。

AggLM与之类似，但通过RL训练推理-focused聚合器来合成，而非仅靠提示。有些并发工作类似，但强调推理-oriented基模型和平衡训练混合对解锁更强性能很重要。

实验设置：AggLM如何测试？

为了验证，我们在DeepScaler的约4万数学问题上训练AggLM-1.7B。解决方案从Qwen3-1.7B的思考模式采样（带链式思考）。

每个问题采样128解决方案，分成16组8个。
单epoch训练，用GRPO、KL正则等。
在MathArena数据集评估：AIME24、AIME25、HMMT24、HMMT25（每个30题，高中奥赛水平）。

协议：为鲁棒性，平均多个组和生成的pass@1。

基线包括多数投票、AceMath奖励模型（7B和72B）的best-of-N、加权多数、未训练提示聚合。

测试解决方案模型：Qwen3-1.7B（思考和非思考）、Qwen3-8B（思考）。

关键结果：AggLM是否优于基线？

是的，一致优越。我们来看数据。

来自Qwen3-1.7B思考模式的聚合

聚合方法	模型	AIME24	AIME25	HMMT24	HMMT25
基线
pass@1	–	50.91	35.68	22.45	22.84
pass@8	–	76.48	61.38	36.67	44.27
聚合方法
多数投票	N/A	67.92	45.89	29.01	26.72
Best-of-N	AceMath-7B	59.39	40.30	28.09	22.50
	AceMath-72B	56.64	40.35	29.58	21.99
加权多数	AceMath-7B	64.09	39.49	25.04	17.71
	AceMath-72B	62.34	38.49	27.62	17.96
提示聚合	Qwen3-1.7B	63.57	44.85	29.52	27.91
RL训练聚合（我们的）	AggLM-1.7B	70.69	50.00	33.34	32.07

AggLM-1.7B在所有四个基准上最佳，将AIME25从35%提升到50%。

来自更强Qwen3-8B思考模式的聚合

聚合方法	模型	AIME24	AIME25	HMMT24	HMMT25
基线
pass@1	–	74.17	69.27	41.61	45.99
pass@8	–	85.57	83.54	61.67	65.47
聚合方法
多数投票	N/A	81.61	78.70	44.58	56.35
Best-of-N	AceMath-7B	78.60	70.89	37.39	44.17
	AceMath-72B	80.27	69.57	38.54	46.21
加权多数	AceMath-7B	77.03	68.15	38.41	36.13
	AceMath-72B	79.06	66.00	37.63	41.46
提示聚合	Qwen3-1.7B	79.90	76.73	48.58	57.63
RL训练聚合（我们的）	AggLM-1.7B	82.38	79.70	53.01	60.66

它泛化到更强模型，甚至优于72B奖励模型。

来自Qwen3-1.7B非思考模式的聚合

聚合方法	模型	AIME24	AIME25	HMMT24	HMMT25
基线
pass@1	–	11.82	10.00	6.25	3.39
pass@8	–	32.76	24.53	16.09	14.06
聚合方法
多数投票	N/A	18.07	15.42	8.75	7.29
Best-of-N	AceMath-7B	23.31	18.40	7.44	8.92
	AceMath-72B	26.33	18.62	10.23	8.97
加权多数	AceMath-7B	23.95	18.39	8.37	8.41
	AceMath-72B	26.54	18.83	9.72	8.09
提示聚合	Qwen3-1.7B	28.51	17.79	16.30	12.08
RL训练聚合（我们的）	AggLM-1.7B	29.96	19.77	17.03	12.76

即使在更弱、非推理输出上，AggLM通过合成纠正脱颖而出。

AggLM还令牌高效：用8个解决方案聚合优于多数投票的16个。

消融与深入分析：AggLM成功的关键是什么？

你可能好奇，“这是运气，还是有特定因素驱动提升？”我们来看消融实验。

与解决方案数量的扩展

性能随更多候选提升，AggLM扩展更好于多数投票。

多数答案大小的影响

提升最大当多数小（解决方案多样），推理帮助恢复少数。

训练混合消融

易样本%	AIME24	AIME25	HMMT24	HMMT25
0	64.22	46.06	27.80	28.73
5	68.93	48.65	33.31	31.91
10	69.85	49.60	33.71	32.31
20	69.72	49.11	33.74	31.20
50	70.69	50.00	33.34	32.07
270	66.20	46.70	30.01	28.94
未训练	63.57	44.85	29.52	27.91

5-50%易样本最佳——太少无法训练恢复，太多稀释挑战。

每个问题解决方案组数

组数	AIME24	AIME25	HMMT24	HMMT25
2	70.27	49.74	33.42	31.67
4	70.29	49.08	33.11	31.34
8	70.37	50.25	33.16	31.89
16	70.69	50.00	33.34	32.07

更多组略增多样益处，但回报递减。

聚合 vs. 额外数据

在相同数据上微调基模型无法匹配AggLM提升——是聚合训练起作用。

此外，聚合器生成令牌少于解决方案模型（约1/3），更高效。

解决方案LLM和聚合器可否同一模型？

主要实验分开，但多任务训练单一模型性能接近，优于无专用训练提示聚合。这表明聚合可融入后训练管道。

如何实现类似AggLM的解决方案聚合

如果你想，“我能自己试试吗？”这里是基于方法的逐步指南：

选择模型：从如Qwen3-1.7B的基LLM开始生成解决方案。
采样解决方案：对问题生成m=8解决方案，温度1.5。
准备数据：收集带真实答案的问题。采样组，平衡易难。
训练聚合器：用GRPO、二元奖励。提示如图2。
评估：在如AIME数据集测试，计算组平均pass@1。
调参：实验易样本%（试50%），组大小=8。

记住，用如math_verify库检查等价性。

FAQ：解答你对解决方案聚合和AggLM的疑问

大型语言模型中的解决方案聚合是什么？

它是将多个生成解决方案组合成更好最终答案。AggLM通过推理和RL训练模型来实现。

为什么多数投票在LLM解决方案中不总是有效？

因为正确答案可能为少数，由于模型错误。AggLM通过合成恢复它们。

可验证奖励的强化学习（RLVR）如何帮助聚合？

它允许在已知答案任务上训练，奖励正确聚合以学习选择和合成。

AggLM能处理不同模型的解决方案吗？

是的，它泛化到更强（如8B）或非思考模式，即使训练于1.7B思考。

训练的最佳易难样本混合是什么？

约5-50%易样本相对难——平衡学习无稀疏奖励。

AggLM比生成更多解决方案更高效吗？

绝对。用较少令牌实现更高准确率优于多数投票大组。

奖励模型与AggLM相比如何？

奖励模型（如AceMath-72B）往往逊于AggLM，尤其在思考模式，因为它们仅选择而非合成。

AggLM用哪些数据集评估？

数学竞赛：MathArena的AIME24/25、HMMT24/25，带数值答案。

AggLM适用于非数学任务吗？

论文聚焦数学，但有可验证奖励的推理任务原理可扩展。

为什么在AggLM中平衡训练数据？

教导易多数恢复和难少数合成，避免欠训练或奖励稀疏。

总结，AggLM告诉我们，将聚合视为可训练推理技能能进一步推动LLM。它不只是更多计算——是更智能计算。如果你有问题或想分享实验，欢迎评论。谢谢阅读！（字数：3782）