Enigmata:提升大型语言模型逻辑推理能力的全新工具

在人工智能领域,大型语言模型(LLM)的进步令人瞩目。从数学计算到编程任务,这些模型展现了惊人的能力。然而,当涉及到不需要专业知识的纯粹逻辑推理谜题时,现有模型仍存在不足。为了解决这一问题,研究人员推出了 Enigmata,这是一个专为提升 LLM 谜题推理技能而设计的综合工具套件。

一、Enigmata 的核心构成

(一)Enigmata-Data:丰富的谜题数据集

Enigmata-Data 包含 36 种不同类型的任务,涵盖 7 个主要类别。这些类别包括密码谜题、算术谜题、逻辑谜题、网格谜题、图谜题、搜索谜题和序列谜题。每个任务都配备了自动化的生成器和验证器。

这种设计具备三大优势:

  • 无限自我验证谜题提示 :生成器能够创建大量谜题实例,并且每个谜题都带有验证器,可即时检查答案的正确性。这使得谜题能够轻松融入强化学习验证回报(RLVR)框架,支持长链思考训练。
  • 程序化难度控制 :研究人员可以精确控制谜题的难度,例如通过调整网格大小或空白单元格数量来改变 Binario 谜题的难度。这种控制能力便于混合不同难度比例的谜题,开展关于课程设计如何影响强化学习的细致实验。
  • 任意样本数量生成 :生成器可根据需求产生任意数量的样本,有助于平衡不同任务的训练数据量,研究跨任务泛化能力。

与其他谜题资源相比,Enigmata 是唯一一个涵盖多种任务类别、具备扩展性、提供自动验证且公开可用的数据集。

(二)Enigmata-Eval:严格的基准测试

基于 Enigmata-Data,研究人员开发了 Enigmata-Eval 基准测试。该基准测试包含 4,758 个谜题实例,涵盖了从简单到复杂的各种难度水平。在构建过程中,严格分离了训练集和评估集,确保了评估结果的客观性和准确性。

(三)Enigmata-Model:优化的训练方案

Enigmata-Model 提供了一种系统性的训练方法,帮助模型在谜题任务上取得卓越表现。该方法包含以下几个关键步骤:

  • 拒绝微调(Rejection Fine-tuning,RFT) :通过结合高质量的数学问题和谜题解决方案,为模型建立了坚实的推理基础。在谜题部分,从 Enigmata 数据集中均匀采样任务和难度级别,确保了推理模式的全面覆盖和平衡分布。数学部分则使用了精心策划的高质量问题,与谜题部分保持 1:1 的比例,促进了模型在不同领域推理能力的全面发展。
  • 可验证谜题的强化学习(RL with Verifiable Puzzles) :采用 VC-PPO(一种 PPO 的变体)对模型进行训练。每个任务都有一个自动验证器,能够即时对模型的回答进行评分,从而指导 VC-PPO 更新策略。对于具有自动生成器的任务,可以根据需要创建任意难度的示例;而对于从固定池中采样的任务,则直接使用池中的数据。

二、实验与成果

(一)实验设置

研究人员在多个具有挑战性的推理基准测试上对模型进行了评估,包括 Enigmata-Eval、ARC-AGI 1、ARC-AGI 2 和 KOR-Bench 等。同时,为了检验模型的泛化能力,还对模型进行了高级数学基准测试 AIME 2024 的评估。所有模型均基于 Qwen2.5-32B-Instruct 进行训练,经过 RFT 和 RL 训练后得到了性能更优的 Qwen2.5-32B-Enigmata 模型。

(二)主要成果

  • 在谜题推理基准测试中的卓越表现 :Qwen2.5-32B-Enigmata 在 Enigmata-Eval 基准测试中取得了 32.8% 的准确率,超越了 o3-mini-high(25.8%)和 o1(29.0%)等模型。在 ARC-AGI 基准测试中,该模型同样表现出色,准确率达到 0.6%,超过了其他强大学习推理模型,如 Gemini 2.5 Pro(1.4%)、o4-mini-high(2.6%)和 o3-mini-high(0.4%)。
  • 出色的泛化能力 :除了在谜题推理任务上表现出色外,Qwen2.5-32B-Enigmata 在数学推理方面也展现出了良好的泛化能力。例如,在 AIME 2024 测试中,该模型的准确率为 60.6%,与训练前的 Qwen2.5-32B-Instruct(16.6%)相比有了显著提升。这表明该模型在提升谜题推理能力的同时,也保留了原有的数学推理能力,且没有出现多任务训练中的性能下降问题。
  • 在更大模型上的扩展优势 :当研究人员将 Enigmata 的谜题数据应用于更大的模型(如 Seed1.5-Thinking,激活参数为 20B,总参数为 200B)时,发现其在高级数学和 STEM 推理任务上的 SoTA(最佳)性能得到了进一步提升。例如,在 AIME(2024-2025)、BeyondAIME 和 GPQA(Diamond)等测试中,使用 Enigmata 数据训练的 Seed1.5-Thinking-Enigmata 模型相较于原始 Seed1.5-Thinking 模型,在多个指标上都有所提高。这表明 Enigmata 的谜题数据对于提升模型的通用推理能力具有积极作用,甚至可以看作是在更大模型上扩展推理能力范围的一种 “免费午餐”。

三、深入分析

(一)不同谜题类别上的表现

在 Enigmata-Eval 的详细分析中,Qwen2.5-32B-Enigmata 在结构化推理类别(如密码、算术和逻辑任务)上表现尤为出色,准确率分别达到了 96.0%、93.7% 和 90.2%。这表明该训练方法有效地培养了模型在明确约束和模式下的基于规则的推理能力。此外,在需要战略性探索解决方案空间和规划能力的搜索任务上,该模型也展现出了竞争力,超过了大多数基线模型。然而,在空间和序列任务上,模型的表现相对较弱,这为未来的研究提供了方向。

(二)训练数据规模的影响

研究人员还研究了训练数据规模对模型性能的影响。结果表明,在第二阶段的多阶段训练中,少量的 Enigmata-Train 数据就能显著提高 Enigmata-Eval 的性能,同时更好地保留第一阶段的知识和 OOD(out-of-domain,领域外)性能。随着 Enigmata-Train 数据的增加,模型在领域内的 Enigmata-Eval 性能逐渐提高。但过多的 Enigmata-Train 数据会导致灾难性遗忘,使 OOD 性能略有下降。

(三)数据难度控制的作用

通过对比不同的数据难度分布策略,研究人员发现平衡的难度比例(1:1:1)能使模型在复杂的推理任务上表现得更加稳健。此外,Enigmata 数据中基于难度标签的简单难度控制方法与历史奖励变化(HRV)等基线数据选择策略相比,在 Enigmata-Eval 上表现相当,但在 OOD 基准测试上表现更优。

(四)多任务训练的比较

对于多任务训练的两种方法(Mix-Training RL 和 Multi-stage RL),实验结果显示它们各有优势。Mix-Training RL 能够广泛接触不同类型的谜题,有助于提升模型的泛化能力;而 Multi-stage RL 则通过循序渐进的方式,先构建核心技能再引入新挑战,有助于模型更有效地学习复杂推理,并保持在早期任务上的良好性能。

四、结论与展望

Enigmata 作为一个综合工具套件,通过提供可扩展、可控制难度和自动验证的谜题数据集,以及与 RLVR 训练范式无缝集成的训练方法,为提升 LLM 的逻辑推理能力提供了坚实的基础。实验结果表明,Enigmata 能够显著提高模型在谜题推理任务上的性能,并展现出良好的泛化能力。尤其是在更大模型上的应用,Enigmata 的谜题数据能够带来额外的益处,进一步提升模型在数学和 STEM 推理等领域的性能。

未来,研究人员可以继续探索 Enigmata 在更多模型和算法上的应用,进一步拓展其在不同领域和任务中的潜力。同时,随着技术的不断发展,Enigmata 也有望不断进化和完善,为推动大型语言模型的逻辑推理能力发展做出更大的贡献。