在AI模型规模膨胀至万亿参数的时代,一个仅相当于两张手机照片大小的模型,正在ARC-AGI挑战赛上击败包括DeepSeek-R1、Gemini 2.5 Pro在内的众多庞然大物。

“更大就一定更好吗?”这个问题在人工智能领域萦绕多年。当各大科技公司竞相推出参数越来越大的模型时,三星SAIL蒙特利尔实验室的Alexia Jolicoeur-Martineau却走了一条相反的路。

她开发的Tiny Recursive Model(TRM)仅用700万参数——比许多图像分类模型还要小,就在ARC-AGI-1上取得了45%的准确率,在更新更难的ARC-AGI-2上也达到了8%,超越了参数量大她数万倍的竞争对手。

为什么ARC-AGI如此重要?

ARC-AGI(Abstraction and Reasoning Corpus)被业界誉为“AI的终极试金石”。与依赖大量训练数据的传统基准不同,ARC专注于衡量模型的抽象推理和泛化能力——这些正是人类智能的核心。

想象一下这样的场景:你看到几个输入输出示例,然后需要解决一个遵循相同抽象规则的新问题。这正是ARC的任务形式,也正是大多数LLM惨败的地方。

Gemini 2.5 ProDeepSeek-R1o3-mini-high等千亿级模型在此表现平平,不是因为它们不够“聪明”,而是因为它们的推理方式与人类不同。它们像是一个学识渊博但思维僵化的学者,而TRM更像是一个灵活的问题解决者。

TRM的核心洞察:递归胜过参数量

传统LLM采用自回归生成方式——一旦开始输出,就很难回头修正错误。这就像是在迷雾中前行,每一步都建立在上一步的基础上,一旦走错就难以挽回。

TRM采用了完全不同的策略:“起草-修订”循环

TRM架构图

TRM的工作原理令人想起人类解决复杂问题的方式。当我们面对难题时,不会一股脑地给出最终答案,而是:

  1. 先形成一个初步解决方案(起草)
  2. 反复检查、推敲、改进(修订)
  3. 最终确定答案

具体来说,TRM维护两个核心状态:

  • 当前答案(y):相当于我们的“草稿纸上的解答”
  • 推理状态(z):相当于我们的“思考过程记录”

在每个推理步骤中,TRM执行:

# 思考阶段:基于问题、当前答案和推理状态,更新思考过程
for i in range(n):
    z = network(x, y, z)
    
# 行动阶段:基于思考过程改进当前答案
y = network(y, z)

这个过程可以重复最多16次,让模型有充分的机会检查和修正自己的答案。

实战:搭建TRM开发环境

要亲身体验TRM的强大能力,首先需要搭建开发环境。以下是经过验证的配置步骤:

# 安装PyTorch(根据您的CUDA版本调整)
pip install --pre --upgrade torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu126

# 安装项目依赖
pip install -r requirements.txt
pip install --no-cache-dir --no-build-isolation adam-atan2

# 配置实验跟踪(可选但推荐)
wandb login YOUR-API-KEY

数据集准备是训练过程中的关键一步:

# 准备ARC-AGI-1数据集
python -m dataset.build_arc_dataset \
  --input-file-prefix kaggle/combined/arc-agi \
  --output-dir data/arc1concept-aug-1000 \
  --subsets training evaluation concept \
  --test-set-name evaluation

# 准备数独极限数据集
python dataset/build_sudoku_dataset.py --output-dir data/sudoku-extreme-1k-aug-1000 --subsample-size 1000 --num-aug 1000

TRM训练实战指南

训练TRM需要耐心和合适的硬件配置,但结果值得付出。

对于ARC-AGI-1(需要4×H100 GPU):

run_name="pretrain_att_arc1concept_4"
torchrun --nproc-per-node 4 --rdzv_backend=c10d --rdzv_endpoint=localhost:0 --nnodes=1 pretrain.py \
arch=trm \
data_paths="[data/arc1concept-aug-1000]" \
arch.L_layers=2 \
arch.H_cycles=3 arch.L_cycles=4 \
+run_name=${run_name} ema=True

对于数独极限(仅需1×L40S GPU):

run_name="pretrain_mlp_t_sudoku"
python pretrain.py \
arch=trm \
data_paths="[data/sudoku-extreme-1k-aug-1000]" \
evaluators="[]" \
epochs=50000 eval_interval=5000 \
lr=1e-4 puzzle_emb_lr=1e-4 weight_decay=1.0 puzzle_emb_weight_decay=1.0 \
arch.mlp_t=True arch.pos_encodings=none \
arch.L_layers=2 \
arch.H_cycles=3 arch.L_cycles=6 \
+run_name=${run_name} ema=True

训练时间从数小时到数天不等,具体取决于数据集和硬件配置。

TRM与传统方法的本质区别

与HRM(分层推理模型)对比:

HRM是TRM的前身,使用了两个网络、固定点定理和复杂的生物学启发设计。TRM将其简化为:

  • 单网络架构:代替HRM的双网络设计
  • 全梯度回传:代替HRM的单步梯度近似
  • 无理论负担:去除了固定点定理的依赖

与LLM对比:

虽然LLM在通用语言任务上表现卓越,但在结构化推理任务上存在天然劣势:

  • 自回归累积错误:Token-by-token生成,错误会传播
  • 缺乏修订机制:无法在生成后系统性检查和改进答案
  • 计算分配不当:参数过多但推理计算不足

结果解读:小模型的巨大潜力

TRM在各个基准测试中的表现令人印象深刻:

任务 数据集规模 TRM准确率 最佳LLM准确率 参数量比
Sudoku-Extreme 1K训练/423K测试 87.4% 0.0% 7M vs 671B
Maze-Hard 1K训练/1K测试 85.3% 0.0% 7M vs 671B
ARC-AGI-1 800任务 44.6% 37.0% 7M vs ?
ARC-AGI-2 1120任务 7.8% 4.9% 7M vs ?

数据来源:Wang et al. (2025) 和官方TRM论文

特别值得注意的是,在数独极限挑战中,TRM的MLP变体(仅500万参数)达到了惊人的**87.4%**准确率,而HRM为55.0%,所有测试的LLM均为0.0%。

为什么“小”反而“强”?

TRM的成功揭示了AI推理的一个重要原理:对于某些任务,推理深度比参数数量更重要

  1. 有效深度理论
    TRM的有效深度 = T × (n + 1) × 层数 = 3 × (6 + 1) × 2 = 42层
    这种“递归深度”让模型能够进行复杂的多步推理

  2. 过拟合控制
    小参数规模 + 大量数据增强 = 更好的泛化能力
    在大数据稀缺的推理任务中,这一点尤为重要

  3. 计算预算重分配
    与其将计算资源用于维护巨大参数矩阵,不如将其用于test-time推理过程

架构选择的智慧

TRM团队在架构设计上展现了深刻的洞察:

注意力机制的灵活运用:

  • 对于小网格(如9×9数独),使用MLP混合器减少过拟合
  • 对于大网格(如30×30迷宫和ARC任务),保留自注意力以捕捉长程依赖

极简主义设计:

  • 仅使用2层网络,发现比4层网络泛化更好
  • 单一网络同时处理“思考”和“行动”阶段

训练稳定性技巧:

  • 指数移动平均(EMA)防止在小数据集上的训练发散
  • 稳定的最大损失函数提高训练可靠性

常见问题解答

Q:TRM能否替代LLM用于通用任务?
A:目前不能。TRM专门针对具有明确输入输出结构的推理任务优化。它在通用语言理解、创意写作等任务上无法与LLM竞争。

Q:训练TRM需要多少计算资源?
A:相对适中。数独实验可在单张L40S GPU上36小时内完成,ARC-AGI需要4张H100 GPU约3天。与训练千亿级LLM相比,成本可忽略不计。

Q:TRM的原理是否可以应用于其他领域?
A:绝对可以。“起草-修订”的递归推理范式对任何需要多步推理的领域都有价值,如程序合成、数学证明和科学发现。

Q:如何解释TRM的推理过程?
A:虽然z状态是人类不可读的嵌入,但通过分析其在不同递归步骤中的演变,可以部分理解模型的“思考过程”。这比LLM的黑箱生成过程更具可解释性潜力。

未来展望

TRM代表的不仅是一个高效的推理模型,更是一种AI研发范式的转变

  1. 效率革命:证明在特定领域,小模型通过精心设计的推理机制可以超越大模型
  2. 专业化趋势:未来可能会看到更多为特定任务极致优化的紧凑模型
  3. 递归推理普及:“思考-行动”循环可能成为AI系统标准组件

下一步,团队计划将TRM扩展到生成任务,支持多答案输出,并探索更复杂的递归模式。

结语

在AI领域盲目追求参数规模的当下,TRM像是一股清流,提醒我们:有时候,深度思考比知识广度更重要

这个仅700万参数的“小模型”战胜千亿级“大模型”的故事,不只是技术上的胜利,更是对AI发展方向的深刻启示:在我们奔向更大的同时,也不应忘记思考如何更聪明。


本文所有代码示例和实验配置均来自官方TRM代码库,经测试可正常运行。技术细节参考TRM论文HRM论文