在AI模型规模膨胀至万亿参数的时代,一个仅相当于两张手机照片大小的模型,正在ARC-AGI挑战赛上击败包括DeepSeek-R1、Gemini 2.5 Pro在内的众多庞然大物。
“更大就一定更好吗?”这个问题在人工智能领域萦绕多年。当各大科技公司竞相推出参数越来越大的模型时,三星SAIL蒙特利尔实验室的Alexia Jolicoeur-Martineau却走了一条相反的路。
她开发的Tiny Recursive Model(TRM)仅用700万参数——比许多图像分类模型还要小,就在ARC-AGI-1上取得了45%的准确率,在更新更难的ARC-AGI-2上也达到了8%,超越了参数量大她数万倍的竞争对手。
为什么ARC-AGI如此重要?
ARC-AGI(Abstraction and Reasoning Corpus)被业界誉为“AI的终极试金石”。与依赖大量训练数据的传统基准不同,ARC专注于衡量模型的抽象推理和泛化能力——这些正是人类智能的核心。
想象一下这样的场景:你看到几个输入输出示例,然后需要解决一个遵循相同抽象规则的新问题。这正是ARC的任务形式,也正是大多数LLM惨败的地方。
Gemini 2.5 Pro、DeepSeek-R1和o3-mini-high等千亿级模型在此表现平平,不是因为它们不够“聪明”,而是因为它们的推理方式与人类不同。它们像是一个学识渊博但思维僵化的学者,而TRM更像是一个灵活的问题解决者。
TRM的核心洞察:递归胜过参数量
传统LLM采用自回归生成方式——一旦开始输出,就很难回头修正错误。这就像是在迷雾中前行,每一步都建立在上一步的基础上,一旦走错就难以挽回。
TRM采用了完全不同的策略:“起草-修订”循环。

TRM的工作原理令人想起人类解决复杂问题的方式。当我们面对难题时,不会一股脑地给出最终答案,而是:
-
先形成一个初步解决方案(起草) -
反复检查、推敲、改进(修订) -
最终确定答案
具体来说,TRM维护两个核心状态:
-
当前答案(y):相当于我们的“草稿纸上的解答” -
推理状态(z):相当于我们的“思考过程记录”
在每个推理步骤中,TRM执行:
# 思考阶段:基于问题、当前答案和推理状态,更新思考过程
for i in range(n):
z = network(x, y, z)
# 行动阶段:基于思考过程改进当前答案
y = network(y, z)
这个过程可以重复最多16次,让模型有充分的机会检查和修正自己的答案。
实战:搭建TRM开发环境
要亲身体验TRM的强大能力,首先需要搭建开发环境。以下是经过验证的配置步骤:
# 安装PyTorch(根据您的CUDA版本调整)
pip install --pre --upgrade torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu126
# 安装项目依赖
pip install -r requirements.txt
pip install --no-cache-dir --no-build-isolation adam-atan2
# 配置实验跟踪(可选但推荐)
wandb login YOUR-API-KEY
数据集准备是训练过程中的关键一步:
# 准备ARC-AGI-1数据集
python -m dataset.build_arc_dataset \
--input-file-prefix kaggle/combined/arc-agi \
--output-dir data/arc1concept-aug-1000 \
--subsets training evaluation concept \
--test-set-name evaluation
# 准备数独极限数据集
python dataset/build_sudoku_dataset.py --output-dir data/sudoku-extreme-1k-aug-1000 --subsample-size 1000 --num-aug 1000
TRM训练实战指南
训练TRM需要耐心和合适的硬件配置,但结果值得付出。
对于ARC-AGI-1(需要4×H100 GPU):
run_name="pretrain_att_arc1concept_4"
torchrun --nproc-per-node 4 --rdzv_backend=c10d --rdzv_endpoint=localhost:0 --nnodes=1 pretrain.py \
arch=trm \
data_paths="[data/arc1concept-aug-1000]" \
arch.L_layers=2 \
arch.H_cycles=3 arch.L_cycles=4 \
+run_name=${run_name} ema=True
对于数独极限(仅需1×L40S GPU):
run_name="pretrain_mlp_t_sudoku"
python pretrain.py \
arch=trm \
data_paths="[data/sudoku-extreme-1k-aug-1000]" \
evaluators="[]" \
epochs=50000 eval_interval=5000 \
lr=1e-4 puzzle_emb_lr=1e-4 weight_decay=1.0 puzzle_emb_weight_decay=1.0 \
arch.mlp_t=True arch.pos_encodings=none \
arch.L_layers=2 \
arch.H_cycles=3 arch.L_cycles=6 \
+run_name=${run_name} ema=True
训练时间从数小时到数天不等,具体取决于数据集和硬件配置。
TRM与传统方法的本质区别
与HRM(分层推理模型)对比:
HRM是TRM的前身,使用了两个网络、固定点定理和复杂的生物学启发设计。TRM将其简化为:
-
单网络架构:代替HRM的双网络设计 -
全梯度回传:代替HRM的单步梯度近似 -
无理论负担:去除了固定点定理的依赖
与LLM对比:
虽然LLM在通用语言任务上表现卓越,但在结构化推理任务上存在天然劣势:
-
自回归累积错误:Token-by-token生成,错误会传播 -
缺乏修订机制:无法在生成后系统性检查和改进答案 -
计算分配不当:参数过多但推理计算不足
结果解读:小模型的巨大潜力
TRM在各个基准测试中的表现令人印象深刻:
任务 | 数据集规模 | TRM准确率 | 最佳LLM准确率 | 参数量比 |
---|---|---|---|---|
Sudoku-Extreme | 1K训练/423K测试 | 87.4% | 0.0% | 7M vs 671B |
Maze-Hard | 1K训练/1K测试 | 85.3% | 0.0% | 7M vs 671B |
ARC-AGI-1 | 800任务 | 44.6% | 37.0% | 7M vs ? |
ARC-AGI-2 | 1120任务 | 7.8% | 4.9% | 7M vs ? |
数据来源:Wang et al. (2025) 和官方TRM论文
特别值得注意的是,在数独极限挑战中,TRM的MLP变体(仅500万参数)达到了惊人的**87.4%**准确率,而HRM为55.0%,所有测试的LLM均为0.0%。
为什么“小”反而“强”?
TRM的成功揭示了AI推理的一个重要原理:对于某些任务,推理深度比参数数量更重要。
-
有效深度理论:
TRM的有效深度 = T × (n + 1) × 层数 = 3 × (6 + 1) × 2 = 42层
这种“递归深度”让模型能够进行复杂的多步推理 -
过拟合控制:
小参数规模 + 大量数据增强 = 更好的泛化能力
在大数据稀缺的推理任务中,这一点尤为重要 -
计算预算重分配:
与其将计算资源用于维护巨大参数矩阵,不如将其用于test-time推理过程
架构选择的智慧
TRM团队在架构设计上展现了深刻的洞察:
注意力机制的灵活运用:
-
对于小网格(如9×9数独),使用MLP混合器减少过拟合 -
对于大网格(如30×30迷宫和ARC任务),保留自注意力以捕捉长程依赖
极简主义设计:
-
仅使用2层网络,发现比4层网络泛化更好 -
单一网络同时处理“思考”和“行动”阶段
训练稳定性技巧:
-
指数移动平均(EMA)防止在小数据集上的训练发散 -
稳定的最大损失函数提高训练可靠性
常见问题解答
Q:TRM能否替代LLM用于通用任务?
A:目前不能。TRM专门针对具有明确输入输出结构的推理任务优化。它在通用语言理解、创意写作等任务上无法与LLM竞争。
Q:训练TRM需要多少计算资源?
A:相对适中。数独实验可在单张L40S GPU上36小时内完成,ARC-AGI需要4张H100 GPU约3天。与训练千亿级LLM相比,成本可忽略不计。
Q:TRM的原理是否可以应用于其他领域?
A:绝对可以。“起草-修订”的递归推理范式对任何需要多步推理的领域都有价值,如程序合成、数学证明和科学发现。
Q:如何解释TRM的推理过程?
A:虽然z状态是人类不可读的嵌入,但通过分析其在不同递归步骤中的演变,可以部分理解模型的“思考过程”。这比LLM的黑箱生成过程更具可解释性潜力。
未来展望
TRM代表的不仅是一个高效的推理模型,更是一种AI研发范式的转变:
-
效率革命:证明在特定领域,小模型通过精心设计的推理机制可以超越大模型 -
专业化趋势:未来可能会看到更多为特定任务极致优化的紧凑模型 -
递归推理普及:“思考-行动”循环可能成为AI系统标准组件
下一步,团队计划将TRM扩展到生成任务,支持多答案输出,并探索更复杂的递归模式。
结语
在AI领域盲目追求参数规模的当下,TRM像是一股清流,提醒我们:有时候,深度思考比知识广度更重要。
这个仅700万参数的“小模型”战胜千亿级“大模型”的故事,不只是技术上的胜利,更是对AI发展方向的深刻启示:在我们奔向更大的同时,也不应忘记思考如何更聪明。
本文所有代码示例和实验配置均来自官方TRM代码库,经测试可正常运行。技术细节参考TRM论文和HRM论文。