700万参数小模型击败千亿AI？TRM如何用递归推理颠覆行业认知

在AI模型规模膨胀至万亿参数的时代，一个仅相当于两张手机照片大小的模型，正在ARC-AGI挑战赛上击败包括DeepSeek-R1、Gemini 2.5 Pro在内的众多庞然大物。

“更大就一定更好吗？”这个问题在人工智能领域萦绕多年。当各大科技公司竞相推出参数越来越大的模型时，三星SAIL蒙特利尔实验室的Alexia Jolicoeur-Martineau却走了一条相反的路。

她开发的Tiny Recursive Model（TRM）仅用700万参数——比许多图像分类模型还要小，就在ARC-AGI-1上取得了45%的准确率，在更新更难的ARC-AGI-2上也达到了8%，超越了参数量大她数万倍的竞争对手。

为什么ARC-AGI如此重要？

ARC-AGI（Abstraction and Reasoning Corpus）被业界誉为“AI的终极试金石”。与依赖大量训练数据的传统基准不同，ARC专注于衡量模型的抽象推理和泛化能力——这些正是人类智能的核心。

想象一下这样的场景：你看到几个输入输出示例，然后需要解决一个遵循相同抽象规则的新问题。这正是ARC的任务形式，也正是大多数LLM惨败的地方。

Gemini 2.5 Pro、DeepSeek-R1和o3-mini-high等千亿级模型在此表现平平，不是因为它们不够“聪明”，而是因为它们的推理方式与人类不同。它们像是一个学识渊博但思维僵化的学者，而TRM更像是一个灵活的问题解决者。

TRM的核心洞察：递归胜过参数量

传统LLM采用自回归生成方式——一旦开始输出，就很难回头修正错误。这就像是在迷雾中前行，每一步都建立在上一步的基础上，一旦走错就难以挽回。

TRM采用了完全不同的策略：“起草-修订”循环。

TRM的工作原理令人想起人类解决复杂问题的方式。当我们面对难题时，不会一股脑地给出最终答案，而是：

先形成一个初步解决方案（起草）
反复检查、推敲、改进（修订）
最终确定答案

具体来说，TRM维护两个核心状态：

当前答案（y）：相当于我们的“草稿纸上的解答”
推理状态（z）：相当于我们的“思考过程记录”

在每个推理步骤中，TRM执行：

# 思考阶段：基于问题、当前答案和推理状态，更新思考过程
for i in range(n):
    z = network(x, y, z)
    
# 行动阶段：基于思考过程改进当前答案
y = network(y, z)

这个过程可以重复最多16次，让模型有充分的机会检查和修正自己的答案。

实战：搭建TRM开发环境

要亲身体验TRM的强大能力，首先需要搭建开发环境。以下是经过验证的配置步骤：

# 安装PyTorch（根据您的CUDA版本调整）
pip install --pre --upgrade torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu126

# 安装项目依赖
pip install -r requirements.txt
pip install --no-cache-dir --no-build-isolation adam-atan2

# 配置实验跟踪（可选但推荐）
wandb login YOUR-API-KEY

数据集准备是训练过程中的关键一步：

# 准备ARC-AGI-1数据集
python -m dataset.build_arc_dataset \
  --input-file-prefix kaggle/combined/arc-agi \
  --output-dir data/arc1concept-aug-1000 \
  --subsets training evaluation concept \
  --test-set-name evaluation

# 准备数独极限数据集
python dataset/build_sudoku_dataset.py --output-dir data/sudoku-extreme-1k-aug-1000 --subsample-size 1000 --num-aug 1000

TRM训练实战指南

训练TRM需要耐心和合适的硬件配置，但结果值得付出。

对于ARC-AGI-1（需要4×H100 GPU）：

run_name="pretrain_att_arc1concept_4"
torchrun --nproc-per-node 4 --rdzv_backend=c10d --rdzv_endpoint=localhost:0 --nnodes=1 pretrain.py \
arch=trm \
data_paths="[data/arc1concept-aug-1000]" \
arch.L_layers=2 \
arch.H_cycles=3 arch.L_cycles=4 \
+run_name=${run_name} ema=True

对于数独极限（仅需1×L40S GPU）：

run_name="pretrain_mlp_t_sudoku"
python pretrain.py \
arch=trm \
data_paths="[data/sudoku-extreme-1k-aug-1000]" \
evaluators="[]" \
epochs=50000 eval_interval=5000 \
lr=1e-4 puzzle_emb_lr=1e-4 weight_decay=1.0 puzzle_emb_weight_decay=1.0 \
arch.mlp_t=True arch.pos_encodings=none \
arch.L_layers=2 \
arch.H_cycles=3 arch.L_cycles=6 \
+run_name=${run_name} ema=True

训练时间从数小时到数天不等，具体取决于数据集和硬件配置。

TRM与传统方法的本质区别

与HRM（分层推理模型）对比：

HRM是TRM的前身，使用了两个网络、固定点定理和复杂的生物学启发设计。TRM将其简化为：

单网络架构：代替HRM的双网络设计
全梯度回传：代替HRM的单步梯度近似
无理论负担：去除了固定点定理的依赖

与LLM对比：

虽然LLM在通用语言任务上表现卓越，但在结构化推理任务上存在天然劣势：

自回归累积错误：Token-by-token生成，错误会传播
缺乏修订机制：无法在生成后系统性检查和改进答案
计算分配不当：参数过多但推理计算不足

结果解读：小模型的巨大潜力

TRM在各个基准测试中的表现令人印象深刻：

任务	数据集规模	TRM准确率	最佳LLM准确率	参数量比
Sudoku-Extreme	1K训练/423K测试	87.4%	0.0%	7M vs 671B
Maze-Hard	1K训练/1K测试	85.3%	0.0%	7M vs 671B
ARC-AGI-1	800任务	44.6%	37.0%	7M vs ?
ARC-AGI-2	1120任务	7.8%	4.9%	7M vs ?

数据来源：Wang et al. (2025) 和官方TRM论文

特别值得注意的是，在数独极限挑战中，TRM的MLP变体（仅500万参数）达到了惊人的**87.4%**准确率，而HRM为55.0%，所有测试的LLM均为0.0%。

为什么“小”反而“强”？

TRM的成功揭示了AI推理的一个重要原理：对于某些任务，推理深度比参数数量更重要。

有效深度理论：
TRM的有效深度 = T × (n + 1) × 层数 = 3 × (6 + 1) × 2 = 42层
这种“递归深度”让模型能够进行复杂的多步推理
过拟合控制：
小参数规模 + 大量数据增强 = 更好的泛化能力
在大数据稀缺的推理任务中，这一点尤为重要
计算预算重分配：
与其将计算资源用于维护巨大参数矩阵，不如将其用于test-time推理过程

架构选择的智慧

TRM团队在架构设计上展现了深刻的洞察：

注意力机制的灵活运用：

对于小网格（如9×9数独），使用MLP混合器减少过拟合
对于大网格（如30×30迷宫和ARC任务），保留自注意力以捕捉长程依赖

极简主义设计：

仅使用2层网络，发现比4层网络泛化更好
单一网络同时处理“思考”和“行动”阶段

训练稳定性技巧：

指数移动平均（EMA）防止在小数据集上的训练发散
稳定的最大损失函数提高训练可靠性

常见问题解答

Q：TRM能否替代LLM用于通用任务？
A：目前不能。TRM专门针对具有明确输入输出结构的推理任务优化。它在通用语言理解、创意写作等任务上无法与LLM竞争。

Q：训练TRM需要多少计算资源？
A：相对适中。数独实验可在单张L40S GPU上36小时内完成，ARC-AGI需要4张H100 GPU约3天。与训练千亿级LLM相比，成本可忽略不计。

Q：TRM的原理是否可以应用于其他领域？
A：绝对可以。“起草-修订”的递归推理范式对任何需要多步推理的领域都有价值，如程序合成、数学证明和科学发现。

Q：如何解释TRM的推理过程？
A：虽然z状态是人类不可读的嵌入，但通过分析其在不同递归步骤中的演变，可以部分理解模型的“思考过程”。这比LLM的黑箱生成过程更具可解释性潜力。

未来展望

TRM代表的不仅是一个高效的推理模型，更是一种AI研发范式的转变：

效率革命：证明在特定领域，小模型通过精心设计的推理机制可以超越大模型
专业化趋势：未来可能会看到更多为特定任务极致优化的紧凑模型
递归推理普及：“思考-行动”循环可能成为AI系统标准组件

下一步，团队计划将TRM扩展到生成任务，支持多答案输出，并探索更复杂的递归模式。

结语

在AI领域盲目追求参数规模的当下，TRM像是一股清流，提醒我们：有时候，深度思考比知识广度更重要。

这个仅700万参数的“小模型”战胜千亿级“大模型”的故事，不只是技术上的胜利，更是对AI发展方向的深刻启示：在我们奔向更大的同时，也不应忘记思考如何更聪明。

本文所有代码示例和实验配置均来自官方TRM代码库，经测试可正常运行。技术细节参考TRM论文和HRM论文。