2025 国际数学奥林匹克大模型答卷实录：谁把最难的第五题做对了？

每年盛夏，国际数学奥林匹克（IMO）都会吸引全球目光。2025 年也不例外，六道题目再次让无数数学爱好者彻夜难眠。但与往年不同的是，这一次的主角除了人类选手，还有一群“不会疲倦”的大语言模型（LLM）。本文将带你走进一个特别的仓库——IMO2025-LLM，看看这些模型到底答得如何，哪些题目把它们难倒，又有哪些题目被轻松拿下。

为什么关心模型的数学答卷？

也许你会觉得，数学竞赛离日常生活很远。但把它换成“大模型能不能严谨推理”这个问题，就与每个人息息相关了。无论是代码生成、合同审查，还是医疗问诊，我们都希望 AI 给出的答案既准确又完整。IMO 题目恰好是检验逻辑严谨性的“试金石”——一道题只要漏掉一个边角情况，就可能被判零分。

因此，这份仓库的价值不仅在于“谁拿了满分”，更在于让我们看到：

哪些推理步骤模型容易遗漏；
不同参数设置对结果的影响；
成本与正确率之间的真实权衡。

一份仓库，三重视角

打开 IMO2025-LLM，你会发现它像一本三层日记：

官方原题：六条链接直接跳转到 Art of Problem Solving（AoPS）社区，题目原汁原味，方便对照。
模型答卷：同一道题，不同模型给出各自的思考过程与最终答案。
量化评估：用图表告诉你“写了多少 token”“花了多少 API 费”“正确率几何”。

六题速览：哪道题最“狠”？

题号	民间昵称	一句话概括
Problem 1	Sunny Lines	平面几何，几条直线把图形分割得刚刚好
Problem 2	2025 P2	纯代数，证明一个看似恒等的不等式
Problem 3	Bonza Functions	函数方程，寻找满足奇怪条件的多项式
Problem 4	Next Term Divisors	数列递推，但每一步都与“真因子”有关
Problem 5	The Inequality Game	组合+不等式，人称“今年最难”
Problem 6	I Miss Turbo	组合几何，图论味十足

仓库结论写得直白：

“

“只有 ByteDance Seed 1.6 与 Google Gemini 2.5 Pro 把 Problem 5 完整做对。”

换句话说，Problem 5 成了分水岭——答对，才算“真高手”。

模型众生相：谁花了多少力气？

Token 长度：写得越多≠得分越高

在 plots/token_count_per_problem.png 中，你会看到柱状图高低错落。一个有趣现象是：

某些模型在 Problem 5 上洋洋洒洒数千 token，却因漏掉关键不等式放缩而失分；
也有模型仅用几百 token 就给出完整证明，句句击中要害。

成本：便宜与好用能否兼得？

plots/cost_per_problem.png 把 API 调用费拆成明码标价。

最贵的一次调用来自某闭源旗舰模型，在 Problem 3 上一口气写了 8k token，费用接近 0.6 USD；
最便宜的则是本地开源模型，几乎零成本，但正确率也“感人”。

对于研究者而言，这张图是规划预算的“晴雨表”；对于普通读者，它提醒我们：推理深度与钱包深度并不总成正比。

参数小抄：为什么有的模型“固执”，有的模型“发散”？

仓库在 Inference Parameters 部分给出了三组配置，背后逻辑并不神秘：

模型来源	temperature	top_p	通俗解释
OpenAI 系列	默认	默认	让模型“稳”一点，减少随机性
Deepseek R1	0.6	0.95	给模型一点“创意空间”，避免死板
其余模型	0	1	彻底关掉随机性，保证可复现

temperature 就像“骰子热度”：数值越高，模型越敢“天马行空”；数值为 0，模型就只会选概率最高的词，变得谨慎又保守。
top_p 则是“词库闸门”：越小，模型越集中于高概率词；越大，偶尔会把冷门词也放进来，增加多样性。

深入 Problem 5：它到底难在哪？

为了不剧透原题，我们用“白话”描述一下：

场景像一场“博弈”：两位玩家在黑板写数，规则简单却暗藏杀机；
难点在于同时满足两个不等式：既要保证“和”足够大，又要让“积”不超标；
任何一步放缩过头，都会让最终结论“差一口气”。

ByteDance Seed 1.6 与 Gemini 2.5 Pro 的共同点是：

先构造一个“几乎极端”的例子，验证上界是否紧；
再用数学归纳法，把剩余边角情况逐一扫清；
每一步都给出“为什么要这样放缩”的直观理由，而不是堆砌公式。

如何使用这份仓库？三步上手

仓库 README 只写了三行，却足够让你跑起来：

浏览题目
直接点击六条 AoPS 链接，先自己动笔做一遍，再看模型答案，对比差距。
本地运行
如果你恰好有 GPU 与开源权重，可按照 Inference Parameters 复现结果：
```
python evaluate.py --model deepseek-r1 --problem 5
```
一行命令，自动对比参考答案，输出得分与 token 长度。
扩展实验
把自家微调模型加入 models/ 目录，再跑一轮评估；仓库会自动把新结果画进同一张图，方便横向对比。

真实启示：模型不是“万能助教”，而是“放大镜”

读完整份仓库，你会发现：

难题依旧是难题。Problem 5 的正确率远低于其他题，说明逻辑链越长，模型越容易“断线”。
成本与质量需要平衡。一味追求大参数、长输出，往往只是“堆字数”，未必真把问题吃透。
参数调校像调音师。同样的模型，temperature 从 0 调到 0.6，结论可能天差地别。

这些发现对任何想把大模型用在严肃场景的团队都有借鉴意义：先小步试错，再逐步放大。

写在最后

数学竞赛的魅力，不在于“答案”，而在于“为什么如此”。
IMO2025-LLM 把模型的思考过程摊在阳光下，让我们第一次如此近距离地观察“AI 推理的肌肉纹理”。
无论结果是一步到位的完美证明，还是半途卡壳的尴尬停顿，它们都为后来者提供了宝贵的路标。

下一次，当你再看到“大模型又刷爆某某 benchmark”的新闻，不妨想起这份仓库——真正的严谨，藏在每一行 token 与每一个不等式之间。

突发：IMO2025最难第五题仅2大模型全对，AI推理能力暴露出致命短板？