2025 国际数学奥林匹克大模型答卷实录:谁把最难的第五题做对了?
每年盛夏,国际数学奥林匹克(IMO)都会吸引全球目光。2025 年也不例外,六道题目再次让无数数学爱好者彻夜难眠。但与往年不同的是,这一次的主角除了人类选手,还有一群“不会疲倦”的大语言模型(LLM)。本文将带你走进一个特别的仓库——IMO2025-LLM,看看这些模型到底答得如何,哪些题目把它们难倒,又有哪些题目被轻松拿下。
为什么关心模型的数学答卷?
也许你会觉得,数学竞赛离日常生活很远。但把它换成“大模型能不能严谨推理”这个问题,就与每个人息息相关了。无论是代码生成、合同审查,还是医疗问诊,我们都希望 AI 给出的答案既准确又完整。IMO 题目恰好是检验逻辑严谨性的“试金石”——一道题只要漏掉一个边角情况,就可能被判零分。
因此,这份仓库的价值不仅在于“谁拿了满分”,更在于让我们看到:
-
哪些推理步骤模型容易遗漏; -
不同参数设置对结果的影响; -
成本与正确率之间的真实权衡。
一份仓库,三重视角
打开 IMO2025-LLM,你会发现它像一本三层日记:
-
官方原题:六条链接直接跳转到 Art of Problem Solving(AoPS)社区,题目原汁原味,方便对照。 -
模型答卷:同一道题,不同模型给出各自的思考过程与最终答案。 -
量化评估:用图表告诉你“写了多少 token”“花了多少 API 费”“正确率几何”。

六题速览:哪道题最“狠”?
题号 | 民间昵称 | 一句话概括 |
---|---|---|
Problem 1 | Sunny Lines | 平面几何,几条直线把图形分割得刚刚好 |
Problem 2 | 2025 P2 | 纯代数,证明一个看似恒等的不等式 |
Problem 3 | Bonza Functions | 函数方程,寻找满足奇怪条件的多项式 |
Problem 4 | Next Term Divisors | 数列递推,但每一步都与“真因子”有关 |
Problem 5 | The Inequality Game | 组合+不等式,人称“今年最难” |
Problem 6 | I Miss Turbo | 组合几何,图论味十足 |
仓库结论写得直白:
“
“只有 ByteDance Seed 1.6 与 Google Gemini 2.5 Pro 把 Problem 5 完整做对。”
换句话说,Problem 5 成了分水岭——答对,才算“真高手”。
模型众生相:谁花了多少力气?
Token 长度:写得越多≠得分越高
在 plots/token_count_per_problem.png
中,你会看到柱状图高低错落。一个有趣现象是:
-
某些模型在 Problem 5 上洋洋洒洒数千 token,却因漏掉关键不等式放缩而失分; -
也有模型仅用几百 token 就给出完整证明,句句击中要害。
成本:便宜与好用能否兼得?
plots/cost_per_problem.png
把 API 调用费拆成明码标价。
-
最贵的一次调用来自某闭源旗舰模型,在 Problem 3 上一口气写了 8k token,费用接近 0.6 USD; -
最便宜的则是本地开源模型,几乎零成本,但正确率也“感人”。
对于研究者而言,这张图是规划预算的“晴雨表”;对于普通读者,它提醒我们:推理深度与钱包深度并不总成正比。
参数小抄:为什么有的模型“固执”,有的模型“发散”?
仓库在 Inference Parameters
部分给出了三组配置,背后逻辑并不神秘:
模型来源 | temperature | top_p | 通俗解释 |
---|---|---|---|
OpenAI 系列 | 默认 | 默认 | 让模型“稳”一点,减少随机性 |
Deepseek R1 | 0.6 | 0.95 | 给模型一点“创意空间”,避免死板 |
其余模型 | 0 | 1 | 彻底关掉随机性,保证可复现 |
temperature 就像“骰子热度”:数值越高,模型越敢“天马行空”;数值为 0,模型就只会选概率最高的词,变得谨慎又保守。
top_p 则是“词库闸门”:越小,模型越集中于高概率词;越大,偶尔会把冷门词也放进来,增加多样性。
深入 Problem 5:它到底难在哪?
为了不剧透原题,我们用“白话”描述一下:
-
场景像一场“博弈”:两位玩家在黑板写数,规则简单却暗藏杀机; -
难点在于同时满足两个不等式:既要保证“和”足够大,又要让“积”不超标; -
任何一步放缩过头,都会让最终结论“差一口气”。
ByteDance Seed 1.6 与 Gemini 2.5 Pro 的共同点是:
-
先构造一个“几乎极端”的例子,验证上界是否紧; -
再用数学归纳法,把剩余边角情况逐一扫清; -
每一步都给出“为什么要这样放缩”的直观理由,而不是堆砌公式。
如何使用这份仓库?三步上手
仓库 README 只写了三行,却足够让你跑起来:
-
浏览题目
直接点击六条 AoPS 链接,先自己动笔做一遍,再看模型答案,对比差距。 -
本地运行
如果你恰好有 GPU 与开源权重,可按照Inference Parameters
复现结果:python evaluate.py --model deepseek-r1 --problem 5
一行命令,自动对比参考答案,输出得分与 token 长度。
-
扩展实验
把自家微调模型加入models/
目录,再跑一轮评估;仓库会自动把新结果画进同一张图,方便横向对比。
真实启示:模型不是“万能助教”,而是“放大镜”
读完整份仓库,你会发现:
-
难题依旧是难题。Problem 5 的正确率远低于其他题,说明逻辑链越长,模型越容易“断线”。 -
成本与质量需要平衡。一味追求大参数、长输出,往往只是“堆字数”,未必真把问题吃透。 -
参数调校像调音师。同样的模型,temperature 从 0 调到 0.6,结论可能天差地别。
这些发现对任何想把大模型用在严肃场景的团队都有借鉴意义:先小步试错,再逐步放大。
写在最后
数学竞赛的魅力,不在于“答案”,而在于“为什么如此”。
IMO2025-LLM 把模型的思考过程摊在阳光下,让我们第一次如此近距离地观察“AI 推理的肌肉纹理”。
无论结果是一步到位的完美证明,还是半途卡壳的尴尬停顿,它们都为后来者提供了宝贵的路标。
下一次,当你再看到“大模型又刷爆某某 benchmark”的新闻,不妨想起这份仓库——真正的严谨,藏在每一行 token 与每一个不等式之间。
