2025 国际数学奥林匹克大模型答卷实录:谁把最难的第五题做对了?

IMO 2025 考场一角

每年盛夏,国际数学奥林匹克(IMO)都会吸引全球目光。2025 年也不例外,六道题目再次让无数数学爱好者彻夜难眠。但与往年不同的是,这一次的主角除了人类选手,还有一群“不会疲倦”的大语言模型(LLM)。本文将带你走进一个特别的仓库——IMO2025-LLM,看看这些模型到底答得如何,哪些题目把它们难倒,又有哪些题目被轻松拿下。


为什么关心模型的数学答卷?

也许你会觉得,数学竞赛离日常生活很远。但把它换成“大模型能不能严谨推理”这个问题,就与每个人息息相关了。无论是代码生成、合同审查,还是医疗问诊,我们都希望 AI 给出的答案既准确又完整。IMO 题目恰好是检验逻辑严谨性的“试金石”——一道题只要漏掉一个边角情况,就可能被判零分。

因此,这份仓库的价值不仅在于“谁拿了满分”,更在于让我们看到:

  • 哪些推理步骤模型容易遗漏;
  • 不同参数设置对结果的影响;
  • 成本与正确率之间的真实权衡。

一份仓库,三重视角

打开 IMO2025-LLM,你会发现它像一本三层日记:

  1. 官方原题:六条链接直接跳转到 Art of Problem Solving(AoPS)社区,题目原汁原味,方便对照。
  2. 模型答卷:同一道题,不同模型给出各自的思考过程与最终答案。
  3. 量化评估:用图表告诉你“写了多少 token”“花了多少 API 费”“正确率几何”。
不同模型答题的 token 长度对比

六题速览:哪道题最“狠”?

题号 民间昵称 一句话概括
Problem 1 Sunny Lines 平面几何,几条直线把图形分割得刚刚好
Problem 2 2025 P2 纯代数,证明一个看似恒等的不等式
Problem 3 Bonza Functions 函数方程,寻找满足奇怪条件的多项式
Problem 4 Next Term Divisors 数列递推,但每一步都与“真因子”有关
Problem 5 The Inequality Game 组合+不等式,人称“今年最难”
Problem 6 I Miss Turbo 组合几何,图论味十足

仓库结论写得直白:

“只有 ByteDance Seed 1.6 与 Google Gemini 2.5 Pro 把 Problem 5 完整做对。”

换句话说,Problem 5 成了分水岭——答对,才算“真高手”。


模型众生相:谁花了多少力气?

Token 长度:写得越多≠得分越高

plots/token_count_per_problem.png 中,你会看到柱状图高低错落。一个有趣现象是:

  • 某些模型在 Problem 5 上洋洋洒洒数千 token,却因漏掉关键不等式放缩而失分;
  • 也有模型仅用几百 token 就给出完整证明,句句击中要害。
抽象的分割线

成本:便宜与好用能否兼得?

plots/cost_per_problem.png 把 API 调用费拆成明码标价。

  • 最贵的一次调用来自某闭源旗舰模型,在 Problem 3 上一口气写了 8k token,费用接近 0.6 USD;
  • 最便宜的则是本地开源模型,几乎零成本,但正确率也“感人”。

对于研究者而言,这张图是规划预算的“晴雨表”;对于普通读者,它提醒我们:推理深度与钱包深度并不总成正比


参数小抄:为什么有的模型“固执”,有的模型“发散”?

仓库在 Inference Parameters 部分给出了三组配置,背后逻辑并不神秘:

模型来源 temperature top_p 通俗解释
OpenAI 系列 默认 默认 让模型“稳”一点,减少随机性
Deepseek R1 0.6 0.95 给模型一点“创意空间”,避免死板
其余模型 0 1 彻底关掉随机性,保证可复现

temperature 就像“骰子热度”:数值越高,模型越敢“天马行空”;数值为 0,模型就只会选概率最高的词,变得谨慎又保守。
top_p 则是“词库闸门”:越小,模型越集中于高概率词;越大,偶尔会把冷门词也放进来,增加多样性。


深入 Problem 5:它到底难在哪?

为了不剧透原题,我们用“白话”描述一下:

  • 场景像一场“博弈”:两位玩家在黑板写数,规则简单却暗藏杀机;
  • 难点在于同时满足两个不等式:既要保证“和”足够大,又要让“积”不超标;
  • 任何一步放缩过头,都会让最终结论“差一口气”。

ByteDance Seed 1.6 与 Gemini 2.5 Pro 的共同点是:

  1. 先构造一个“几乎极端”的例子,验证上界是否紧;
  2. 再用数学归纳法,把剩余边角情况逐一扫清;
  3. 每一步都给出“为什么要这样放缩”的直观理由,而不是堆砌公式。
深夜奋笔疾书

如何使用这份仓库?三步上手

仓库 README 只写了三行,却足够让你跑起来:

  1. 浏览题目
    直接点击六条 AoPS 链接,先自己动笔做一遍,再看模型答案,对比差距。

  2. 本地运行
    如果你恰好有 GPU 与开源权重,可按照 Inference Parameters 复现结果:

    python evaluate.py --model deepseek-r1 --problem 5
    

    一行命令,自动对比参考答案,输出得分与 token 长度。

  3. 扩展实验
    把自家微调模型加入 models/ 目录,再跑一轮评估;仓库会自动把新结果画进同一张图,方便横向对比。


真实启示:模型不是“万能助教”,而是“放大镜”

读完整份仓库,你会发现:

  • 难题依旧是难题。Problem 5 的正确率远低于其他题,说明逻辑链越长,模型越容易“断线”。
  • 成本与质量需要平衡。一味追求大参数、长输出,往往只是“堆字数”,未必真把问题吃透。
  • 参数调校像调音师。同样的模型,temperature 从 0 调到 0.6,结论可能天差地别。

这些发现对任何想把大模型用在严肃场景的团队都有借鉴意义:先小步试错,再逐步放大


写在最后

数学竞赛的魅力,不在于“答案”,而在于“为什么如此”。
IMO2025-LLM 把模型的思考过程摊在阳光下,让我们第一次如此近距离地观察“AI 推理的肌肉纹理”。
无论结果是一步到位的完美证明,还是半途卡壳的尴尬停顿,它们都为后来者提供了宝贵的路标。

下一次,当你再看到“大模型又刷爆某某 benchmark”的新闻,不妨想起这份仓库——真正的严谨,藏在每一行 token 与每一个不等式之间。

数学与思考