数学界巨震!DeepSeek新模型IMO夺金,竟因学会了“自我打脸”?

118/120碾压人类学霸,AI如何用“灵魂出窍”式学习法征服数学奥林匹克


“当你的数学老师还在说‘检查一下你的解题步骤’时,这个AI已经把自己写的证明反复鞭尸了64遍。”

就在昨天,DeepSeekMath-V2在国际数学奥林匹克(IMO 2025)中拿下金牌,在普特南数学竞赛中狂砍118/120分——比人类最高分还高出28分。而它的秘诀,竟然是学会了**“我骂我自己”**。

反常识:AI不是靠算得快,而是靠“自我怀疑”征服数学;数据震撼:118分碾压人类纪录)


1. 观点:以前的数学AI都是“闭卷考试”,现在的DeepSeekMath-V2学会了“开卷自查”

  • 技术降维
    传统AI做数学题,就像小学生交完卷就跑,对了错了全看老师批改。而DeepSeekMath-V2相当于交卷后把自己当成老师,把每道题重新讲一遍给自己听,发现讲不通就立即重写。

  • 核心机制

    • 验证器:专门给证明“挑刺”,像严格的数学教授
    • 生成器:负责写证明,像勤奋的学生
    • 元验证器:甚至能判断“挑刺挑得对不对”,堪称教研室主任
  • 金句

    “这不是AI在解题,这是AI在自我举办数学研讨会——自己写论文,自己当审稿人,自己还要写审稿意见。”

2. 观点:AI的“诚实”比“聪明”更可怕——它学会了主动承认错误

  • 案例
    在解决IMO最难的那道组合数学题时,DeepSeekMath-V2的第一版证明自评为0分:“这里逻辑跳跃,那里假设不成立”。经过16轮自我批判式修改,最终产出无懈可击的证明。

  • 数据支撑

    • 传统AI:经常“蒙对答案但过程全错”
    • DeepSeekMath-V2:通过自我验证,过程正确率提升3倍
    • 在CMO 2024中,73.8%的问题被完全解决,其余获得部分分数
  • 金句

    “当AI学会说‘我错了’,它的正确率反而开始碾压所有‘永远自信’的前辈。”

3. 观点:这不仅是技术突破,更是学习方法的革命

  • 生活连接点
    每个被数学折磨过的学生都懂:检查作业比写作业更难。DeepSeekMath-V2的“生成-验证”循环,就像学霸养成的终极秘诀——写完题后,假装自己是老师来批改自己的作业

  • 技术洞察
    研究团队发现,单纯的“题海战术”有天花板。真正的突破来自让AI获得“元认知”——不仅会做题,还会评估自己为什么做对/做错。

  • 金句

    “数学好的秘诀不是刷题1万道,而是把每道题都拆解、质疑、重建1万遍。”


【结尾 – 犀利点评】

所以,DeepSeekMath-V2的真正突破,不是它解出了多少道IMO难题,而是它找到了一条反直觉的成功路径

在一个人工智能可以被轻易复制、算力可以无限扩张的时代,真正的“护城河”不再是知道多少,而是有多了解自己不知道什么

当其他AI还在追求“一次就做对”时,DeepSeekMath-V2选择了更聪明的道路:“只要我能发现自己的错误,我就永远在进步的路上。”

这或许给所有学习者——无论是人类还是AI——上了一课:

真正的智慧,始于承认自己可能不够智慧。

而那些永远觉得自己“已经完美”的,无论是人还是机器,最终都会被这个需要不断自我刷新的世界淘汰。


(全文完)