突破性AI模型rStar2-Agent如何用代理强化学习征服数学难题?

6天前 高效码农

rStar2-Agent: 探索代理推理在数学问题解决中的应用 大家好,我是这篇博客的作者。今天,我想和大家聊聊 rStar2-Agent 这个项目。它是一个专注于代理强化学习(agentic rei …

开源推理模型刷新记录!Qwen3-235B数学竞赛92.3分全解密

1个月前 高效码农

认识 Qwen3-235B-A22B-Thinking-2507:把复杂推理模型的真实能力一次讲透 本文面向已经具备基础 AI 知识、希望真正弄清「大模型推理能力」如何落地的读者。我们完全基于官方发布 …

强化学习如何让14B模型突破数学推理瓶颈?分阶段训练策略解析

3个月前 高效码农

如何利用大规模强化学习提升模型的数学和代码推理能力 引言 在当今人工智能领域,推理能力一直是衡量模型性能的关键指标。从 OpenAI 提出利用强化学习(RL)训练推理模型开始,这一领域就吸引了大量关注 …