突破瓶颈!深度解析大模型从“模仿”到“辨别”的CAPO课程优势优化法

13天前 高效码农

从模仿到辨别:通用课程优势机制如何提升大模型跨领域推理能力 摘要:本文介绍CAPO(课程优势策略优化),一种创新的强化学习训练范式。它通过分阶段的课程学习,先利用正优势样本进行模仿学习建立稳定基础,再 …