TTRL:无标签数据下的测试时强化学习框架解析 TTRL核心架构示意图 引言:当强化学习遇上无标签测试数据 在大型语言模型(LLMs)的推理任务中,我们常面临一个关键挑战:如何在没有真实标签的测试数据 …
强化学习在工具使用任务中的应用:ToolRL 的奖励设计 在人工智能领域,大型语言模型(LLMs)近年来取得了显著的进步。这些模型不仅能生成自然语言,还能通过与外部工具(如搜索引擎、计算器或代码解释器 …
开源代码推理模型DeepCoder-14B:14B参数媲美o3-mini的技术突破与实践路径 引言:代码生成模型的进化挑战与开源突破 在软件开发复杂度指数级增长的今天,智能代码生成技术已成为提升开发者 …