TTRL:如何通过测试时强化学习实现无标注数据下的LLM性能突破?

3天前 高效码农

TTRL:无标签数据下的测试时强化学习框架解析 TTRL核心架构示意图 引言:当强化学习遇上无标签测试数据 在大型语言模型(LLMs)的推理任务中,我们常面临一个关键挑战:如何在没有真实标签的测试数据 …

强化学习如何提升AI工具使用能力?揭秘ToolRL的奖励设计奥秘

4天前 高效码农

强化学习在工具使用任务中的应用:ToolRL 的奖励设计 在人工智能领域,大型语言模型(LLMs)近年来取得了显著的进步。这些模型不仅能生成自然语言,还能通过与外部工具(如搜索引擎、计算器或代码解释器 …

开源强化学习框架rLLM:复现DeepSeek R1与OpenAI O3的完整指南

19天前 高效码农

开源代码推理模型DeepCoder-14B:14B参数媲美o3-mini的技术突破与实践路径 引言:代码生成模型的进化挑战与开源突破 在软件开发复杂度指数级增长的今天,智能代码生成技术已成为提升开发者 …