强化学习归档 | 第3页共3页

11个月前高效码农

SkyRL-v0：基于强化学习的真实世界长周期智能体训练框架项目概览 SkyRL-v0 是由伯克利天空计算实验室（Berkeley Sky Computing Lab）推出的开源强化学习训练框架，专 …

11个月前高效码农

基于Isaac Lab的HOVER WBC：训练人形机器人全身控制器的实践指南 Unitree H1机器人执行AMASS数据集中的动作（来源：项目文档）引言：人形机器人控制的新范式人形机器人的运动 …

11个月前高效码农

TTRL：无标签数据下的测试时强化学习框架解析 TTRL核心架构示意图引言：当强化学习遇上无标签测试数据在大型语言模型（LLMs）的推理任务中，我们常面临一个关键挑战：如何在没有真实标签的测试数据 …

11个月前高效码农

强化学习在工具使用任务中的应用：ToolRL 的奖励设计在人工智能领域，大型语言模型（LLMs）近年来取得了显著的进步。这些模型不仅能生成自然语言，还能通过与外部工具（如搜索引擎、计算器或代码解释器 …

11个月前高效码农

开源代码推理模型DeepCoder-14B：14B参数媲美o3-mini的技术突破与实践路径引言：代码生成模型的进化挑战与开源突破在软件开发复杂度指数级增长的今天，智能代码生成技术已成为提升开发者 …