rStar2-Agent: 探索代理推理在数学问题解决中的应用 大家好,我是这篇博客的作者。今天,我想和大家聊聊 rStar2-Agent 这个项目。它是一个专注于代理强化学习(agentic rei …
COMPUTERRL框架:提升AI桌面自动化能力的革新方案 在人工智能快速发展的今天,能够像人类一样操作电脑的智能体逐渐成为现实。今天我们来深入解读一篇来自清华大学的最新研究——COMPUTERRL框 …
探索Coursera课程总结:我的学习笔记和资源分享 在学习在线课程的过程中,我发现保持笔记和总结是一个有效的办法,能帮助我回顾知识并加深理解。这个仓库就是我为Coursera上完成的课程和专项课程创 …
用 AI 帮你把搜索算法变快:CRINN 实战指南 ❝ “为什么我的向量数据库越来越慢?” “有没有办法让 ANNS 算法自动优化?” “训练好的模型还能再提速吗?” ❞ 如果你也问过类似问题,这篇文 …
Rubrics as Rewards (RaR):用评分表教AI更懂人类偏好 引言:为什么需要新的奖励机制? 在强化学习领域,模型需要通过奖励信号来判断自己的输出质量。传统方法依赖偏好排序(如人类对多 …
RLVMR框架:提升长程代理效率的新方法 在人工智能领域,构建能够自主完成复杂长程任务(如家庭环境操作、科学实验)的智能体一直是核心挑战。本文将深入解析腾讯团队提出的RLVMR框架,通过案例和实验数据 …
让图像与文字像聊天一样流畅:X-Omni 带来的统一式生成体验 “能不能像写句子一样把一张图‘写’出来,而且一次就能写对?” 过去,答案是“做不到”。今天,X-Omni 正在把它变成日常。 在这篇文章 …
CUDA-L1:利用对比强化学习革新GPU计算性能 GPU计算集群 随着大型语言模型(LLM)的爆发式发展,GPU计算资源的需求呈指数级增长。在这个背景下,CUDA-L1框架通过对比强化学习技术,展现 …
用 ART 训练多步智能体:从 2048 到邮件检索的完整入门指南 这篇文章能帮你解决什么问题? 我想让大模型学会玩 2048、井字棋、Codenames,甚至帮我检索邮件,但不想手写奖励函数——有办 …
MemAgent:利用强化学习突破长上下文处理的瓶颈 引言:长文本处理的挑战 在人工智能领域,处理超长文本始终是语言模型面临的核心挑战。想象你需要阅读一本5000页的小说,并回答关于第三章某个细节的问 …
RLVER:用可验证情感奖励强化学习训练共情AI代理 引言:当AI拥有情感智慧 想象一下,当你向AI倾诉工作压力时,它不仅能分析问题,还能精准捕捉你话语背后的失落感,像挚友般回应:”我能感 …
突破大规模语言模型训练瓶颈:AREAL异步强化学习系统解析 Asynchronous AI Training System 引言:强化学习面临的系统挑战 在大型语言模型(LLM)训练领域,强化学习(R …
GRPO强化学习实战指南:如何用Unsloth训练LLM获得DeepSeek级推理能力 2025年独立实验验证·附可复现代码 TL;DR核心结论 📌 推理能力突破:GRPO算法使14B参数模型数学推理 …
《RENT:一种基于熵最小化的无监督强化学习方法》 一、技术原理剖析 (一)强化学习范式的革新 在传统的强化学习(Reinforcement Learning, RL)架构中,奖励函数(Reward …
如何利用大规模强化学习提升模型的数学和代码推理能力 引言 在当今人工智能领域,推理能力一直是衡量模型性能的关键指标。从 OpenAI 提出利用强化学习(RL)训练推理模型开始,这一领域就吸引了大量关注 …
SkyRL-v0:基于强化学习的真实世界长周期智能体训练框架 项目概览 SkyRL-v0 是由伯克利天空计算实验室(Berkeley Sky Computing Lab)推出的开源强化学习训练框架,专 …
基于Isaac Lab的HOVER WBC:训练人形机器人全身控制器的实践指南 Unitree H1机器人执行AMASS数据集中的动作(来源:项目文档) 引言:人形机器人控制的新范式 人形机器人的运动 …
TTRL:无标签数据下的测试时强化学习框架解析 TTRL核心架构示意图 引言:当强化学习遇上无标签测试数据 在大型语言模型(LLMs)的推理任务中,我们常面临一个关键挑战:如何在没有真实标签的测试数据 …
强化学习在工具使用任务中的应用:ToolRL 的奖励设计 在人工智能领域,大型语言模型(LLMs)近年来取得了显著的进步。这些模型不仅能生成自然语言,还能通过与外部工具(如搜索引擎、计算器或代码解释器 …
开源代码推理模型DeepCoder-14B:14B参数媲美o3-mini的技术突破与实践路径 引言:代码生成模型的进化挑战与开源突破 在软件开发复杂度指数级增长的今天,智能代码生成技术已成为提升开发者 …