强化学习归档 | 第2页共3页

DeepSeek-R1：通过强化学习激励大语言模型推理能力

6个月前高效码农

摘要 DeepSeek-R1 是 DeepSeek-AI 团队提出的一种基于强化学习（Reinforcement Learning, RL）的大语言模型（LLM），其核心目标是通过 RL 框架激励模型 …

UI-TARS-2如何重新定义GUI智能体？字节跳动最新突破揭秘！

6个月前高效码农

UI-TARS-2：重新定义GUI智能体的技术突破与应用前景引言： GUI交互的智能化时代在人工智能快速发展的今天，能够像人类一样操作计算机界面的智能体（Agent）正逐渐成为现实。字节跳动推出的 …

FastTD3：单块A100 GPU实现人形机器人3小时训练的强化学习突破

6个月前高效码农

FastTD3：简单、快速、强大的人形机器人强化学习方案摘要：FastTD3 基于 TD3 算法，通过并行模拟、大批次更新和分布式评论家等优化，在单块 A100 GPU 上 3 小时内即可完成多种人 …

Biomni-R0人工智能模型：强化学习引领生物医学基因分析新纪元

6个月前高效码农

Biomni-R0：借助多轮强化学习的智能体大模型，推动生物医学研究迈向专家级水平本文欲回答的核心问题： Biomni-R0 作为一款新型智能体大模型，如何通过创新的训练方法突破传统技术局限，在生物 …

RLinf引爆AI训练革命：单卡到千卡集群一气呵成

6个月前高效码农

从零开始理解 RLinf：打造下一代强化学习基础设施的完整指南读完这篇，你将清楚：RLinf 是什么、能做什么、怎么做，以及它为什么可能是你下一个项目最趁手的工具。 1. 先抛一个问题：为什么我们需 …

突破性AI模型rStar2-Agent如何用代理强化学习征服数学难题？

6个月前高效码农

rStar2-Agent: 探索代理推理在数学问题解决中的应用大家好，我是这篇博客的作者。今天，我想和大家聊聊 rStar2-Agent 这个项目。它是一个专注于代理强化学习（agentic rei …

COMPUTERRL框架震撼发布！AI桌面自动化迈入新纪元，突破三大核心技术瓶颈

6个月前高效码农

COMPUTERRL框架：提升AI桌面自动化能力的革新方案在人工智能快速发展的今天，能够像人类一样操作电脑的智能体逐渐成为现实。今天我们来深入解读一篇来自清华大学的最新研究——COMPUTERRL框 …

Coursera课程总结大揭秘：我的机器学习与强化学习笔记全公开！

7个月前高效码农

探索Coursera课程总结：我的学习笔记和资源分享在学习在线课程的过程中，我发现保持笔记和总结是一个有效的办法，能帮助我回顾知识并加深理解。这个仓库就是我为Coursera上完成的课程和专项课程创 …

AI革命！CRINN让向量搜索提速85%的秘密

7个月前高效码农

用 AI 帮你把搜索算法变快：CRINN 实战指南 ❝ “为什么我的向量数据库越来越慢？” “有没有办法让 ANNS 算法自动优化？” “训练好的模型还能再提速吗？” ❞ 如果你也问过类似问题，这篇文 …

RaR框架突破AI训练瓶颈：医疗科学领域准确率提升4.7%的秘密

7个月前高效码农

Rubrics as Rewards (RaR)：用评分表教AI更懂人类偏好引言：为什么需要新的奖励机制？在强化学习领域，模型需要通过奖励信号来判断自己的输出质量。传统方法依赖偏好排序（如人类对多 …

腾讯新突破！RLVMR框架如何让AI代理效率飙升80%？

7个月前高效码农

RLVMR框架：提升长程代理效率的新方法在人工智能领域，构建能够自主完成复杂长程任务（如家庭环境操作、科学实验）的智能体一直是核心挑战。本文将深入解析腾讯团队提出的RLVMR框架，通过案例和实验数据 …

引爆图像生成革命！X-Omni如何用强化学习统一文字与视觉世界？

7个月前高效码农

让图像与文字像聊天一样流畅：X-Omni 带来的统一式生成体验 “能不能像写句子一样把一张图‘写’出来，而且一次就能写对？” 过去，答案是“做不到”。今天，X-Omni 正在把它变成日常。在这篇文章 …

突破GPU性能瓶颈：CUDA-L1框架如何用对比强化学习实现代码优化？

7个月前高效码农

CUDA-L1：利用对比强化学习革新GPU计算性能 GPU计算集群随着大型语言模型（LLM）的爆发式发展，GPU计算资源的需求呈指数级增长。在这个背景下，CUDA-L1框架通过对比强化学习技术，展现 …

零代码奖励函数？ART框架如何革新多步智能体训练（附2048实战）

8个月前高效码农

用 ART 训练多步智能体：从 2048 到邮件检索的完整入门指南这篇文章能帮你解决什么问题？我想让大模型学会玩 2048、井字棋、Codenames，甚至帮我检索邮件，但不想手写奖励函数——有办 …

MemAgent黑科技：强化学习突破亿级长文本处理瓶颈

8个月前高效码农

MemAgent：利用强化学习突破长上下文处理的瓶颈引言：长文本处理的挑战在人工智能领域，处理超长文本始终是语言模型面临的核心挑战。想象你需要阅读一本5000页的小说，并回答关于第三章某个细节的问 …

突破性RLVER框架发布：用可验证情感奖励重塑AI共情能力？

8个月前高效码农

RLVER：用可验证情感奖励强化学习训练共情AI代理引言：当AI拥有情感智慧想象一下，当你向AI倾诉工作压力时，它不仅能分析问题，还能精准捕捉你话语背后的失落感，像挚友般回应：”我能感 …

AREAL异步强化学习系统：破解大规模语言模型训练瓶颈，加速2.27倍！

8个月前高效码农

突破大规模语言模型训练瓶颈：AREAL异步强化学习系统解析 Asynchronous AI Training System 引言：强化学习面临的系统挑战在大型语言模型（LLM）训练领域，强化学习（R …

GRPO强化学习实战：单GPU训练14B模型实现DeepSeek级推理（2025验证）

9个月前高效码农

GRPO强化学习实战指南：如何用Unsloth训练LLM获得DeepSeek级推理能力 2025年独立实验验证·附可复现代码 TL;DR核心结论 📌 推理能力突破：GRPO算法使14B参数模型数学推理 …

揭秘RENT无监督强化学习：如何通过熵最小化让AI自主提升数学推理70%准确率？

9个月前高效码农

《RENT：一种基于熵最小化的无监督强化学习方法》一、技术原理剖析（一）强化学习范式的革新在传统的强化学习（Reinforcement Learning, RL）架构中，奖励函数（Reward …

强化学习如何让14B模型突破数学推理瓶颈？分阶段训练策略解析

9个月前高效码农

如何利用大规模强化学习提升模型的数学和代码推理能力引言在当今人工智能领域，推理能力一直是衡量模型性能的关键指标。从 OpenAI 提出利用强化学习（RL）训练推理模型开始，这一领域就吸引了大量关注 …