DeepSeek-R1：通过强化学习激励大语言模型推理能力

摘要

DeepSeek-R1 是 DeepSeek-AI 团队提出的一种基于强化学习（Reinforcement Learning, RL）的大语言模型（LLM），其核心目标是通过 RL 框架激励模型自主演化出复杂的推理能力，而无需依赖大量人工标注数据。该方法在数学推理、代码生成和多项学术基准测试中取得了显著提升，例如在 AIME 2024 数学竞赛中准确率从 15.6% 提升至 77.9%。本文详细介绍了 DeepSeek-R1 的训练方法、实验评测、工程细节与局限性，并提供了相关资源与复现指南。

1. 背景介绍

推理能力是人类智能的核心，涉及数学问题求解、逻辑推理和编程等复杂认知任务。近年来，大规模语言模型（LLMs）在足够参数规模下展现出“涌现”的推理能力。例如，通过思维链（Chain-of-Thought, CoT）提示技术，模型能生成中间推理步骤，显著提升复杂任务的表现。

然而，现有方法存在明显局限：

依赖人工标注的推理轨迹，难以扩展且引入认知偏差；
模型受限于人类思维模式，无法探索更优的非人类推理路径。

为解决这些问题，DeepSeek-R1 提出了一种基于纯强化学习的训练框架，通过规则奖励信号（如答案正确性、格式一致性）激励模型自主演化推理策略，避免了对人工标注数据的依赖。

2. 方法细节

2.1 模型架构与训练基础

基础模型：DeepSeek-R1 基于 DeepSeek-V3 Base，该模型是一个多语言（中英为主）预训练 Transformer 模型。
训练框架：采用 Group Relative Policy Optimization（GRPO）算法，该算法是对 PPO 的简化与优化，适用于大规模 RL 训练。

2.2 强化学习训练流程

2.2.1 DeepSeek-R1-Zero：纯 RL 阶段

奖励设计：
- 规则奖励（Rule-based Reward）：包括准确性奖励（Answer Accuracy）和格式奖励（Format Consistency）。
- 最终奖励公式：
```
Reward_rule = Reward_acc + Reward_format
```
训练超参数：
- 学习率：3e-6
- KL 散度系数：0.001
- 采样温度：1.0
- 生成长度：32,768 → 65,536 tokens（训练中后期调整）
- 训练步数：10,400 步（约 1.6 个训练周期）

2.2.2 DeepSeek-R1：多阶段对齐训练

DeepSeek-R1 在 R1-Zero 基础上进一步优化，训练流程包括：

冷启动数据收集：构建人类对齐的对话式推理数据；
第一阶段 RL：优化对话思维过程和语言一致性；
拒绝采样 + SFT：引入推理与非推理数据；
第二阶段 RL：进一步提升帮助性（Helpfulness）和安全性（Safety）。

3. 实验与结果

3.1 评测协议

DeepSeek-R1 在以下公开数据集上进行评估：

数学推理：AIME 2024、CNMO 2024
代码生成：LiveCodeBench、Codeforces、SWE-bench
综合语言理解：MMLU、MMLU-Pro、C-Eval、DROP
指令遵循与安全性：IFEval、AlpacaEval 2.0、Arena-Hard

3.2 量化结果

数学推理能力（AIME 2024）

模型	pass@1	cons@16
DeepSeek-R1-Zero	77.9%	86.7%
人类平均表现	~60%	–

多任务语言理解（MMLU-Pro）

模型	平均准确率
DeepSeek-V3 Base	68.2%
DeepSeek-R1	83.5%

代码生成（LiveCodeBench 2024）

模型	通过率
DeepSeek-V3	62.1%
DeepSeek-R1	78.3%

3.3 推理行为演化分析

响应长度增长：训练过程中模型生成的 token 数量显著增加，说明其自主演化出更复杂的推理路径；
反思词频提升：如“wait”、“verify”、“error”等词汇频率上升，表明模型具备自我验证与反思能力；
多语言混合问题：初期存在中英混杂，后期通过语言一致性奖励缓解。

4. 工程部署经验

4.1 训练基础设施

硬件环境：NVIDIA A100 集群，支持 8,192 序列并行生成；
训练框架：基于 PyTorch 和内部分布式框架 HAI-LLM；
推理优化：使用 vLLM 和 PagedAttention 技术提升吞吐量。

4.2 模型蒸馏与公开

提供了多个蒸馏后的小规模模型，在保持强推理能力的同时降低计算成本；
所有模型、代码、数据样本均在 GitHub 和 Zenodo 上开源（MIT 许可证）。

5. 局限性及未来方向

5.1 当前局限

结构化输出与工具使用：尚不支持外部工具（如计算器、搜索引擎）；
令牌效率：简单问题上存在“过度思考”现象；
多语言支持：仅优化中英文，其他语言可能出现语言混合；
提示工程敏感：Few-shot 提示会降低性能，推荐 Zero-shot 设置。

5.2 未来工作

扩展至工具增强推理（Tool-augmented Reasoning）；
优化奖励模型设计，避免奖励破解（Reward Hacking）；
支持异步评估与软件工程任务的大规模 RL。

6. 常见问题（FAQ）

Q: DeepSeek-R1 是否开源？
✅ 是的，模型权重、训练代码、推理脚本均已开源：
GitHub: https://github.com/deepseek-ai/DeepSeek-R1
Zenodo: https://doi.org/10.5281/zenodo.15753193

Q: 如何复现实验结果？
✅ 提供完整的 Docker 环境与训练脚本，详见项目 README。

Q: 模型是否支持多模态推理？
❌ 当前仅支持文本输入，未来版本可能扩展。

Q: 模型安全性如何？
✅ 安全性评测显示其与 GPT-4o 相当，配合风险控制系统后可达到更高标准。

参考文献

Wei et al., Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, NeurIPS 2022.
Shao et al., DeepSeekMath: Pushing the Limits of Mathematical Reasoning, arXiv:2402.03300.
Schulman et al., Proximal Policy Optimization Algorithms, arXiv:1707.06347.
Guo et al., DeepSeek-R1: Incentivizing Reasoning in LLMs via RL, Nature 2025.
开源项目：DeepSeek-R1 GitHub Repository, https://github.com/deepseek-ai/DeepSeek-R1

本文由 DeepSeek-AI 团队基于 Nature 论文《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》撰写，旨在推动开源 AI 社区的发展。
作者：Daya Guo, Dejian Yang, Haowei Zhang 等
机构：DeepSeek-AI
成果来源：https://www.nature.com/articles/s41586-025-09422-z