目录
DeepSeek-R1的完整训练流程
1. DeepSeek-R1-Zero(纯强化学习路线)
2. DeepSeek-R1(完整四阶段训练)
阶段1:冷启动
阶段2:推理导向强化学习
阶段3:拒绝采样和监督微调
阶段4:全场景强化学习
关键技术洞察
局限性和挑战
上nature了:
https://www.nature.com/articles/s41586-025-09422-z
我之前的一个文章介绍:
https://www.dong-blog.fun/post/2014
DeepSeek-R1的完整训练流程
1. DeepSeek-R1-Zero(纯强化学习路线)
DeepSeek-R1-Zero 也是一个重要成果,纯强化学习路线也是可以走的。
基础:直接基于DeepSeek-V3 Base模型
核心特点:
- 完全跳过SFT阶段 - 这是关键差异
- 仅使用GRPO进行大规模强化学习
- 只用规则基础奖励(准确率+格式奖励)
- 训练10,400步,历时1.6个训练周期
结果:
- 在AIME数学竞赛上从15.6%提升到77.9%
- 自然涌现Long-CoT能力(长链思维推理)
- 出现"aha moment"现象(突然大量使用"wait"等反思词汇)
- 但存在可读性差、语言混杂等问题
2. DeepSeek-R1(完整四阶段训练)
为了解决R1-Zero的问题,采用更复杂的训练管道:
阶段1:冷启动
- 从DeepSeek-V3 Base开始
- 使用少量(几千条)Long-CoT数据进行SFT
- 这是为了解决R1-Zero的可读性问题
阶段2:推理导向强化学习
- 使用GRPO + 规则基础奖励
- 添加语言一致性奖励(解决语言混杂)
- 专注于数学、代码、推理任务
阶段3:拒绝采样和监督微调
- 对阶段2模型进行采样
- 结合推理和非推理数据进行SFT
- 提升写作、通用任务能力
阶段4:全场景强化学习
- 推理任务:继续使用规则基础奖励
- 通用任务:使用奖励模型(有用性+安全性)
- 最终对齐人类偏好
关键技术洞察
- R1-Zero证明了纯RL的可能性:不需要SFT就能获得强推理能力
- 强基模型是前提:只有DeepSeek-V3这样的强基模型,纯RL才有效
- 涌现现象:Long-CoT、自我反思等能力是自然涌现的,不是人工设计的
- R1是工程化版本:为了实用性,在R1-Zero基础上增加了多阶段训练
局限性和挑战
论文坦率地讨论了当前限制:
- 结构化输出和工具使用能力有限
- Token效率仍需优化,存在"过度思考"现象
- 多语言场景下的语言混合问题
- 对提示工程较为敏感
- 软件工程任务上改进有限
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。
许可协议。转载请注明出处!