【知识点】DeepSeek R1 解读2
2025-09-23
DL论文
00

目录

DeepSeek-R1的完整训练流程
1. DeepSeek-R1-Zero(纯强化学习路线)
2. DeepSeek-R1(完整四阶段训练)
阶段1:冷启动
阶段2:推理导向强化学习
阶段3:拒绝采样和监督微调
阶段4:全场景强化学习
关键技术洞察
局限性和挑战

上nature了: https://www.nature.com/articles/s41586-025-09422-z

我之前的一个文章介绍: https://www.dong-blog.fun/post/2014

DeepSeek-R1的完整训练流程

1. DeepSeek-R1-Zero(纯强化学习路线)

DeepSeek-R1-Zero 也是一个重要成果,纯强化学习路线也是可以走的。

基础:直接基于DeepSeek-V3 Base模型 核心特点

  • 完全跳过SFT阶段 - 这是关键差异
  • 仅使用GRPO进行大规模强化学习
  • 只用规则基础奖励(准确率+格式奖励)
  • 训练10,400步,历时1.6个训练周期

结果

  • 在AIME数学竞赛上从15.6%提升到77.9%
  • 自然涌现Long-CoT能力(长链思维推理)
  • 出现"aha moment"现象(突然大量使用"wait"等反思词汇)
  • 但存在可读性差、语言混杂等问题

2. DeepSeek-R1(完整四阶段训练)

为了解决R1-Zero的问题,采用更复杂的训练管道:

阶段1:冷启动

  • 从DeepSeek-V3 Base开始
  • 使用少量(几千条)Long-CoT数据进行SFT
  • 这是为了解决R1-Zero的可读性问题

阶段2:推理导向强化学习

  • 使用GRPO + 规则基础奖励
  • 添加语言一致性奖励(解决语言混杂)
  • 专注于数学、代码、推理任务

阶段3:拒绝采样和监督微调

  • 对阶段2模型进行采样
  • 结合推理和非推理数据进行SFT
  • 提升写作、通用任务能力

阶段4:全场景强化学习

  • 推理任务:继续使用规则基础奖励
  • 通用任务:使用奖励模型(有用性+安全性)
  • 最终对齐人类偏好

关键技术洞察

  1. R1-Zero证明了纯RL的可能性:不需要SFT就能获得强推理能力
  2. 强基模型是前提:只有DeepSeek-V3这样的强基模型,纯RL才有效
  3. 涌现现象:Long-CoT、自我反思等能力是自然涌现的,不是人工设计的
  4. R1是工程化版本:为了实用性,在R1-Zero基础上增加了多阶段训练

局限性和挑战

论文坦率地讨论了当前限制:

  • 结构化输出和工具使用能力有限
  • Token效率仍需优化,存在"过度思考"现象
  • 多语言场景下的语言混合问题
  • 对提示工程较为敏感
  • 软件工程任务上改进有限
如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!