DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
https://arxiv.org/abs/2401.02954
2024 年 1 月发布。使用 GQA 优化推理成本;采用多步学习速率调度器替代余弦调度器;运用 HAI-LLM 训练框架优化训练基础设施;提出新的缩放分配策略。使用 2 万亿字符双语数据集预训练,67B 模型性能超越 LLaMA-2 70B,Chat 版本优于 GPT-3.5。
数据批次(size)和学习率(learning rate)设置策略:
批次大小(Batch Size):
Bopt = 0.2920 * 计算预算C的0.3271次幂
学习率(Learning Rate):
𝜂opt = 0.3118 * 计算预算C的-0.1250次幂
学习率调度器(Learning Rate Scheduler):
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
https://arxiv.org/abs/2401.06066
发布于 2024 年 1 月。创新提出细粒度专家分割和共享专家隔离;采用专家级和设备级平衡损失缓解负载不均衡问题。通过监督微调构建了聊天模型,性能优于传统 MoE 和部分密集模型,16B 版本可在单 40GB 内存 GPU 上部署。
现在做大语言模型,用"混合专家"架构(MoE)可以节省算力。传统MoE方法比如GShard会从N个专家里选K个激活,但有个毛病——专家们学的东西容易重复,不够专精。就像让10个厨师做菜,每次随机选3个,结果每个厨师都只会做差不多的菜。
传统的 MoE 架构用 MoE 层替换了 Transformer 中的 Feed-Forward Networks(FFNs)。
DeepSeekMoE架构,主要做了两件事:
结果:
DeepSeekMoE 16B 遥遥领先:
DeepSeekMoE介绍: https://www.dong-blog.fun/post/1953
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
https://arxiv.org/abs/2402.03300
2024 年 2 月 5 日发布。通过数学预训练、监督微调、强化学习三阶段训练,构建 120B 数学语料库,提出 GRPO (Group Relative Policy Optimization)算法,在数学推理能力上直逼 GPT-4,超越众多 30B-70B 开源模型。
组相对策略优化(Group Relative Policy Optimization, GRPO)
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
https://arxiv.org/abs/2405.04434
2024 年 5 月 7 日发布。创新提出多头潜在注意力( MLA);改进 MoE;基于 YaRN 扩展长上下文;发布了 Lite 版本;训练中设计三种辅助损失并引入 Token-Dropping 策略,通过多阶段训练流程提升性能。
我们推出了 DeepSeek-V2,这是一个以经济训练和高效推理为特点的专家混合(MoE)语言模型。它总共包含 236B 个参数,其中每个 token 激活 21B 个参数,并支持 128K 个 token 的上下文长度。DeepSeek-V2 采用了包括多头潜在注意力(MLA)和 DeepSeekMoE 在内的创新架构。MLA 通过将键值(KV)缓存显著压缩成潜在向量来保证高效推理,而 DeepSeekMoE 则通过稀疏计算以经济成本训练强大的模型。与 DeepSeek 67B 相比,DeepSeek-V2 实现了显著更强的性能,同时节省了 42.5%的训练成本,减少了 93.3%的 KV 缓存,并将最大生成吞吐量提高了 5.76 倍。
DeepSeek-V3 Technical Report
https://arxiv.org/abs/2412.19437
2024 年 12 月 26 日发布。创新提出无辅助损失的负载均衡策略、多 Token 预测,有 FP8 混合精度训练框架和高效通信框架。通过知识蒸馏提升推理性能,在低训练成本下性能强大,基础模型超越其他开源模型,聊天版本与领先闭源模型性能相当。
架构创新:
训练效率:
性能及基准测试:
https://arxiv.org/abs/2501.12948
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
2025 年 1 月发布。DeepSeek-R1-Zero 无需 SFT 就有卓越推理能力,与 OpenAI-o1-0912 在 AIME 上性能相当;DeepSeek-R1 采用多阶段训练和冷启动数据,推理性能与 OpenAI-o1-1217 相当;还提炼出6 个蒸馏模型,显著提升小模型推理能力。
这篇解读很好:https://zhuanlan.zhihu.com/p/20844750193
如何得到DeepSeek-R1-Zero:
如何训练得到DeepSeek-R1:
如何知识蒸馏把R1模型能力给其他小模型:
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!