Qwen3 论文解读——think/no think的失败
2025-09-23
DL论文
00

目录

训练方法
预训练(3阶段)
后训练(4阶段流程)

训练方法

预训练(3阶段)

  1. 通用阶段:30万亿tokens,建立基础知识
  2. 推理阶段:5万亿高质量tokens,增强STEM和编程能力
  3. 长上下文阶段:扩展上下文长度至32K tokens

后训练(4阶段流程)

  1. 长CoT冷启动:建立基础推理模式
  2. 推理强化学习:优化数学和编程推理
  3. 思维模式融合:整合两种模式
  4. 通用强化学习:提升综合能力

Qwen团队在X post中解释停止使用混合思维模式的原始帖子地址是:https://x.com/Alibaba_Qwen/status/1947344511988076547

这个X post发布在Alibaba_Qwen的官方账号上,其中团队解释了他们的决定:"在与社区交流并深思熟虑后,我们决定停止使用混合思维模式。相反,我们将分别训练Instruct和Thinking模型,以便获得最佳质量。我们相信提供更好的性能质量比目前的统一更重要。"

image.png

新模型,效果比之前好很多:

https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507

image.png

为什么失败?:

训练目标冲突:模型需要同时优化两个相互矛盾的目标(快速响应 vs 深度思考)

模式干扰:两种模式的特征表示可能在参数空间中相互干扰

这种混合方法本质上违背了"让模型专注于做好一件事"的设计哲学。阿里巴巴的经验证明了:有时候简单的分离比复杂的统一更有效。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!