## 训练方法

### 预训练（3阶段）
1. **通用阶段**：30万亿tokens，建立基础知识
2. **推理阶段**：5万亿高质量tokens，增强STEM和编程能力  
3. **长上下文阶段**：扩展上下文长度至32K tokens

### 后训练（4阶段流程）
1. **长CoT冷启动**：建立基础推理模式
2. **推理强化学习**：优化数学和编程推理
3. **思维模式融合**：整合两种模式
4. **通用强化学习**：提升综合能力


Qwen团队在X post中解释停止使用混合思维模式的原始帖子地址是：https://x.com/Alibaba_Qwen/status/1947344511988076547




这个X post发布在Alibaba_Qwen的官方账号上，其中团队解释了他们的决定："在与社区交流并深思熟虑后，我们决定停止使用混合思维模式。相反，我们将分别训练Instruct和Thinking模型，以便获得最佳质量。我们相信提供更好的性能质量比目前的统一更重要。"


![image.png](/static/img/29e2965c3f935f96960ba6175d4baad7.image.webp)

新模型，效果比之前好很多：

https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507


![image.png](/static/img/cfac0709c6c3ab7611186a27a266ee0b.image.webp)

为什么失败？：

训练目标冲突：模型需要同时优化两个相互矛盾的目标（快速响应 vs 深度思考）

模式干扰：两种模式的特征表示可能在参数空间中相互干扰

这种混合方法本质上违背了"让模型专注于做好一件事"的设计哲学。阿里巴巴的经验证明了：有时候简单的分离比复杂的统一更有效。

Qwen3 论文解读——think/no think的失败

首页

分类

时间线

友链

动态

工具

联系我

美团LongCat-Flash-Thinking

【知识点】DeepSeek R1 解读2

目录

训练方法

预训练（3阶段）

后训练（4阶段流程）