目录
LongCat-Flash-Thinking 技术报告摘要
模型概述
核心创新
1. 训练架构:双阶段流程
2. DORA系统:高效RL基础设施
3. 专门化能力增强
形式化推理
智能代理推理
4. 改进的RL算法
性能表现
数学推理
编程能力
智能代理
形式化定理证明
安全性
技术架构
奖励系统
主要贡献
开源信息
技术意义
https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
LongCat-Flash-Thinking 技术报告摘要
模型概述
LongCat-Flash-Thinking 是美团LongCat团队开发的560亿参数开源混合专家(MoE)推理模型,平均激活参数为270亿。该模型专门为增强推理能力而设计,在数学、编程、智能代理和形式化推理等领域表现出色。
核心创新
1. 训练架构:双阶段流程
- 第一阶段:长链式思维(CoT)冷启动训练
- 中间训练:通过课程学习增强基础推理能力
- 推理导向的监督微调(SFT):涵盖一般推理、形式化推理和智能代理推理
- 第二阶段:大规模强化学习(RL)
- 基于DORA系统的工业级异步训练
- 领域并行训练:STEM、编程、智能代理分别训练专家模型
- 模型融合:将专家模型合并为单一的近似帕累托最优模型
2. DORA系统:高效RL基础设施
- 异步架构:相比同步方法实现3倍以上的训练加速
- 弹性协同定位:独立生成器组 + 弹性角色组
- 关键优化:
- 流式RPC通信
- KV-cache重用
- MoE并行化优化
- 支持数万个加速器的工业级训练
3. 专门化能力增强
形式化推理
- 自动形式化器:将自然语言问题转换为形式化陈述
- 迭代证明合成:冷启动 + 专家迭代循环
- Lean4服务器集成验证
智能代理推理
- 双路径评估:识别真正需要工具的查询
- 工具必要性评分:s_w/tool(x) - s_w/o tool(x)
- 自动轨迹合成:多样化工具API环境
4. 改进的RL算法
基于GRPO的修改版本,解决异步训练中的关键问题:
- 移除KL散度损失项减少梯度偏差
- 采用token级别损失提高稳定性
- 三重裁剪策略处理负优势
- 截断重要性采样缓解数值误差
性能表现
数学推理
- MATH-500: 99.2% (Mean@1)
- AIME-24: 93.3% (Mean@32)
- AIME-25: 90.6% (Mean@32)
- HMMT-25: 83.7% (Mean@32)
编程能力
- LiveCodeBench: 79.4% (Mean@4)
- OJBench: 40.7% (Mean@1)
智能代理
- 在AIME-25上实现64.5%的token消耗减少(从19,653降至6,965)
- τ²-Bench各子领域表现优异
形式化定理证明
- MiniF2F-Test: 67.6% (Pass@1), 81.6% (Pass@32)
- 显著超越其他开源模型
安全性
在有害内容、犯罪活动、错误信息和隐私保护方面均达到90%+的拒绝率
技术架构
- 总参数:560B
- 激活参数:平均27B
- 架构:基于零计算专家和快捷连接的MoE结构
- 上下文长度:最高64K tokens
- 支持语言:20+编程语言的分布式代码沙盒
奖励系统
- 可验证任务:生成式奖励模型(GenRM),具备推理过程
- 不可验证任务:基于人类和模型联合标注的判别式奖励模型
- 编程任务:分布式代码沙盒集群执行验证
主要贡献
- 领域并行RL训练和融合方法:稳定训练并获得近似帕累托最优的融合模型
- 开创性的工业级RL基础设施:DORA系统支持大规模异步训练
- 广泛高效的高级推理:在形式化推理和智能代理方面建立明显优势
开源信息
技术意义
该模型在开源大语言模型推理能力方面树立了新的标杆,特别是在数学推理、形式化证明和智能代理任务上表现卓越,为推理系统的进一步发展提供了重要的技术基础和开源贡献。
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。
许可协议。转载请注明出处!