美团LongCat-Flash-Thinking
2025-09-24
深度学习
00

目录

LongCat-Flash-Thinking 技术报告摘要
模型概述
核心创新
1. 训练架构:双阶段流程
2. DORA系统:高效RL基础设施
3. 专门化能力增强
形式化推理
智能代理推理
4. 改进的RL算法
性能表现
数学推理
编程能力
智能代理
形式化定理证明
安全性
技术架构
奖励系统
主要贡献
开源信息
技术意义

https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

LongCat-Flash-Thinking 技术报告摘要

模型概述

LongCat-Flash-Thinking 是美团LongCat团队开发的560亿参数开源混合专家(MoE)推理模型,平均激活参数为270亿。该模型专门为增强推理能力而设计,在数学、编程、智能代理和形式化推理等领域表现出色。

核心创新

1. 训练架构:双阶段流程

  • 第一阶段:长链式思维(CoT)冷启动训练
    • 中间训练:通过课程学习增强基础推理能力
    • 推理导向的监督微调(SFT):涵盖一般推理、形式化推理和智能代理推理
  • 第二阶段:大规模强化学习(RL)
    • 基于DORA系统的工业级异步训练
    • 领域并行训练:STEM、编程、智能代理分别训练专家模型
    • 模型融合:将专家模型合并为单一的近似帕累托最优模型

2. DORA系统:高效RL基础设施

  • 异步架构:相比同步方法实现3倍以上的训练加速
  • 弹性协同定位:独立生成器组 + 弹性角色组
  • 关键优化
    • 流式RPC通信
    • KV-cache重用
    • MoE并行化优化
    • 支持数万个加速器的工业级训练

3. 专门化能力增强

形式化推理

  • 自动形式化器:将自然语言问题转换为形式化陈述
  • 迭代证明合成:冷启动 + 专家迭代循环
  • Lean4服务器集成验证

智能代理推理

  • 双路径评估:识别真正需要工具的查询
  • 工具必要性评分:s_w/tool(x) - s_w/o tool(x)
  • 自动轨迹合成:多样化工具API环境

4. 改进的RL算法

基于GRPO的修改版本,解决异步训练中的关键问题:

  • 移除KL散度损失项减少梯度偏差
  • 采用token级别损失提高稳定性
  • 三重裁剪策略处理负优势
  • 截断重要性采样缓解数值误差

性能表现

数学推理

  • MATH-500: 99.2% (Mean@1)
  • AIME-24: 93.3% (Mean@32)
  • AIME-25: 90.6% (Mean@32)
  • HMMT-25: 83.7% (Mean@32)

编程能力

  • LiveCodeBench: 79.4% (Mean@4)
  • OJBench: 40.7% (Mean@1)

智能代理

  • 在AIME-25上实现64.5%的token消耗减少(从19,653降至6,965)
  • τ²-Bench各子领域表现优异

形式化定理证明

  • MiniF2F-Test: 67.6% (Pass@1), 81.6% (Pass@32)
  • 显著超越其他开源模型

安全性

在有害内容、犯罪活动、错误信息和隐私保护方面均达到90%+的拒绝率

技术架构

  • 总参数:560B
  • 激活参数:平均27B
  • 架构:基于零计算专家和快捷连接的MoE结构
  • 上下文长度:最高64K tokens
  • 支持语言:20+编程语言的分布式代码沙盒

奖励系统

  • 可验证任务:生成式奖励模型(GenRM),具备推理过程
  • 不可验证任务:基于人类和模型联合标注的判别式奖励模型
  • 编程任务:分布式代码沙盒集群执行验证

主要贡献

  1. 领域并行RL训练和融合方法:稳定训练并获得近似帕累托最优的融合模型
  2. 开创性的工业级RL基础设施:DORA系统支持大规模异步训练
  3. 广泛高效的高级推理:在形式化推理和智能代理方面建立明显优势

开源信息

技术意义

该模型在开源大语言模型推理能力方面树立了新的标杆,特别是在数学推理、形式化证明和智能代理任务上表现卓越,为推理系统的进一步发展提供了重要的技术基础和开源贡献。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!