https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

LongCat-Flash-Thinking 技术报告摘要

模型概述

LongCat-Flash-Thinking 是美团LongCat团队开发的560亿参数开源混合专家(MoE)推理模型，平均激活参数为270亿。该模型专门为增强推理能力而设计，在数学、编程、智能代理和形式化推理等领域表现出色。

核心创新

1. 训练架构：双阶段流程

第一阶段：长链式思维(CoT)冷启动训练
- 中间训练：通过课程学习增强基础推理能力
- 推理导向的监督微调(SFT)：涵盖一般推理、形式化推理和智能代理推理
第二阶段：大规模强化学习(RL)
- 基于DORA系统的工业级异步训练
- 领域并行训练：STEM、编程、智能代理分别训练专家模型
- 模型融合：将专家模型合并为单一的近似帕累托最优模型

2. DORA系统：高效RL基础设施

异步架构：相比同步方法实现3倍以上的训练加速
弹性协同定位：独立生成器组 + 弹性角色组
关键优化：
- 流式RPC通信
- KV-cache重用
- MoE并行化优化
- 支持数万个加速器的工业级训练

3. 专门化能力增强

形式化推理

自动形式化器：将自然语言问题转换为形式化陈述
迭代证明合成：冷启动 + 专家迭代循环
Lean4服务器集成验证

智能代理推理

双路径评估：识别真正需要工具的查询
工具必要性评分：s_w/tool(x) - s_w/o tool(x)
自动轨迹合成：多样化工具API环境

4. 改进的RL算法

基于GRPO的修改版本，解决异步训练中的关键问题：

移除KL散度损失项减少梯度偏差
采用token级别损失提高稳定性
三重裁剪策略处理负优势
截断重要性采样缓解数值误差

性能表现

数学推理

MATH-500: 99.2% (Mean@1)
AIME-24: 93.3% (Mean@32)
AIME-25: 90.6% (Mean@32)
HMMT-25: 83.7% (Mean@32)

编程能力

LiveCodeBench: 79.4% (Mean@4)
OJBench: 40.7% (Mean@1)

智能代理

在AIME-25上实现64.5%的token消耗减少（从19,653降至6,965）
τ²-Bench各子领域表现优异

形式化定理证明

MiniF2F-Test: 67.6% (Pass@1), 81.6% (Pass@32)
显著超越其他开源模型

安全性

在有害内容、犯罪活动、错误信息和隐私保护方面均达到90%+的拒绝率

技术架构

总参数：560B
激活参数：平均27B
架构：基于零计算专家和快捷连接的MoE结构
上下文长度：最高64K tokens
支持语言：20+编程语言的分布式代码沙盒

奖励系统

可验证任务：生成式奖励模型(GenRM)，具备推理过程
不可验证任务：基于人类和模型联合标注的判别式奖励模型
编程任务：分布式代码沙盒集群执行验证

主要贡献

领域并行RL训练和融合方法：稳定训练并获得近似帕累托最优的融合模型
开创性的工业级RL基础设施：DORA系统支持大规模异步训练
广泛高效的高级推理：在形式化推理和智能代理方面建立明显优势

开源信息

模型已开源，促进推理系统和智能代理AI研究
LongCat Chat: https://longcat.ai
Huggingface: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
Github: https://github.com/meituan-longcat/LongCat-Flash-Thinking

技术意义

该模型在开源大语言模型推理能力方面树立了新的标杆，特别是在数学推理、形式化证明和智能代理任务上表现卓越，为推理系统的进一步发展提供了重要的技术基础和开源贡献。

目录