I. 摘要与概述

LongCat-Flash-Thinking 是一个高效的开源大型推理模型,由美团 LongCat 团队开发。它总参数量达到 5600 亿,但平均激活参数仅为 270 亿,这得益于创新的混合专家(MoE)架构。这种架构允许模型根据上下文需求动态激活 186 亿到 313 亿参数,从而优化计算效率和性能。该模型基于 LongCat-Flash-Base 基础模型,通过精心设计的训练管道构建,包括长链式思考(Long CoT)冷启动训练和大规模式强化学习(RL)。

模型的核心贡献包括:领域并行 RL 训练与融合方法,这能解耦不同领域(如 STEM、编码、代理)的优化,并将专家模型融合成一个近似 Pareto 最优的统一模型;工业级 RL 基础设施 DORA 系统,提供异步训练支持,实现同步方法的 3 倍以上加速;以及在形式推理和代理推理方面的先进能力,例如在 AIME-25 基准上,通过代理推理减少了 64.5% 的令牌消耗(从 19653 个降到 6965 个),同时保持准确率。

LongCat-Flash-Thinking 在开源模型中达到了最先进(SOTA)性能,在数学、编码、代理和形式证明等复杂任务上表现出色。我们开源该模型,以推动推理系统和代理 AI 研究的进一步发展。聊天网站:https://longcat.ai;Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking;GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking。

II. 引言

近年来,大型语言模型(LLM)的重点已转向提升推理能力,这推动了人工智能通用智能(AGI)的边界。像 OpenAI 的 o1 和 o3、Google 的 Gemini 2.5、DeepSeek-R1、Qwen3 和 GLM-4.5 这样的模型展示了在复杂逻辑、数学、编码和代理任务上的强大能力。这种进步主要源于一个新范式:利用大规模强化学习(RL)不仅优化模型,还在推理时动态分配更多计算资源来扩展链式思考(CoT)。

然而,现有的模型在处理复杂推理时仍面临挑战,比如计算效率低、训练不稳定,以及在形式证明和代理推理等领域的局限性。本报告介绍 LongCat-Flash-Thinking,一个高效的开源 MoE 推理模型。它基于 LongCat-Flash-Base 构建,总参数 5600 亿,平均激活 270 亿,在逻辑、数学、编码和代理任务上表现出色。开发过程分为两个阶段:长 CoT 冷启动训练,培养基础推理能力;大规模 RL,通过 DORA 系统实现异步训练,并引入领域并行方案融合专家模型。最终模型在鲁棒性、安全性和人类对齐方面得到进一步优化。

本模型的目标是提供一个高效、开源的推理框架,帮助研究者探索 AGI 的边界。

III. 长 CoT 冷启动训练

长 CoT 冷启动训练是 LongCat-Flash-Thinking 开发的第一阶段,旨在通过多阶段课程学习增强基础模型的推理能力。这类似于给模型“预热”,让它从基础知识逐步掌握复杂推理,而不牺牲通用能力。过程包括中间训练(mid-training)和推理导向监督微调(SFT),使用精心 curation 的数据管道(如图 3 所示)。

中间训练:推理能力提升

基础预训练模型虽然强大,但往往缺乏处理复杂推理任务的能力。因为预训练数据主要是通用文本,推理密集型数据(如 STEM 和编码)比例低,而且长 CoT 模式稀缺。这导致模型在后续微调时产生同质化推理,难以深入思考难题。

为了解决这个问题,我们将中间训练转化为平衡课程。数据 curation 从学术档案、教科书和专有数据中收集数学、物理、化学和编码问题,强调多步逻辑推理。使用启发式规则和 LLM-as-a-Judge 混合方法进行过滤、去重和去污染。数据混合比例控制在推理数据和原始中间训练数据的平衡,确保不损害通用能力。详细 curation 在附录 A.1 中。

评估使用 pass@k 指标,在 AIME-24、BeyondAIME 和 LiveCodeBench 上验证。结果显示,增加推理数据比例显著提升性能,例如 pass@1 在 AIME-24 上提高 27.7%。这证明了该策略有效扩展模型的“推理边界”。

推理导向 SFT

中间训练后,我们进行 SFT 来对齐模型与高质量指令模式,并增强特定推理能力。除了通用推理,还聚焦形式推理和代理推理。

一般推理

数据从 STEM、编码、逻辑和通用 QA 领域 curation。提示 curation 包括多阶段过滤:使用 LLM-as-a-Judge 排除低质量查询;验证答案正确性通过模型投票;难度过滤基于专家模型 pass 率。响应生成使用拒绝采样,从 LongCat-Flash-Chat 生成候选,并通过规则和模型判断选最高质量的。每个领域细节在附录 A.2。

形式推理

形式推理如自动定理证明(ATP)是挑战性任务。我们引入专家迭代管道(图 3 下左角):语句形式化,从非正式问题转换为形式语句,使用 Lean4 服务器语法和语义过滤;迭代证明合成,从冷启动训练基线证明器,通过专家迭代生成和验证证明,添加思考过程。最终数据集用于增强模型的形式证明能力。

代理推理

代理推理涉及工具使用来解决复杂任务。我们提出双路径推理选择高价值查询:计算工具必要性值 vx = sw/. tool(x) – sw/o. tool(x),保留需要工具的查询。自动轨迹合成在 MCP 服务器和模拟工具环境中生成高质量轨迹,按复杂性分层(如单/多轮)用于课程学习。

训练配方

SFT 数据混合比例:STEM 35%、通用 QA 20%、编码 20%、代理 14%、证明 8%、逻辑 3%。使用 AdamW 优化器,学习率 3e-5,训练 2 轮,上下文长度 48K 以支持长推理链。

IV. 大规模强化学习

大规模 RL 是第二阶段,通过 DORA 系统和修改算法扩展模型潜力。包括基础设施、算法、奖励系统和训练配方。

RL 基础设施

RL 训练面临调度和长尾生成问题。我们开发 DORA 系统,支持异步 rollout,提供 3 倍加速。核心特征:弹性共置,将加速器分为独立生成组和弹性角色组;多版本异步管道,保持采样一致性和 KV-cache 重用(如图 5、6)。

大规模优化包括海量流式 RPC 和高效 MoE 并行,通过图级编译减少内核启动开销。

RL 算法

基于 GRPO 修改:移除 KL 损失;令牌级损失;三元剪裁处理负优势;截断重要性采样缓解引擎数值差距。最终目标如公式 (4)。

高效策略:带替换在线过滤;陈旧控制;不完整信号掩码。

奖励系统

非可验证任务使用判别奖励模型,由人类+模型标注偏好数据训练。可验证任务:STEM 使用 GenRM 带推理过程(表 1 显示准确率 98.8%);编码使用分布式沙箱集群。

训练配方

推理导向 RL:领域并行方法

混合领域 RL 不稳定,我们解耦 STEM、编码、代理训练专家模型。查询 curation 针对每个领域过滤。训练配置:STEM 渐进难度;编码 多阶段上下文;代理 结构化模板。

模型融合

使用任务向量规范化、dropout 和擦除融合专家(如图 8),创建 Pareto 最优模型。

一般 RL 微调

使用开源+合成数据,聚类去重,进行最终 PPO 训练,提升鲁棒性、安全和对齐。

V. 关键特性

  • 领域并行 RL 训练方法:解耦领域优化,融合专家避免干扰。
  • 开创性 RL 基础设施:DORA 支持异步、大规模训练。
  • 高级形式推理和代理推理:专家迭代证明合成,双路径查询选择和工具增强轨迹。

VI. 评估结果

评估基准如表 2。LongCat-Flash-Thinking 在开源模型中 SOTA:数学 99.2% (MATH500);编码 79.4% (LCB);代理 74.4% (BFCL V3);形式证明 81.6% (MiniF2F-Test@32);安全 93.7%-98.8%。与闭源模型竞争,效率高(如图 9)。

VII. 快速启动与部署

聊天模板:单轮 [Round 0] USER:{query} /think_on ASSISTANT:;多轮类似。工具调用格式如 Markdown 描述。部署支持 SGLang 和 vLLM。聊天网站 https://longcat.ai,启用“Think”按钮。

VIII. 许可协议与使用注意事项

模型权重 MIT 许可,不包括美团商标/专利。使用时考虑 LLM 限制(如语言变异、安全),遵守法律法规。

IX. 联系方式

邮箱:longcat-team@meituan.com。微信群:扫描二维码。

X. 结论与未来工作

LongCat-Flash-Thinking 推动开源推理模型发展。未来探索更多领域数据策略和高效 RL。