美团开源5600亿参数LongCat-Flash-Thinking模型：如何实现推理效率飞跃？

I. 摘要与概述

LongCat-Flash-Thinking 是一个高效的开源大型推理模型，由美团 LongCat 团队开发。它总参数量达到 5600 亿，但平均激活参数仅为 270 亿，这得益于创新的混合专家（MoE）架构。这种架构允许模型根据上下文需求动态激活 186 亿到 313 亿参数，从而优化计算效率和性能。该模型基于 LongCat-Flash-Base 基础模型，通过精心设计的训练管道构建，包括长链式思考（Long CoT）冷启动训练和大规模式强化学习（RL）。

模型的核心贡献包括：领域并行 RL 训练与融合方法，这能解耦不同领域（如 STEM、编码、代理）的优化，并将专家模型融合成一个近似 Pareto 最优的统一模型；工业级 RL 基础设施 DORA 系统，提供异步训练支持，实现同步方法的 3 倍以上加速；以及在形式推理和代理推理方面的先进能力，例如在 AIME-25 基准上，通过代理推理减少了 64.5% 的令牌消耗（从 19653 个降到 6965 个），同时保持准确率。

LongCat-Flash-Thinking 在开源模型中达到了最先进（SOTA）性能，在数学、编码、代理和形式证明等复杂任务上表现出色。我们开源该模型，以推动推理系统和代理 AI 研究的进一步发展。聊天网站：https://longcat.ai；Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking；GitHub：https://github.com/meituan-longcat/LongCat-Flash-Thinking。

II. 引言

近年来，大型语言模型（LLM）的重点已转向提升推理能力，这推动了人工智能通用智能（AGI）的边界。像 OpenAI 的 o1 和 o3、Google 的 Gemini 2.5、DeepSeek-R1、Qwen3 和 GLM-4.5 这样的模型展示了在复杂逻辑、数学、编码和代理任务上的强大能力。这种进步主要源于一个新范式：利用大规模强化学习（RL）不仅优化模型，还在推理时动态分配更多计算资源来扩展链式思考（CoT）。

然而，现有的模型在处理复杂推理时仍面临挑战，比如计算效率低、训练不稳定，以及在形式证明和代理推理等领域的局限性。本报告介绍 LongCat-Flash-Thinking，一个高效的开源 MoE 推理模型。它基于 LongCat-Flash-Base 构建，总参数 5600 亿，平均激活 270 亿，在逻辑、数学、编码和代理任务上表现出色。开发过程分为两个阶段：长 CoT 冷启动训练，培养基础推理能力；大规模 RL，通过 DORA 系统实现异步训练，并引入领域并行方案融合专家模型。最终模型在鲁棒性、安全性和人类对齐方面得到进一步优化。

本模型的目标是提供一个高效、开源的推理框架，帮助研究者探索 AGI 的边界。

III. 长 CoT 冷启动训练

长 CoT 冷启动训练是 LongCat-Flash-Thinking 开发的第一阶段，旨在通过多阶段课程学习增强基础模型的推理能力。这类似于给模型“预热”，让它从基础知识逐步掌握复杂推理，而不牺牲通用能力。过程包括中间训练（mid-training）和推理导向监督微调（SFT），使用精心 curation 的数据管道（如图 3 所示）。

中间训练：推理能力提升

基础预训练模型虽然强大，但往往缺乏处理复杂推理任务的能力。因为预训练数据主要是通用文本，推理密集型数据（如 STEM 和编码）比例低，而且长 CoT 模式稀缺。这导致模型在后续微调时产生同质化推理，难以深入思考难题。

为了解决这个问题，我们将中间训练转化为平衡课程。数据 curation 从学术档案、教科书和专有数据中收集数学、物理、化学和编码问题，强调多步逻辑推理。使用启发式规则和 LLM-as-a-Judge 混合方法进行过滤、去重和去污染。数据混合比例控制在推理数据和原始中间训练数据的平衡，确保不损害通用能力。详细 curation 在附录 A.1 中。

评估使用 pass@k 指标，在 AIME-24、BeyondAIME 和 LiveCodeBench 上验证。结果显示，增加推理数据比例显著提升性能，例如 pass@1 在 AIME-24 上提高 27.7%。这证明了该策略有效扩展模型的“推理边界”。

推理导向 SFT

中间训练后，我们进行 SFT 来对齐模型与高质量指令模式，并增强特定推理能力。除了通用推理，还聚焦形式推理和代理推理。

一般推理

数据从 STEM、编码、逻辑和通用 QA 领域 curation。提示 curation 包括多阶段过滤：使用 LLM-as-a-Judge 排除低质量查询；验证答案正确性通过模型投票；难度过滤基于专家模型 pass 率。响应生成使用拒绝采样，从 LongCat-Flash-Chat 生成候选，并通过规则和模型判断选最高质量的。每个领域细节在附录 A.2。

形式推理

形式推理如自动定理证明（ATP）是挑战性任务。我们引入专家迭代管道（图 3 下左角）：语句形式化，从非正式问题转换为形式语句，使用 Lean4 服务器语法和语义过滤；迭代证明合成，从冷启动训练基线证明器，通过专家迭代生成和验证证明，添加思考过程。最终数据集用于增强模型的形式证明能力。

代理推理

代理推理涉及工具使用来解决复杂任务。我们提出双路径推理选择高价值查询：计算工具必要性值 vx = sw/. tool(x) – sw/o. tool(x)，保留需要工具的查询。自动轨迹合成在 MCP 服务器和模拟工具环境中生成高质量轨迹，按复杂性分层（如单/多轮）用于课程学习。

训练配方

SFT 数据混合比例：STEM 35%、通用 QA 20%、编码 20%、代理 14%、证明 8%、逻辑 3%。使用 AdamW 优化器，学习率 3e-5，训练 2 轮，上下文长度 48K 以支持长推理链。

IV. 大规模强化学习

大规模 RL 是第二阶段，通过 DORA 系统和修改算法扩展模型潜力。包括基础设施、算法、奖励系统和训练配方。

RL 基础设施

RL 训练面临调度和长尾生成问题。我们开发 DORA 系统，支持异步 rollout，提供 3 倍加速。核心特征：弹性共置，将加速器分为独立生成组和弹性角色组；多版本异步管道，保持采样一致性和 KV-cache 重用（如图 5、6）。

大规模优化包括海量流式 RPC 和高效 MoE 并行，通过图级编译减少内核启动开销。

RL 算法

基于 GRPO 修改：移除 KL 损失；令牌级损失；三元剪裁处理负优势；截断重要性采样缓解引擎数值差距。最终目标如公式 (4)。

高效策略：带替换在线过滤；陈旧控制；不完整信号掩码。

奖励系统

非可验证任务使用判别奖励模型，由人类+模型标注偏好数据训练。可验证任务：STEM 使用 GenRM 带推理过程（表 1 显示准确率 98.8%）；编码使用分布式沙箱集群。

训练配方

推理导向 RL：领域并行方法

混合领域 RL 不稳定，我们解耦 STEM、编码、代理训练专家模型。查询 curation 针对每个领域过滤。训练配置：STEM 渐进难度；编码多阶段上下文；代理结构化模板。

模型融合

使用任务向量规范化、dropout 和擦除融合专家（如图 8），创建 Pareto 最优模型。

一般 RL 微调

使用开源+合成数据，聚类去重，进行最终 PPO 训练，提升鲁棒性、安全和对齐。

V. 关键特性

领域并行 RL 训练方法：解耦领域优化，融合专家避免干扰。
开创性 RL 基础设施：DORA 支持异步、大规模训练。
高级形式推理和代理推理：专家迭代证明合成，双路径查询选择和工具增强轨迹。

VI. 评估结果

评估基准如表 2。LongCat-Flash-Thinking 在开源模型中 SOTA：数学 99.2% (MATH500)；编码 79.4% (LCB)；代理 74.4% (BFCL V3)；形式证明 81.6% (MiniF2F-Test@32)；安全 93.7%-98.8%。与闭源模型竞争，效率高（如图 9）。

VII. 快速启动与部署

聊天模板：单轮 [Round 0] USER:{query} /think_on ASSISTANT:；多轮类似。工具调用格式如 Markdown 描述。部署支持 SGLang 和 vLLM。聊天网站 https://longcat.ai，启用“Think”按钮。

VIII. 许可协议与使用注意事项

模型权重 MIT 许可，不包括美团商标/专利。使用时考虑 LLM 限制（如语言变异、安全），遵守法律法规。

IX. 联系方式

邮箱：longcat-team@meituan.com。微信群：扫描二维码。

X. 结论与未来工作

LongCat-Flash-Thinking 推动开源推理模型发展。未来探索更多领域数据策略和高效 RL。