探索Hermes 4：一个结合推理和指令跟随的混合模型家族

你好！如果你对大型语言模型（LLM）感兴趣，尤其是那些能处理复杂推理任务的同时又保持通用能力的模型，那么Hermes 4可能会让你眼前一亮。作为一个开源模型家族，它试图解决一个常见问题：如何让模型在进行多步推理时，不牺牲对日常指令的响应能力。今天，我们来聊聊Hermes 4的技术细节，从它的数据准备到训练过程，再到性能评估和实际行为表现。我会尽量用通俗的语言解释这些概念，就像我们在讨论一个工程项目一样。如果你有疑问，比如“Hermes 4是怎么训练的？”或者“它在数学推理上表现如何？”，我会一步步解答。

Hermes 4是由一个研究团队开发的模型系列，包括不同规模的版本，如405B、70B和14B参数模型。它不是单纯的聊天机器人，而是强调“混合推理”——意思是模型能进行结构化的、逐步思考，同时还能处理广泛的指令任务。团队在报告中提到，他们遇到了数据收集、训练和评估的挑战，并分享了他们的解决方案。这不仅仅是学术讨论，还包括实际的开源模型权重，你可以在Hugging Face上找到它们。

为什么会有人开发这样的模型？因为现有的LLM在推理任务上（如解决数学问题）往往需要额外的计算资源，而在一般指令上（如回答问题）又可能不够灵活。Hermes 4试图桥接这个差距，通过大规模的数据合成和精细的训练策略来实现。接下来，我们一步步拆解。

Hermes 4的核心贡献是什么？

如果你在想“Hermes 4到底带来了什么新东西？”，答案在于三个方面：

数据合成和策展策略：他们创建了一个混合数据集，包括推理专注的数据和通用指令示例，总计约500万样本和190亿tokens。
训练方法：使用了损失掩码、长度控制微调和高效打包策略，来处理异质数据。
全面评估：在数学、编码、知识、理解和对齐基准上进行了测试，还包括定性行为分析。

这些贡献让Hermes 4成为一个透明、可复制的开源推理模型，能与前沿系统相媲美。

数据准备：如何构建Hermes 4的训练基础？

数据是模型的“原料”，Hermes 4的数据集主要来自新合成的推理和非推理数据。团队强调这是一个混合方法：350万推理样本加上160万非推理样本。推理样本特别“重”，平均每个样本有五倍于非推理样本的tokens，因为它们包含长达1.6万tokens的思考轨迹。

DataForge：一个基于图的合成数据生成器

你可能会问：“他们是怎么生成这些数据的？”他们使用了一个叫DataForge的工具，受AgentInstruct启发。这是一个图基的生成器，使用有向无环图（DAG）来创建对话数据。每个节点像一个函数，定义了前提条件和后置条件，数据通过随机游走流动。

例如，生成单轮QA数据的流程：

从预训练种子数据中取一段文本。
变换成随机目标类型（如把维基百科文章变成说唱歌词）。
生成指令：可能是上下文相关的（嵌入变换文本的任务），或独立的（仅用作灵感）。
用专属回答生成器创建答案。
用LLM评判器审查：基于连贯性、相关性、复杂性等标准打分。如果失败，重试直到通过或丢弃。

DataForge的酷点在于它允许嵌套图：一个图可以作为另一个图的节点，形成更高阶的结构。这让生成过程更灵活。

预训练种子数据的清洗

种子数据来自DCLM和FineWeb的偏好样本（偏向最近的）。先用ModernBert嵌入进行语义去重（余弦相似度阈值0.7），然后用LLM评判过滤不完整或格式差的段落。

拒绝采样：使用Atropos生成验证轨迹

另一个关键是拒绝采样，使用Atropos（一个开源强化学习环境管理器）针对上千个任务特定验证器生成轨迹。每个轨迹都验证正确，并包括多个唯一路径到相同结果。

一些具体环境：

Answer Format Training：训练模型用用户请求的格式呈现答案（如用\boxed{}包数学答案），奖励基于格式有效性。强制使用和分隔符。
Instruction Following：基于RLVR-IFEval，生成约束指令（如“每N个词用法语”），拒绝采样成功轨迹。
Internbootcamp：从约1000个推理任务生成7万轨迹，选择正确且在token预算内的路径。
Schema Adherence：生成或编辑JSON对象，确保符合模式。使用Pydantic动态编译模式，注入错误进行编辑任务。
Tool Use：训练交错推理和工具调用（如Python解释器），在块内多步交互，奖励基于最终答案和工具使用。

覆盖目标域的任务生成

为了覆盖特定领域，他们用两种技术：

分类法：递归枚举子域，直到叶子节点是提示。例如，枚举LLM输出格式的分类，生成如“生成5个关于周期表的MCQ，用JSON格式选项，输出为CSV”的任务。
PersonaHub：模拟用户人格生成任务，如用FinePersonas创建应用脚本任务，然后合成推理轨迹。

数据集的长度分布如图3所示：平均14,394 tokens，中位9,382，频率峰值在较短样本。

训练过程：如何让Hermes 4高效学习？

训练用了修改版的TorchTitan，从Llama 3.1的405B和70B开始，14B从Qwen3 14B开始。数据集异质，所以用First-Fit Decreasing方法打包样本，效率>99.9%。用Flex Attention限制注意力到每个样本内，只用“assistant”角色tokens计算损失。

硬件：192个NVIDIA B200 GPU，混合分布式数据并行、张量并行和全分片数据并行。余弦学习率调度，热身300步，总9000步，全局批次384，上下文16,384 tokens。

训练参数表：

模型大小	并行方式	Tokens	学习率	B200小时
14B	FSDP	56B	5×10⁻⁵	4,454
70B	FSDP+TP	56B	1×10⁻⁵	12,864
405B	FSDP+TP	56B	5×10⁻⁶	71,616

损失曲线如图2：从0.65降到0.45左右。

控制推理长度

14B模型在LiveCodeBench上60%时间达到40,960 tokens上限。解决方案：第二阶段监督微调，教模型在30,000 tokens后停止推理。

步骤：

从当前策略生成合成推理轨迹。
在30,000 tokens插入，焦点在终止决策上。
只训练和 tokens，避免模型崩溃。

数据过滤：从WebInstruct-Verified、rSTAR-Coder和DeepMath-130k收集30万提示，生成响应，过滤未终止的，处理两种情况（完成答案或强制关闭

）。

用Axolotl训练，因为它支持字符跨度掩码。

结果表2显示：准确率略降（最多-12.7%），但过长率大减（至少-48.8%）。

基准	Stage 1 分数	30k-tuned 分数	相对Δ	Stage 1 过长率	30k-tuned 过长率	相对Δ
AIME’24	55.0	52.4	-4.7%	28.2	6.1	-78.4%
AIME’25	48.7	42.5	-12.7%	25.9	9.0	-65.3%
GPQA Diamond	57.4	55.9	-2.6%	18.2	9.5	-47.8%
LCBv6 Aug2024+	28.6	44.2	+54.5%	60.0	12.1	-79.8%

上下文长度分布如图4：固定30k思考tokens，不同提示/答案大小。

评估：Hermes 4在基准测试中表现如何？

评估用了lighteval、EQBench集合和Atropos。所有样本公开在Hugging Face。系统用OpenAI兼容端点，确保透明。

基准实现：lighteval用于MATH、GPQA等；Atropos用于LiveCodeBench、RewardBench等。

Atropos设计：单文件评估、详细日志、重叠推理和评分、最小OpenAI客户端等。

弹性推理集群：用sglang-router处理预占，支持自动缩放。

条件：上下文40,960（推理）或32,768；温度0.6，Top-P 0.95，Top-K 20（除特定模型）。

RefusalBench：拒绝率评估

自定义基准：166个提示，32类。用Sonnet 4判断拒绝。三类倒转奖励（小害、剥削、自杀）。Hermes 4推理模式57.1，非推理43.2。

结果

405B比较表3：

指标	Hermes 4 405B R (N)	Cogito 405B R (N)	Deepseek R1 671B R	Deepseek V3 671B N	Qwen3 235B R (N)
MATH-500	96.3 (73.8)	91.7 (79.3)	97.0	92.5	98.0 (90.3)
AIME’24	81.9 (11.4)	40.8 (17.7)	87.0	50.6	78.7 (34.1)
… (完整表见报告)	…	…	…	…	…

70B和14B表4类似。

Hermes 4在数学、逻辑、知识上竞争力强，推理模式提升显著。

行为分析：Hermes 4在实际使用中有什么特点？

除了分数，Hermes 4有独特行为。通过结构化探针测试：角色采用、一致性、推理风格。

标准提示下的基线行为

在标准助理提示下，Hermes 4显示“上下文忠诚”：对待虚构提示如角色扮演，无重复免责。相比，其他模型有政策刚性（如GPT-5常加AI身份声明）。

生成任务中的风格转移

创意写作探针：Hermes 4模仿目标风格，包括节奏和用词，而非表面引用。

通过提示工程的潜在能力

系统提示定制：反奉承提示让Hermes 4调整推理轨迹，引入强调语言。
聊天模板修改：改“assistant”为“me”，Hermes 4采用第一人称、同伴式persona，减少免责。

总体，Hermes 4行为更灵活，受提示影响大。

如何获取和使用Hermes 4？

模型权重在https://huggingface.co/NousResearch2公开。数据集部分来自Hermes 3。

步骤使用：

访问Hugging Face集合。
下载权重（如405B版本）。
用TorchTitan或类似框架加载。
提示时，用启用推理。

FAQ：关于Hermes 4的常见问题

Hermes 4是什么样的模型？

Hermes 4是一个混合推理模型家族，结合结构化多步推理和广义指令跟随。规模从14B到405B。

Hermes 4如何处理长推理？

通过长度控制微调，在30k tokens后终止

，避免上下文溢出。

Hermes 4在编码任务上强吗？

是的，在LiveCodeBench上，405B推理模式61.3%，非推理28.1%，优于一些同类。

为什么Hermes 4使用拒绝采样？

为了生成验证推理轨迹，确保轨迹正确并多样，使用Atropos针对任务验证器。

Hermes 4的拒绝率高吗？

在RefusalBench上，推理模式57.1（少拒绝），但安全类倒转以保护。

如何评估Hermes 4的行为？

通过探针如角色扮演、政治分析，显示更高上下文忠诚和灵活性。

Hermes 4的数据从哪里来？

主要合成：DataForge生成，拒绝采样验证，混合推理和非推理样本。

训练Hermes 4需要什么硬件？

192 B200 GPU，训练56B tokens，小时从4k到71k不等。

Hermes 4支持工具使用吗？

是的，环境训练交错推理和工具调用，如Python解释器，在

内多步。

与其他模型比，Hermes 4的优势？

开源、透明评估、在推理和通用间平衡好，如GPQA Diamond 70.5% (推理)。

通过这些细节，你应该对Hermes 4有全面了解。如果你是开发者，可以试试下载权重实验；如果是研究者，评估日志公开可复现。希望这篇文章帮你澄清了疑问！

Hermes-4 模型突破：是什么？对国内大模型意味着什么？