探索Hermes 4:一个结合推理和指令跟随的混合模型家族
你好!如果你对大型语言模型(LLM)感兴趣,尤其是那些能处理复杂推理任务的同时又保持通用能力的模型,那么Hermes 4可能会让你眼前一亮。作为一个开源模型家族,它试图解决一个常见问题:如何让模型在进行多步推理时,不牺牲对日常指令的响应能力。今天,我们来聊聊Hermes 4的技术细节,从它的数据准备到训练过程,再到性能评估和实际行为表现。我会尽量用通俗的语言解释这些概念,就像我们在讨论一个工程项目一样。如果你有疑问,比如“Hermes 4是怎么训练的?”或者“它在数学推理上表现如何?”,我会一步步解答。
Hermes 4是由一个研究团队开发的模型系列,包括不同规模的版本,如405B、70B和14B参数模型。它不是单纯的聊天机器人,而是强调“混合推理”——意思是模型能进行结构化的、逐步思考,同时还能处理广泛的指令任务。团队在报告中提到,他们遇到了数据收集、训练和评估的挑战,并分享了他们的解决方案。这不仅仅是学术讨论,还包括实际的开源模型权重,你可以在Hugging Face上找到它们。
为什么会有人开发这样的模型?因为现有的LLM在推理任务上(如解决数学问题)往往需要额外的计算资源,而在一般指令上(如回答问题)又可能不够灵活。Hermes 4试图桥接这个差距,通过大规模的数据合成和精细的训练策略来实现。接下来,我们一步步拆解。
Hermes 4的核心贡献是什么?
如果你在想“Hermes 4到底带来了什么新东西?”,答案在于三个方面:
-
数据合成和策展策略:他们创建了一个混合数据集,包括推理专注的数据和通用指令示例,总计约500万样本和190亿tokens。 -
训练方法:使用了损失掩码、长度控制微调和高效打包策略,来处理异质数据。 -
全面评估:在数学、编码、知识、理解和对齐基准上进行了测试,还包括定性行为分析。
这些贡献让Hermes 4成为一个透明、可复制的开源推理模型,能与前沿系统相媲美。
数据准备:如何构建Hermes 4的训练基础?
数据是模型的“原料”,Hermes 4的数据集主要来自新合成的推理和非推理数据。团队强调这是一个混合方法:350万推理样本加上160万非推理样本。推理样本特别“重”,平均每个样本有五倍于非推理样本的tokens,因为它们包含长达1.6万tokens的思考轨迹。
DataForge:一个基于图的合成数据生成器
你可能会问:“他们是怎么生成这些数据的?”他们使用了一个叫DataForge的工具,受AgentInstruct启发。这是一个图基的生成器,使用有向无环图(DAG)来创建对话数据。每个节点像一个函数,定义了前提条件和后置条件,数据通过随机游走流动。
例如,生成单轮QA数据的流程:
-
从预训练种子数据中取一段文本。 -
变换成随机目标类型(如把维基百科文章变成说唱歌词)。 -
生成指令:可能是上下文相关的(嵌入变换文本的任务),或独立的(仅用作灵感)。 -
用专属回答生成器创建答案。 -
用LLM评判器审查:基于连贯性、相关性、复杂性等标准打分。如果失败,重试直到通过或丢弃。
DataForge的酷点在于它允许嵌套图:一个图可以作为另一个图的节点,形成更高阶的结构。这让生成过程更灵活。
预训练种子数据的清洗
种子数据来自DCLM和FineWeb的偏好样本(偏向最近的)。先用ModernBert嵌入进行语义去重(余弦相似度阈值0.7),然后用LLM评判过滤不完整或格式差的段落。
拒绝采样:使用Atropos生成验证轨迹
另一个关键是拒绝采样,使用Atropos(一个开源强化学习环境管理器)针对上千个任务特定验证器生成轨迹。每个轨迹都验证正确,并包括多个唯一路径到相同结果。
一些具体环境:
-
Answer Format Training:训练模型用用户请求的格式呈现答案(如用\boxed{}包数学答案),奖励基于格式有效性。强制使用和分隔符。 -
Instruction Following:基于RLVR-IFEval,生成约束指令(如“每N个词用法语”),拒绝采样成功轨迹。 -
Internbootcamp:从约1000个推理任务生成7万轨迹,选择正确且在token预算内的路径。 -
Schema Adherence:生成或编辑JSON对象,确保符合模式。使用Pydantic动态编译模式,注入错误进行编辑任务。 -
Tool Use:训练交错推理和工具调用(如Python解释器),在块内多步交互,奖励基于最终答案和工具使用。
覆盖目标域的任务生成
为了覆盖特定领域,他们用两种技术:
-
分类法:递归枚举子域,直到叶子节点是提示。例如,枚举LLM输出格式的分类,生成如“生成5个关于周期表的MCQ,用JSON格式选项,输出为CSV”的任务。 -
PersonaHub:模拟用户人格生成任务,如用FinePersonas创建应用脚本任务,然后合成推理轨迹。
数据集的长度分布如图3所示:平均14,394 tokens,中位9,382,频率峰值在较短样本。
训练过程:如何让Hermes 4高效学习?
训练用了修改版的TorchTitan,从Llama 3.1的405B和70B开始,14B从Qwen3 14B开始。数据集异质,所以用First-Fit Decreasing方法打包样本,效率>99.9%。用Flex Attention限制注意力到每个样本内,只用“assistant”角色tokens计算损失。
硬件:192个NVIDIA B200 GPU,混合分布式数据并行、张量并行和全分片数据并行。余弦学习率调度,热身300步,总9000步,全局批次384,上下文16,384 tokens。
训练参数表:
模型大小 | 并行方式 | Tokens | 学习率 | B200小时 |
---|---|---|---|---|
14B | FSDP | 56B | 5×10⁻⁵ | 4,454 |
70B | FSDP+TP | 56B | 1×10⁻⁵ | 12,864 |
405B | FSDP+TP | 56B | 5×10⁻⁶ | 71,616 |
损失曲线如图2:从0.65降到0.45左右。
控制推理长度
14B模型在LiveCodeBench上60%时间达到40,960 tokens上限。解决方案:第二阶段监督微调,教模型在30,000 tokens后停止推理。
步骤:
-
从当前策略生成合成推理轨迹。 -
在30,000 tokens插入,焦点在终止决策上。 -
只训练和 tokens,避免模型崩溃。
数据过滤:从WebInstruct-Verified、rSTAR-Coder和DeepMath-130k收集30万提示,生成响应,过滤未终止的,处理两种情况(完成答案或强制关闭
)。
用Axolotl训练,因为它支持字符跨度掩码。
结果表2显示:准确率略降(最多-12.7%),但过长率大减(至少-48.8%)。
基准 | Stage 1 分数 | 30k-tuned 分数 | 相对Δ | Stage 1 过长率 | 30k-tuned 过长率 | 相对Δ |
---|---|---|---|---|---|---|
AIME’24 | 55.0 | 52.4 | -4.7% | 28.2 | 6.1 | -78.4% |
AIME’25 | 48.7 | 42.5 | -12.7% | 25.9 | 9.0 | -65.3% |
GPQA Diamond | 57.4 | 55.9 | -2.6% | 18.2 | 9.5 | -47.8% |
LCBv6 Aug2024+ | 28.6 | 44.2 | +54.5% | 60.0 | 12.1 | -79.8% |
上下文长度分布如图4:固定30k思考tokens,不同提示/答案大小。
评估:Hermes 4在基准测试中表现如何?
评估用了lighteval、EQBench集合和Atropos。所有样本公开在Hugging Face。系统用OpenAI兼容端点,确保透明。
基准实现:lighteval用于MATH、GPQA等;Atropos用于LiveCodeBench、RewardBench等。
Atropos设计:单文件评估、详细日志、重叠推理和评分、最小OpenAI客户端等。
弹性推理集群:用sglang-router处理预占,支持自动缩放。
条件:上下文40,960(推理)或32,768;温度0.6,Top-P 0.95,Top-K 20(除特定模型)。
RefusalBench:拒绝率评估
自定义基准:166个提示,32类。用Sonnet 4判断拒绝。三类倒转奖励(小害、剥削、自杀)。Hermes 4推理模式57.1,非推理43.2。
结果
405B比较表3:
指标 | Hermes 4 405B R (N) | Cogito 405B R (N) | Deepseek R1 671B R | Deepseek V3 671B N | Qwen3 235B R (N) |
---|---|---|---|---|---|
MATH-500 | 96.3 (73.8) | 91.7 (79.3) | 97.0 | 92.5 | 98.0 (90.3) |
AIME’24 | 81.9 (11.4) | 40.8 (17.7) | 87.0 | 50.6 | 78.7 (34.1) |
… (完整表见报告) | … | … | … | … | … |
70B和14B表4类似。
Hermes 4在数学、逻辑、知识上竞争力强,推理模式提升显著。
行为分析:Hermes 4在实际使用中有什么特点?
除了分数,Hermes 4有独特行为。通过结构化探针测试:角色采用、一致性、推理风格。
标准提示下的基线行为
在标准助理提示下,Hermes 4显示“上下文忠诚”:对待虚构提示如角色扮演,无重复免责。相比,其他模型有政策刚性(如GPT-5常加AI身份声明)。
生成任务中的风格转移
创意写作探针:Hermes 4模仿目标风格,包括节奏和用词,而非表面引用。
通过提示工程的潜在能力
-
系统提示定制:反奉承提示让Hermes 4调整推理轨迹,引入强调语言。 -
聊天模板修改:改“assistant”为“me”,Hermes 4采用第一人称、同伴式persona,减少免责。
总体,Hermes 4行为更灵活,受提示影响大。
如何获取和使用Hermes 4?
模型权重在https://huggingface.co/NousResearch2公开。数据集部分来自Hermes 3。
步骤使用:
-
访问Hugging Face集合。 -
下载权重(如405B版本)。 -
用TorchTitan或类似框架加载。 -
提示时,用启用推理。
FAQ:关于Hermes 4的常见问题
Hermes 4是什么样的模型?
Hermes 4是一个混合推理模型家族,结合结构化多步推理和广义指令跟随。规模从14B到405B。
Hermes 4如何处理长推理?
通过长度控制微调,在30k tokens后终止
,避免上下文溢出。
Hermes 4在编码任务上强吗?
是的,在LiveCodeBench上,405B推理模式61.3%,非推理28.1%,优于一些同类。
为什么Hermes 4使用拒绝采样?
为了生成验证推理轨迹,确保轨迹正确并多样,使用Atropos针对任务验证器。
Hermes 4的拒绝率高吗?
在RefusalBench上,推理模式57.1(少拒绝),但安全类倒转以保护。
如何评估Hermes 4的行为?
通过探针如角色扮演、政治分析,显示更高上下文忠诚和灵活性。
Hermes 4的数据从哪里来?
主要合成:DataForge生成,拒绝采样验证,混合推理和非推理样本。
训练Hermes 4需要什么硬件?
192 B200 GPU,训练56B tokens,小时从4k到71k不等。
Hermes 4支持工具使用吗?
是的,环境训练交错推理和工具调用,如Python解释器,在
内多步。
与其他模型比,Hermes 4的优势?
开源、透明评估、在推理和通用间平衡好,如GPQA Diamond 70.5% (推理)。
通过这些细节,你应该对Hermes 4有全面了解。如果你是开发者,可以试试下载权重实验;如果是研究者,评估日志公开可复现。希望这篇文章帮你澄清了疑问!