站点图标 高效码农:前沿AI、IT技术与开发者分享

Hermes-4 模型突破:是什么?对国内大模型意味着什么?

探索Hermes 4:一个结合推理和指令跟随的混合模型家族

你好!如果你对大型语言模型(LLM)感兴趣,尤其是那些能处理复杂推理任务的同时又保持通用能力的模型,那么Hermes 4可能会让你眼前一亮。作为一个开源模型家族,它试图解决一个常见问题:如何让模型在进行多步推理时,不牺牲对日常指令的响应能力。今天,我们来聊聊Hermes 4的技术细节,从它的数据准备到训练过程,再到性能评估和实际行为表现。我会尽量用通俗的语言解释这些概念,就像我们在讨论一个工程项目一样。如果你有疑问,比如“Hermes 4是怎么训练的?”或者“它在数学推理上表现如何?”,我会一步步解答。

Hermes 4是由一个研究团队开发的模型系列,包括不同规模的版本,如405B、70B和14B参数模型。它不是单纯的聊天机器人,而是强调“混合推理”——意思是模型能进行结构化的、逐步思考,同时还能处理广泛的指令任务。团队在报告中提到,他们遇到了数据收集、训练和评估的挑战,并分享了他们的解决方案。这不仅仅是学术讨论,还包括实际的开源模型权重,你可以在Hugging Face上找到它们。

为什么会有人开发这样的模型?因为现有的LLM在推理任务上(如解决数学问题)往往需要额外的计算资源,而在一般指令上(如回答问题)又可能不够灵活。Hermes 4试图桥接这个差距,通过大规模的数据合成和精细的训练策略来实现。接下来,我们一步步拆解。

Hermes 4的核心贡献是什么?

如果你在想“Hermes 4到底带来了什么新东西?”,答案在于三个方面:

  • 数据合成和策展策略:他们创建了一个混合数据集,包括推理专注的数据和通用指令示例,总计约500万样本和190亿tokens。
  • 训练方法:使用了损失掩码、长度控制微调和高效打包策略,来处理异质数据。
  • 全面评估:在数学、编码、知识、理解和对齐基准上进行了测试,还包括定性行为分析。

这些贡献让Hermes 4成为一个透明、可复制的开源推理模型,能与前沿系统相媲美。

数据准备:如何构建Hermes 4的训练基础?

数据是模型的“原料”,Hermes 4的数据集主要来自新合成的推理和非推理数据。团队强调这是一个混合方法:350万推理样本加上160万非推理样本。推理样本特别“重”,平均每个样本有五倍于非推理样本的tokens,因为它们包含长达1.6万tokens的思考轨迹。

DataForge:一个基于图的合成数据生成器

你可能会问:“他们是怎么生成这些数据的?”他们使用了一个叫DataForge的工具,受AgentInstruct启发。这是一个图基的生成器,使用有向无环图(DAG)来创建对话数据。每个节点像一个函数,定义了前提条件和后置条件,数据通过随机游走流动。

例如,生成单轮QA数据的流程:

  1. 从预训练种子数据中取一段文本。
  2. 变换成随机目标类型(如把维基百科文章变成说唱歌词)。
  3. 生成指令:可能是上下文相关的(嵌入变换文本的任务),或独立的(仅用作灵感)。
  4. 用专属回答生成器创建答案。
  5. 用LLM评判器审查:基于连贯性、相关性、复杂性等标准打分。如果失败,重试直到通过或丢弃。

DataForge的酷点在于它允许嵌套图:一个图可以作为另一个图的节点,形成更高阶的结构。这让生成过程更灵活。

预训练种子数据的清洗

种子数据来自DCLM和FineWeb的偏好样本(偏向最近的)。先用ModernBert嵌入进行语义去重(余弦相似度阈值0.7),然后用LLM评判过滤不完整或格式差的段落。

拒绝采样:使用Atropos生成验证轨迹

另一个关键是拒绝采样,使用Atropos(一个开源强化学习环境管理器)针对上千个任务特定验证器生成轨迹。每个轨迹都验证正确,并包括多个唯一路径到相同结果。

一些具体环境:

  • Answer Format Training:训练模型用用户请求的格式呈现答案(如用\boxed{}包数学答案),奖励基于格式有效性。强制使用和分隔符。
  • Instruction Following:基于RLVR-IFEval,生成约束指令(如“每N个词用法语”),拒绝采样成功轨迹。
  • Internbootcamp:从约1000个推理任务生成7万轨迹,选择正确且在token预算内的路径。
  • Schema Adherence:生成或编辑JSON对象,确保符合模式。使用Pydantic动态编译模式,注入错误进行编辑任务。
  • Tool Use:训练交错推理和工具调用(如Python解释器),在块内多步交互,奖励基于最终答案和工具使用。

覆盖目标域的任务生成

为了覆盖特定领域,他们用两种技术:

  • 分类法:递归枚举子域,直到叶子节点是提示。例如,枚举LLM输出格式的分类,生成如“生成5个关于周期表的MCQ,用JSON格式选项,输出为CSV”的任务。
  • PersonaHub:模拟用户人格生成任务,如用FinePersonas创建应用脚本任务,然后合成推理轨迹。

数据集的长度分布如图3所示:平均14,394 tokens,中位9,382,频率峰值在较短样本。

训练过程:如何让Hermes 4高效学习?

训练用了修改版的TorchTitan,从Llama 3.1的405B和70B开始,14B从Qwen3 14B开始。数据集异质,所以用First-Fit Decreasing方法打包样本,效率>99.9%。用Flex Attention限制注意力到每个样本内,只用“assistant”角色tokens计算损失。

硬件:192个NVIDIA B200 GPU,混合分布式数据并行、张量并行和全分片数据并行。余弦学习率调度,热身300步,总9000步,全局批次384,上下文16,384 tokens。

训练参数表:

模型大小 并行方式 Tokens 学习率 B200小时
14B FSDP 56B 5×10⁻⁵ 4,454
70B FSDP+TP 56B 1×10⁻⁵ 12,864
405B FSDP+TP 56B 5×10⁻⁶ 71,616

损失曲线如图2:从0.65降到0.45左右。

控制推理长度

14B模型在LiveCodeBench上60%时间达到40,960 tokens上限。解决方案:第二阶段监督微调,教模型在30,000 tokens后停止推理。

步骤:

  1. 从当前策略生成合成推理轨迹。
  2. 在30,000 tokens插入,焦点在终止决策上。
  3. 只训练和 tokens,避免模型崩溃。

数据过滤:从WebInstruct-Verified、rSTAR-Coder和DeepMath-130k收集30万提示,生成响应,过滤未终止的,处理两种情况(完成答案或强制关闭

)。

用Axolotl训练,因为它支持字符跨度掩码。

结果表2显示:准确率略降(最多-12.7%),但过长率大减(至少-48.8%)。

基准 Stage 1 分数 30k-tuned 分数 相对Δ Stage 1 过长率 30k-tuned 过长率 相对Δ
AIME’24 55.0 52.4 -4.7% 28.2 6.1 -78.4%
AIME’25 48.7 42.5 -12.7% 25.9 9.0 -65.3%
GPQA Diamond 57.4 55.9 -2.6% 18.2 9.5 -47.8%
LCBv6 Aug2024+ 28.6 44.2 +54.5% 60.0 12.1 -79.8%

上下文长度分布如图4:固定30k思考tokens,不同提示/答案大小。

评估:Hermes 4在基准测试中表现如何?

评估用了lighteval、EQBench集合和Atropos。所有样本公开在Hugging Face。系统用OpenAI兼容端点,确保透明。

基准实现:lighteval用于MATH、GPQA等;Atropos用于LiveCodeBench、RewardBench等。

Atropos设计:单文件评估、详细日志、重叠推理和评分、最小OpenAI客户端等。

弹性推理集群:用sglang-router处理预占,支持自动缩放。

条件:上下文40,960(推理)或32,768;温度0.6,Top-P 0.95,Top-K 20(除特定模型)。

RefusalBench:拒绝率评估

自定义基准:166个提示,32类。用Sonnet 4判断拒绝。三类倒转奖励(小害、剥削、自杀)。Hermes 4推理模式57.1,非推理43.2。

结果

405B比较表3:

指标 Hermes 4 405B R (N) Cogito 405B R (N) Deepseek R1 671B R Deepseek V3 671B N Qwen3 235B R (N)
MATH-500 96.3 (73.8) 91.7 (79.3) 97.0 92.5 98.0 (90.3)
AIME’24 81.9 (11.4) 40.8 (17.7) 87.0 50.6 78.7 (34.1)
… (完整表见报告)

70B和14B表4类似。

Hermes 4在数学、逻辑、知识上竞争力强,推理模式提升显著。

行为分析:Hermes 4在实际使用中有什么特点?

除了分数,Hermes 4有独特行为。通过结构化探针测试:角色采用、一致性、推理风格。

标准提示下的基线行为

在标准助理提示下,Hermes 4显示“上下文忠诚”:对待虚构提示如角色扮演,无重复免责。相比,其他模型有政策刚性(如GPT-5常加AI身份声明)。

生成任务中的风格转移

创意写作探针:Hermes 4模仿目标风格,包括节奏和用词,而非表面引用。

通过提示工程的潜在能力

  • 系统提示定制:反奉承提示让Hermes 4调整推理轨迹,引入强调语言。
  • 聊天模板修改:改“assistant”为“me”,Hermes 4采用第一人称、同伴式persona,减少免责。

总体,Hermes 4行为更灵活,受提示影响大。

如何获取和使用Hermes 4?

模型权重在https://huggingface.co/NousResearch2公开。数据集部分来自Hermes 3。

步骤使用:

  1. 访问Hugging Face集合。
  2. 下载权重(如405B版本)。
  3. 用TorchTitan或类似框架加载。
  4. 提示时,用启用推理。

FAQ:关于Hermes 4的常见问题

Hermes 4是什么样的模型?

Hermes 4是一个混合推理模型家族,结合结构化多步推理和广义指令跟随。规模从14B到405B。

Hermes 4如何处理长推理?

通过长度控制微调,在30k tokens后终止

,避免上下文溢出。

Hermes 4在编码任务上强吗?

是的,在LiveCodeBench上,405B推理模式61.3%,非推理28.1%,优于一些同类。

为什么Hermes 4使用拒绝采样?

为了生成验证推理轨迹,确保轨迹正确并多样,使用Atropos针对任务验证器。

Hermes 4的拒绝率高吗?

在RefusalBench上,推理模式57.1(少拒绝),但安全类倒转以保护。

如何评估Hermes 4的行为?

通过探针如角色扮演、政治分析,显示更高上下文忠诚和灵活性。

Hermes 4的数据从哪里来?

主要合成:DataForge生成,拒绝采样验证,混合推理和非推理样本。

训练Hermes 4需要什么硬件?

192 B200 GPU,训练56B tokens,小时从4k到71k不等。

Hermes 4支持工具使用吗?

是的,环境训练交错推理和工具调用,如Python解释器,在

内多步。

与其他模型比,Hermes 4的优势?

开源、透明评估、在推理和通用间平衡好,如GPQA Diamond 70.5% (推理)。

通过这些细节,你应该对Hermes 4有全面了解。如果你是开发者,可以试试下载权重实验;如果是研究者,评估日志公开可复现。希望这篇文章帮你澄清了疑问!

退出移动版