Hermes 4 14B:更强大、更易用的开源大语言模型
在人工智能迅猛发展的今天,大语言模型(LLM)已成为推动技术进步的核心力量。无论是进行复杂的逻辑推理,还是辅助日常的创意写作,一个能力强、易操控且符合用户价值观的模型都至关重要。今天,我们要详细介绍的,正是这样一个模型——由 Nous Research 推出的 Hermes 4 14B。

Hermes 4 14B 是什么?
Hermes 4 14B 是一个基于 Qwen 3 14B 构建的前沿混合模式推理模型。它的核心目标非常明确:成为一个能力强大,但同时又能与你对齐、听从你指挥的AI助手。
所谓“与你对齐”,指的是模型能够更好地理解并遵循用户的意图、价值观和指令风格,而不是机械地执行预设的、可能过于僵化的规则。这意味着你可以更轻松地引导它完成特定任务,享受更自然、更合作的交互体验。
该模型在训练过程中使用了一个全新构建的后训练数据集,这个数据集特别强调了经过验证的推理轨迹。这使得它在数学、编程、STEM(科学、技术、工程和数学)、逻辑推理、创意写作以及格式一致性输出等方面都取得了巨大进步,同时依然保持了通用助手的广泛能力。
Hermes 4 相比前代有哪些重大升级?
如果你熟悉它的前身 Hermes 3,那么 Hermes 4 的进步是全面且显著的:
-
训练数据量大幅提升:后训练数据集从原来的 100 万个样本、12 亿个令牌,爆炸式增长到约 500 万个样本 / 约 600 亿个令牌。这些数据精心混合了推理性和非推理性内容,为模型提供了更丰富的学习素材。 -
创新的混合推理模式:模型引入了显式的 <think>…</think>
思考标签。当遇到复杂问题时,模型会主动进入“深思”状态,将内部推理过程封装在这些标签中,最后再给出经过深思熟虑的答案。当然,你也可以选择让模型跳过深思步骤,以获取更快速的响应。 -
卓越的推理与表达能力:不仅在数学、代码、STEM 和逻辑等硬核领域表现更优,在创意写作和主观性回答方面也同样出色。 -
出色的模式遵循与结构化输出:模型经过专门训练,能够严格按照给定的 JSON 模式输出有效内容,甚至能够识别并修复格式错误的对象。这对于需要稳定 API 接口的开发者来说是个福音。 -
极强的可引导性:模型变得异常“听话”,拒绝回答的比率显著降低,更容易被引导至用户期望的风格和价值观上。
使命:让前沿能力为你所用
Nous Research 的使命是打造开放、易引导、能够表达完整人类情感与思想谱系,并且能与你个人价值观对齐的模型。为了衡量这一目标,团队专门创建了一个名为 RefusalBench 的新基准测试。

这个测试用于检验模型在各种通常被其他开放或封闭模型所禁止的场景下,是否依然愿意提供帮助。结果表明,Hermes 4 14B 在该基准上达到了当前所有流行开源和闭源模型中的最佳水平,能够在没有审查制度的情况下,既提供帮助又符合你的价值观。
模型性能表现
在多项标准基准测试中,Hermes 4 14B 都展现出了强劲的实力。

其综合能力提升显著,尤其在需要深度推理的任务上优势明显。详细的测试数据、设置参数和对比结果可以在其技术报告中查阅。
如何使用 Hermes 4:提示格式与对话模式
与模型交互需要遵循特定的格式,Hermes 4 使用的是 ChatML 格式,这是一种带有角色头和特殊标签的结构化格式。
基础对话格式
一个典型的对话如下所示:
<|im_start|>system
You are Hermes 4. Be concise and helpful.<|im_end|>
<|im_start|>user
Explain the photoelectric effect simply.<|im_end|>
<|im_start|>assistant
在这里,system
角色用于设定助手的身份和行为指令,user
角色代表用户的输入,assistant
角色则是模型回应的开始。
启用推理模式
Hermes 4 最强大的特性之一是其深度推理模式。你可以通过两种方式激活它:
-
在调用聊天模板时设置参数 thinking=True
。 -
使用以下系统提示词:
You are a deep thinking AI, you may use extremely long chains of thought to
deeply consider the problem and deliberate with yourself via systematic
reasoning processes to help come to a correct solution prior to answering. You
should enclose your thoughts and internal monologue inside
<think> </think> tags, and then provide your solution or response to the
problem.
你可以将这段指令与其他系统指令结合使用,以此来调整模型的思考策略、响应风格、身份设定等。当模型决定进行深入思考时,它的输出会像这样:
<|im_start|>assistant
<think> …(模型的内部推理过程会在这里出现)… </think>
最终的回应从这里开始…<|im_end|>
如果你希望保留 <think> ... </think>
标签内的推理内容,可以在调用时设置参数 keep_cots=True
。
函数调用与工具使用
Hermes 4 具备在单次助手回合内进行函数或工具调用的能力,这通常发生在其推理过程之后。
系统消息示例:
<|im_start|>system
You are a function-calling AI. Tools are provided inside <tools>…</tools>.
When appropriate, call a tool by emitting a <tool_call>{...}</tool_call> object.
After a tool responds (as <tool_response>), continue reasoning inside <think> and produce the final answer.
<tools>
{"type":"function","function":{"name":"get_weather","description":"Get weather by city","parameters":{"type":"object","properties":{"city":{"type":"string"}},"required":["city"]}}}
</tools><|im_end|>
你也可以直接将工具定义放入消息的 "tools"
字段,聊天模板会自动解析并生成相应的系统提示。这种方式与推理模式结合使用时,能大幅提升工具使用的准确性。
模型生成的工具调用会包裹在 <tool_call> {工具调用参数} </tool_call>
标签中,极易解析。这些标签同样是新增的标记符,因此即使在流式传输过程中也能轻松处理。主流的推理引擎如 VLLM 和 SGLang 都已为 Hermes 内置了自动工具解析器,只需在 VLLM 中将工具解析器设置为 hermes
,在 SGLang 中设置为 qwen25
即可。
推理实践指南
想要获得最佳生成效果,可以参考以下采样参数设置:
-
temperature=0.6
-
top_p=0.95
-
top_k=20
模板格式:务必使用上述的 ChatML 聊天格式,或者在使用 tokenizer.apply_chat_template(...)
时设置 add_generation_prompt=True
。
使用 Transformers 库运行示例
以下是一段使用流行的 transformers
库调用 Hermes 4 14B 的 Python 代码示例:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
# 指定模型路径
model_id = "NousResearch/Hermes-4-14B"
# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.float16, # 使用半精度浮点数以节省显存
device_map="auto" # 自动分配模型层到可用设备(GPU/CPU)
)
# 构建对话消息
messages = [
{"role": "system", "content": "You are Hermes 4. Be concise."},
{"role": "user", "content": "Summarize CRISPR in 3 sentences."}
]
# 应用聊天模板格式化输入
inputs = tokenizer.apply_chat_template(
messages, add_generation_prompt=True, return_tensors="pt"
).to(model.device)
# 生成回复
outputs = model.generate(
**inputs, max_new_tokens=400, temperature=0.6, top_p=0.95, top_k=20, do_sample=True
)
# 解码并打印输出
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
对于需要在多 GPU 服务器上进行生产环境部署的用户,建议考虑使用支持张量并行推理的引擎(如 SGLang 或 vLLM 后端),并利用前缀缓存技术来优化性能。
哪里可以体验和部署 Hermes 4?
多家推理服务提供商已支持 Hermes 4,你可以通过它们快速体验或部署:
Nous Portal

Chutes

Nebius

Luminal

量化与更多版本选择
为了满足不同硬件环境和性能需求,Hermes 4 提供了多种量化版本:
-
原始权重:BF16 格式。 -
FP8 量化版本:可在保持高性能的同时减少显存占用。下载地址:NousResearch/Hermes-4-14B-FP8 -
GGUF 量化版本:由 LM Studio 团队提供支持,非常适合在消费级硬件上运行。
此外,Hermes 4 系列还提供了更大规模的版本(例如 70B、405B),它们采用相似的提示格式。你可以通过 Hermes 4 集合页面探索所有相关模型:Hermes 4 Collection
如何引用
如果您在研究中使用了 Hermes 4,请使用以下格式引用其技术报告:
@misc{teknium2025hermes4technicalreport,
title={Hermes 4 Technical Report},
author={Ryan Teknium and Roger Jin and Jai Suphavadeeprasit and Dakota Mahan and Jeffrey Quesnelle and Joe Li and Chen Guang and Shannon Sands and Karan Malhotra},
year={2025},
eprint={2508.18255},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2508.18255},
}
常见问题解答(FAQ)
Q: Hermes 4 14B 的主要优势是什么?
A: 它的主要优势在于强大的混合推理能力(使用 <think>
标签)、极高的可引导性(拒绝率低)、出色的格式和模式遵循能力(如输出标准JSON),以及在数学、代码、STEM、逻辑和创意写作等方面的综合性能提升。
Q: 我需要很强的编程能力才能使用它吗?
A: 不一定。初学者可以通过诸如 Nous Portal 或 Chutes 这类在线平台直接体验对话功能。开发者则可以通过提供的代码示例,使用 Python 和 transformers 库快速集成到自己的应用中。
Q: 它的“混合推理模式”是什么意思?
A: 这意味着模型可以根据问题难度自行决定是否进行深度思考。对于简单问题,它直接回答;对于复杂问题,它会在内部先进行一步步推理(推理过程放在 <think>
标签内),然后再给出最终答案。用户也可以强制开启或关闭这一特性。
Q: 如何让模型调用外部工具或函数?
A: 你需要在系统提示中按照特定格式(<tools>...</tools>
标签)定义可用的工具。模型在推理后,会在需要时生成一个结构化的 <tool_call>
请求,你可以解析这个请求来实际调用函数,并将结果以 <tool_response>
的形式返回给模型,模型会据此继续推理并生成最终答案。
Q: 有没有更小或量化版的模型,以便在个人电脑上运行?
A: 有的。除了原始的 BF16 版本,官方还提供了 FP8 量化版本和由 LM Studio 团队制作的 GGUF 量化版本,后者非常适合在个人电脑的 CPU 或消费级GPU上运行。
Q: 除了 14B版本,还有更大的模型吗?
A: 是的。Hermes 4 系列还包括 70B 甚至 405B 参数的更大规模版本,它们提供了更强大的能力,但也需要更多的计算资源。