混元翻译模型 Hunyuan-MT:7B 参数也能拿下 30 项第一,低资源语言翻译的新标杆
“能否用 7B 参数做出媲美 235B 大模型的翻译效果?”
“藏语、维吾尔语、哈萨克语和蒙古语互译到底能不能用开源模型?”
“拿到模型后,最快多久能跑起来?”
如果你也有类似疑问,这篇文章一次性回答。我们基于腾讯混元团队最新发布的技术报告与开源仓库,把晦涩的论文和 README 翻译成“人话”:从原理、数据、训练流程,到本地部署、推理、微调,全部拆成可复制的步骤。整篇内容仅依赖官方公开材料,不掺杂外部信息,确保真实可靠。
目录
-
一分钟速览:混元-MT 做了什么? -
技术拆解:5 个训练阶段如何叠加出 SOTA -
数据细节:1.3T tokens 怎样挑出“干净的”平行句对 -
效果对比:7B 打平 235B,低资源语言提升 55–110% -
上手实践:从 pip install 到第一条翻译结果 -
微调示例:用 LLaMA-Factory 训自己的平行语料 -
部署方案:TensorRT-LLM、vLLM、sglang 任选 -
常见问题 FAQ
一分钟速览 {#一分钟速览}
维度 | 混元-MT-7B | 混元-MT-Chimera-7B |
---|---|---|
参数量 | 7B | 7B(融合模型) |
支持语种 | 33 种(含中、英、日、德、法、韩、藏、维、哈、蒙等) | 同上 |
训练数据 | 1.3T tokens 多语单语 + 精选平行语料 | 复用前者的 SFT 结果 |
训练阶段 | 5 段式:通用预训练 → 翻译导向预训练 → SFT → RL → Weak-to-Strong RL | 在前者基础上再做融合 |
核心亮点 | 同量级开源第一;维、哈、蒙、藏 ↔ 中文显著提升 | 业界首个开源翻译融合模型,推理时再涨 2–5% |
开源地址 | Hugging Face / GitHub |
在 WMT 2025 公开评测的 31 个语言对中,混元-MT 拿下 30 项第一。
技术拆解:5 个训练阶段如何叠加出 SOTA {#技术拆解}
很多人看到“预训练 + SFT + RL”就觉得套路化。混元团队把每一步都拆细,并且专门为翻译做了定制。
阶段 1:通用预训练(General Pre-training)
-
☾ 数据规模:1.3T tokens,覆盖 112 种非中英语言及方言。 -
☾ 质量过滤:自建三维度打分模型——知识价值、真实性、文风,各维度 0–2 分,按数据源加权重。 -
☾ 多样性控制:学科标签、行业标签、内容主题标签 3 套系统,24 个行业 × 24 个主题,保证不偏向单一领域。 -
☾ 输出模型: Hunyuan-7B-Base
,通用能力已在 MMLU-Pro、SuperGPQA、BBH 等 9 个基准对齐或超越同规模开源基座。
阶段 2:翻译导向预训练(MT-oriented Pre-training)
-
☾ 语料:单语(mC4、OSCAR)+ 平行语料(OPUS、ParaCrawl)。 -
☾ 关键技术 -
☾ RegMix 策略:先用小模型拟合“采样比例 → 训练 loss”函数,再反推最优配比,减少盲目调参。 -
☾ 灾难遗忘缓解:20% 原始通用语料回放;学习率从通用阶段峰值 warm-up 后再衰减。
-
-
☾ 结果: Hunyuan-7B-Base★
在 FLORES-200、WMT24pp 上平均提高 10–15 分(XCOMET-XXL)。
阶段 3:监督微调(SFT)
-
☾ 两阶段精选数据 -
☾ Stage I 300 万对:Flores-200 开发集 + WMT 历年测试集 + 人工校对的民汉平行句 + 合成语料。 -
☾ Stage II 26.8 万对:用 DeepSeek-V3 打分 + Many-shot in-context 过滤 + 人工复核。
-
-
☾ Prompt 模板 把下面的文本翻译成<target_language>,不要额外解释。 <source_text>
中英之外的语言对,用英文提示即可。
阶段 4:强化学习(RL)
-
☾ 算法:GRPO(Group Relative Policy Optimization)。 -
☾ 奖励函数 3 件套 -
☾ XCOMET-XXL:与人类评价相关系数最高; -
☾ DeepSeek-V3 打分:补充语义相似度盲区; -
☾ 术语匹配:用 TAT-R1 做词对齐,算关键术语重合率; -
☾ 重复惩罚:防止 RL 后期“车轱辘话”崩溃。
-
阶段 5:Weak-to-Strong RL(融合)
-
☾ 思路:测试时把 6 个不同系统的翻译结果喂给同一个 7B 模型,让它再生成一次“精炼版”。 -
☾ 效果:平均再涨 2.3% XCOMET,低资源语言方向最高 5.6%。 -
☾ Prompt 模板 见下方代码块即可直接使用。
数据细节:1.3T tokens 怎样挑出“干净的”平行句对 {#数据细节}
步骤 | 工具 | 目的 |
---|---|---|
语言识别 | fastText | 去掉识别置信度 < 0.8 的文档 |
文档去重 | minLSH | 防止同一网页多次出现 |
困惑度过滤 | KenLM | 去掉 PPL > 某阈值的低质文本 |
平行句清洗 | CometKiwi | 无参考质量估计,筛掉低质对齐 |
用户可能问:
“我自己只有几万条双语数据,能复现这套流程吗?”
答:官方脚本未全部放出,但可直接用 CometKiwi 打分 + 人工抽 2–3 千条高质量微调,也能在 7B 模型上看到明显提升。
效果对比:7B 打平 235B,低资源语言提升 55–110% {#效果对比}
自动指标(XCOMET-XXL / CometKiwi)
测试集 | 方向 | Hunyuan-MT-7B | Qwen3-235B-A22B | Gemini-2.5-Pro | 提升 |
---|---|---|---|---|---|
WMT24pp | EN→XX | 0.8585 | 0.7665 | 0.8250 | +4.7% vs Gemini |
Mandarin↔Minority | ZH↔藏/维/哈/蒙 | 0.6082 | 0.4493 | 0.5811 | +4.7% vs Gemini, +55–110% vs 翻译专用模型 |
Flores-200 | ZH→XX | 0.8758 | 0.8509 | 0.9146 | 7B 同量级最佳 |
人工评测(0–4 分)
模型 | 中→英 | 英→中 | 平均 |
---|---|---|---|
Hunyuan-MT-7B | 3.258 | 3.155 | 3.189 |
Gemini-2.5-Pro | 3.225 | 3.222 | 3.223 |
Google 翻译 | 2.841 | 2.101 | 2.344 |
结论:7B 参数已经与 235B 大模型肩并肩,在民汉翻译上还反超。
上手实践:从 pip install 到第一条翻译结果 {#上手实践}
环境准备(Python ≥ 3.9)
pip install transformers==4.56.0 torch
最快推理代码
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_path = "tencent/Hunyuan-MT-7B"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
device_map="auto"
)
messages = [
{"role": "user", "content": "把下面的文本翻译成英语,不要额外解释。\n\n海水为什么是咸的?"}
]
inputs = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
outputs = model.generate(
inputs,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.6,
top_k=20,
repetition_penalty=1.05
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
预期输出
Why is seawater salty? Seawater is salty because it contains a large amount of dissolved salts and minerals.
微调示例:用 LLaMA-Factory 训自己的平行语料 {#微调示例}
1. 安装
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .
pip install deepspeed # 可选加速
pip install git+https://github.com/huggingface/transformers@4970b23cedaf745f963779b4eae68da281e8c6ca
2. 数据格式
在 data/my_translate.json
中放 sharegpt 样式:
[
{
"messages": [
{"role": "user", "content": "Translate into Uyghur:\nOne Belt One Road"},
{"role": "assistant", "content": "بىر بەلتە، بىر يول"}
]
}
]
然后在 data/dataset_info.json
追加:
"my_translate": {
"file_name": "my_translate.json",
"formatting": "sharegpt",
"columns": {"messages": "messages"},
"tags": {
"role_tag": "role",
"content_tag": "content",
"user_tag": "user",
"assistant_tag": "assistant"
}
}
3. 启动训练
export DISABLE_VERSION_CHECK=1
llamafactory-cli train examples/hunyuan/hunyuan_full.yaml \
--model_name_or_path tencent/Hunyuan-MT-7B \
--dataset my_translate \
--output_dir ./hunyuan-ft-7b
单卡约 18 GB 显存即可跑 7B LoRA。
部署方案:TensorRT-LLM、vLLM、sglang 任选 {#部署方案}
框架 | 特点 | 一键启动示例 |
---|---|---|
TensorRT-LLM | 极致延迟,需 CUDA 12.8 | docker pull hunyuaninfer/hunyuan-7b:hunyuan-7b-trtllm |
vLLM | 高吞吐,PagedAttention | python -m vllm.entrypoints.openai.api_server --model tencent/Hunyuan-MT-7B |
sglang | 代码简洁,适合研究 | python -m sglang.launch_server --model-path tencent/Hunyuan-MT-7B |
以 vLLM 为例,启动后可直接用 OpenAI 格式调用:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "tencent/Hunyuan-MT-7B",
"messages": [{"role": "user", "content": "把这句话翻译成藏语:人工智能改变生活。"}]
}'
常见问题 FAQ {#常见问题}
Q1:7B 模型真的够商业用吗?
实测在新闻、电商、社交评论领域,人工评分与 Gemini-2.5-Pro 差值 < 0.1;如果你的场景对民汉翻译要求高,7B 甚至反超。
Q2:显卡只有 16 GB,能跑吗?
可以。官方已提供 fp8 和 int4 量化版本,16 GB 单卡即可推理;训练时开 LoRA + DeepSpeed ZeRO-3 也能跑。
Q3:Chimera 融合模型怎么使用?
把 6 份不同翻译结果按固定格式喂给它:
Analyze the following multiple English translations ... Only output the refined translation ...
官方已给出完整 prompt,无需自己写逻辑。
Q4:为什么不用 CoT?
论文实验显示,单纯在翻译任务上加 CoT 容易变成“说车轱辘话”。只有在奖励函数同时监督 CoT 与最终译文时才有提升,因此默认并未启用。
Q5:后续会开源更大模型吗?
官方未披露,但当前 7B 已覆盖 33 语种,若场景非极端高并发,已足够落地。
写在最后
混元-MT 用 7B 参数、1.3T tokens 和 5 阶段训练策略,把“大模型才能做好翻译”的刻板印象打了个问号。更重要的是,它把维吾尔语、哈萨克语、藏语、蒙古语等低资源语言拉到了可落地水平,并全部开源。
如果你正好要做多语翻译产品,不妨先从 7B 起步——下载模型、跑一条推理,也许就能解决 80% 的场景需求。
仓库直达:
GitHub: https://github.com/Tencent-Hunyuan/Hunyuan-MT
Hugging Face: https://huggingface.co/collections/tencent/hunyuan-mt
祝你玩得开心,翻译愉快!