混元翻译模型 Hunyuan-MT:7B 参数也能拿下 30 项第一,低资源语言翻译的新标杆

“能否用 7B 参数做出媲美 235B 大模型的翻译效果?”
“藏语、维吾尔语、哈萨克语和蒙古语互译到底能不能用开源模型?”
“拿到模型后,最快多久能跑起来?”

如果你也有类似疑问,这篇文章一次性回答。我们基于腾讯混元团队最新发布的技术报告与开源仓库,把晦涩的论文和 README 翻译成“人话”:从原理、数据、训练流程,到本地部署、推理、微调,全部拆成可复制的步骤。整篇内容仅依赖官方公开材料,不掺杂外部信息,确保真实可靠。


目录

  1. 一分钟速览:混元-MT 做了什么?
  2. 技术拆解:5 个训练阶段如何叠加出 SOTA
  3. 数据细节:1.3T tokens 怎样挑出“干净的”平行句对
  4. 效果对比:7B 打平 235B,低资源语言提升 55–110%
  5. 上手实践:从 pip install 到第一条翻译结果
  6. 微调示例:用 LLaMA-Factory 训自己的平行语料
  7. 部署方案:TensorRT-LLM、vLLM、sglang 任选
  8. 常见问题 FAQ

一分钟速览 {#一分钟速览}

维度 混元-MT-7B 混元-MT-Chimera-7B
参数量 7B 7B(融合模型)
支持语种 33 种(含中、英、日、德、法、韩、藏、维、哈、蒙等) 同上
训练数据 1.3T tokens 多语单语 + 精选平行语料 复用前者的 SFT 结果
训练阶段 5 段式:通用预训练 → 翻译导向预训练 → SFT → RL → Weak-to-Strong RL 在前者基础上再做融合
核心亮点 同量级开源第一;维、哈、蒙、藏 ↔ 中文显著提升 业界首个开源翻译融合模型,推理时再涨 2–5%
开源地址 Hugging Face / GitHub

在 WMT 2025 公开评测的 31 个语言对中,混元-MT 拿下 30 项第一。


技术拆解:5 个训练阶段如何叠加出 SOTA {#技术拆解}

很多人看到“预训练 + SFT + RL”就觉得套路化。混元团队把每一步都拆细,并且专门为翻译做了定制。

阶段 1:通用预训练(General Pre-training)

  • 数据规模:1.3T tokens,覆盖 112 种非中英语言及方言。
  • 质量过滤:自建三维度打分模型——知识价值、真实性、文风,各维度 0–2 分,按数据源加权重。
  • 多样性控制:学科标签、行业标签、内容主题标签 3 套系统,24 个行业 × 24 个主题,保证不偏向单一领域。
  • 输出模型Hunyuan-7B-Base,通用能力已在 MMLU-Pro、SuperGPQA、BBH 等 9 个基准对齐或超越同规模开源基座。

阶段 2:翻译导向预训练(MT-oriented Pre-training)

  • 语料:单语(mC4、OSCAR)+ 平行语料(OPUS、ParaCrawl)。
  • 关键技术

    • RegMix 策略:先用小模型拟合“采样比例 → 训练 loss”函数,再反推最优配比,减少盲目调参。
    • 灾难遗忘缓解:20% 原始通用语料回放;学习率从通用阶段峰值 warm-up 后再衰减。
  • 结果Hunyuan-7B-Base★ 在 FLORES-200、WMT24pp 上平均提高 10–15 分(XCOMET-XXL)。

阶段 3:监督微调(SFT)

  • 两阶段精选数据

    1. Stage I 300 万对:Flores-200 开发集 + WMT 历年测试集 + 人工校对的民汉平行句 + 合成语料。
    2. Stage II 26.8 万对:用 DeepSeek-V3 打分 + Many-shot in-context 过滤 + 人工复核。
  • Prompt 模板

    把下面的文本翻译成<target_language>,不要额外解释。
    <source_text>
    

    中英之外的语言对,用英文提示即可。

阶段 4:强化学习(RL)

  • 算法:GRPO(Group Relative Policy Optimization)。
  • 奖励函数 3 件套

    • XCOMET-XXL:与人类评价相关系数最高;
    • DeepSeek-V3 打分:补充语义相似度盲区;
    • 术语匹配:用 TAT-R1 做词对齐,算关键术语重合率;
    • 重复惩罚:防止 RL 后期“车轱辘话”崩溃。

阶段 5:Weak-to-Strong RL(融合)

  • 思路:测试时把 6 个不同系统的翻译结果喂给同一个 7B 模型,让它再生成一次“精炼版”。
  • 效果:平均再涨 2.3% XCOMET,低资源语言方向最高 5.6%。
  • Prompt 模板 见下方代码块即可直接使用。

数据细节:1.3T tokens 怎样挑出“干净的”平行句对 {#数据细节}

步骤 工具 目的
语言识别 fastText 去掉识别置信度 < 0.8 的文档
文档去重 minLSH 防止同一网页多次出现
困惑度过滤 KenLM 去掉 PPL > 某阈值的低质文本
平行句清洗 CometKiwi 无参考质量估计,筛掉低质对齐

用户可能问:
“我自己只有几万条双语数据,能复现这套流程吗?”
答:官方脚本未全部放出,但可直接用 CometKiwi 打分 + 人工抽 2–3 千条高质量微调,也能在 7B 模型上看到明显提升。


效果对比:7B 打平 235B,低资源语言提升 55–110% {#效果对比}

自动指标(XCOMET-XXL / CometKiwi)

测试集 方向 Hunyuan-MT-7B Qwen3-235B-A22B Gemini-2.5-Pro 提升
WMT24pp EN→XX 0.8585 0.7665 0.8250 +4.7% vs Gemini
Mandarin↔Minority ZH↔藏/维/哈/蒙 0.6082 0.4493 0.5811 +4.7% vs Gemini, +55–110% vs 翻译专用模型
Flores-200 ZH→XX 0.8758 0.8509 0.9146 7B 同量级最佳

人工评测(0–4 分)

模型 中→英 英→中 平均
Hunyuan-MT-7B 3.258 3.155 3.189
Gemini-2.5-Pro 3.225 3.222 3.223
Google 翻译 2.841 2.101 2.344

结论:7B 参数已经与 235B 大模型肩并肩,在民汉翻译上还反超。


上手实践:从 pip install 到第一条翻译结果 {#上手实践}

环境准备(Python ≥ 3.9)

pip install transformers==4.56.0 torch

最快推理代码

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_path = "tencent/Hunyuan-MT-7B"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

messages = [
    {"role": "user", "content": "把下面的文本翻译成英语,不要额外解释。\n\n海水为什么是咸的?"}
]
inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

outputs = model.generate(
    inputs,
    max_new_tokens=128,
    do_sample=True,
    temperature=0.7,
    top_p=0.6,
    top_k=20,
    repetition_penalty=1.05
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

预期输出

Why is seawater salty? Seawater is salty because it contains a large amount of dissolved salts and minerals.

微调示例:用 LLaMA-Factory 训自己的平行语料 {#微调示例}

1. 安装

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .
pip install deepspeed  # 可选加速
pip install git+https://github.com/huggingface/transformers@4970b23cedaf745f963779b4eae68da281e8c6ca

2. 数据格式

data/my_translate.json 中放 sharegpt 样式:

[
  {
    "messages": [
      {"role": "user", "content": "Translate into Uyghur:\nOne Belt One Road"},
      {"role": "assistant", "content": "بىر بەلتە، بىر يول"}
    ]
  }
]

然后在 data/dataset_info.json 追加:

"my_translate": {
  "file_name": "my_translate.json",
  "formatting": "sharegpt",
  "columns": {"messages": "messages"},
  "tags": {
    "role_tag": "role",
    "content_tag": "content",
    "user_tag": "user",
    "assistant_tag": "assistant"
  }
}

3. 启动训练

export DISABLE_VERSION_CHECK=1
llamafactory-cli train examples/hunyuan/hunyuan_full.yaml \
  --model_name_or_path tencent/Hunyuan-MT-7B \
  --dataset my_translate \
  --output_dir ./hunyuan-ft-7b

单卡约 18 GB 显存即可跑 7B LoRA。


部署方案:TensorRT-LLM、vLLM、sglang 任选 {#部署方案}

框架 特点 一键启动示例
TensorRT-LLM 极致延迟,需 CUDA 12.8 docker pull hunyuaninfer/hunyuan-7b:hunyuan-7b-trtllm
vLLM 高吞吐,PagedAttention python -m vllm.entrypoints.openai.api_server --model tencent/Hunyuan-MT-7B
sglang 代码简洁,适合研究 python -m sglang.launch_server --model-path tencent/Hunyuan-MT-7B

以 vLLM 为例,启动后可直接用 OpenAI 格式调用:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tencent/Hunyuan-MT-7B",
    "messages": [{"role": "user", "content": "把这句话翻译成藏语:人工智能改变生活。"}]
  }'

常见问题 FAQ {#常见问题}

Q1:7B 模型真的够商业用吗?

实测在新闻、电商、社交评论领域,人工评分与 Gemini-2.5-Pro 差值 < 0.1;如果你的场景对民汉翻译要求高,7B 甚至反超。

Q2:显卡只有 16 GB,能跑吗?

可以。官方已提供 fp8 和 int4 量化版本,16 GB 单卡即可推理;训练时开 LoRA + DeepSpeed ZeRO-3 也能跑。

Q3:Chimera 融合模型怎么使用?

把 6 份不同翻译结果按固定格式喂给它:

Analyze the following multiple English translations ... Only output the refined translation ...

官方已给出完整 prompt,无需自己写逻辑。

Q4:为什么不用 CoT?

论文实验显示,单纯在翻译任务上加 CoT 容易变成“说车轱辘话”。只有在奖励函数同时监督 CoT 与最终译文时才有提升,因此默认并未启用。

Q5:后续会开源更大模型吗?

官方未披露,但当前 7B 已覆盖 33 语种,若场景非极端高并发,已足够落地。


写在最后

混元-MT 用 7B 参数、1.3T tokens 和 5 阶段训练策略,把“大模型才能做好翻译”的刻板印象打了个问号。更重要的是,它把维吾尔语、哈萨克语、藏语、蒙古语等低资源语言拉到了可落地水平,并全部开源。
如果你正好要做多语翻译产品,不妨先从 7B 起步——下载模型、跑一条推理,也许就能解决 80% 的场景需求。

仓库直达:
GitHub: https://github.com/Tencent-Hunyuan/Hunyuan-MT
Hugging Face: https://huggingface.co/collections/tencent/hunyuan-mt

祝你玩得开心,翻译愉快!