把文本、图像、声音揉进一个 8B 模型:HyperCLOVA X 8B Omni 完整拆解
关键词:HyperCLOVA X 8B Omni、any-to-any、统一多模态、文本-图像-语音、8B 参数、韩语优先、OmniServe、开源权重
先回答最常被问到的 5 个问题
| 问题 | 一句话回答 |
|---|---|
| 它到底是什么? | 一个 80 亿参数的“any-to-any”模型,文本、图像、音频既能输进去,也能吐出来。 |
| 跟谁像? | 功能上像 Qwen2.5-Omni-7B,但韩语任务明显更强;体积只有 8B,单张 A100 可跑。 |
| 能商用吗? | 可以,遵循 NAVER 自定义许可证,需署名且不得用于非法场景。 |
| 需要多少卡? | 推理最少 3×A100 80 GB;训练用了上千张 A100,但权重已开放,不用再烧一次钱。 |
| 亮点在哪? | ① 韩语文化场景理解深;② 离散+连续双编码,生成细节好;③ 提供 Docker 一键推理包 OmniServe。 |
1. 诞生背景:为什么“all in one”成了刚需?
过去两年,多模态路线大致分两条:
-
拼接式:先训好 LLM,再外挂视觉/语音 Encoder,最后加 Decoder。
缺点: catastrophic forgetting(灾难性遗忘)——文本能力常掉 5~10 分。 -
分治式:理解一条模型、生成另一条模型,中间用提示词搭桥。
缺点:延迟高、误差累积、部署两套框架。
NAVER Cloud 团队的做法是:把三种模态全部塞进同一个 36 层 Decoder-only Transformer,用“next-token 预测”统一接口。
文本用离散 token,图像/音频则“离散+连续”双轨:离散 token 负责对齐语义,连续 embedding 补充细节。
这样既避免遗忘,又把 latency 压到单次前向传播,起名 Omni(全能)。
2. 架构速览:一张图看懂数据流向
用户输入
├─ 文本 → SentencePiece Tokenizer
├─ 图像 → ViT 连续编码 → 线性 Adapter
│ ↓
│ TA-Tok 离散 Tokenizer(27×27 网格)
├─ 音频 → Whisper 骨干 → 连续 25 Hz 嵌入
│ ↓
│ FSQ 离散 Tokenizer(25 token/s)
│
└─ 统一序列(文本/视觉/音频 token 交错)→ 8B Transformer
↓
输出头分裂
├─ 文本:Softmax → 词表
├─ 图像:离散 token → Diffusion Decoder → 像素
└─ 音频:离散 token → Unit-BigVGAN → 16 kHz 波形
关键细节
-
视觉 Decoder 用 FLUX.1 VAE 潜空间,单通道拼接条件,训练 4 阶段,支持“近原生宽高比”。 -
音频 Decoder 带 ECAPA-TDNN 说话人嵌入,可零样本克隆音色。 -
上下文 32 K,最多 3 K 视觉 token 或 11 K 视频 token。
3. 训练三段论:先稳住文本,再吞多模态,最后拉齐连续信号
| 阶段 | 目标 | 数据量 | 文本占比 | 视觉占比 | 音频占比 | 关键技巧 |
|---|---|---|---|---|---|---|
| ① 文本预训 | 4K→8K→32K 渐进长文 | 1.2 T | 100 % | 0 | 0 | 多 token 并行预测,加速收敛 |
| ② 离散对齐 | 把图像/音频码本当“外语”词表 | 302 B | 10 % | 75 % | 15 % | 文本矩阵冻结,只训新 token |
| ③ 连续注入 | 视觉/音频 Encoder 与 LLM 拉齐 | 1.5 T | 12 % | 73 % | 15 % | 先冻 Encoder 训 Adapter,再全参数 |
额外小灶
-
韩语 OCR、文化地标、方言视频单独加料,保证“Korean-First”。 -
长视频里音频用 MambaMia 压缩到 1 Hz,省 92 % token。
4. 后训练:把“基础模型”变成“可用助手”
四阶段 SFT(监督微调)曲线:
-
基础对话(50 % 文本)——先保语言能力 -
任务导向(59 % 视觉)——图文混合指令 -
长时视频(41 % 视频)——时序推理 -
意图拆解——内置 <think>块,让模型先写“草稿”再输出,减少幻觉。
例子:用户说“把这张人像转成水彩并读一段描述”
<think>
意图:图像编辑 + 语音输出
模块:Vision Decoder + Audio Decoder
</think>
→ 调用 t2i 工具生成水彩 → 调用 TTS 返回语音
5. 成绩如何?公开榜单直译
| 任务类别 | 基准(英/韩) | HyperCLOVA X 8B Omni | 同尺寸对手最好成绩 | 差距 |
|---|---|---|---|---|
| 韩语知识 | KMMLU-Pro | 64.9 | 38.6 (Qwen2.5-Omni-7B) | +26.3 |
| 英语推理 | GSM8K | 87.3 | 87.0 (Qwen2.5-Omni-7B) | +0.3 |
| 视觉问答 | LLaVA-W | 93.8 | 88.5 | +5.3 |
| 图像编辑 | ImgEdit | 3.83 | 1.30 (Janus-Pro-7B) | +195 % |
| 韩语 ASR | KsponSpeech clean | WER 28.7 % | 34.9 % | -6.2 pp |
| 语音翻译 | Fleurs en→ko | ASR-BLEU 24.7 | 0.0 | 碾压 |
| 语音自然度 | 韩语 MOS | 4.22 / 5 | 3.40 (Qwen3-Omni-30B-A3B) | +0.82 |
注:8B 模型在“韩语语音合成”上把 30B 模型甩开一条街,可见韩语数据密度优势。
6. 快速上手:30 分钟跑通 OmniServe
官方提供生产级推理系统 OmniServe,OpenAI 格式,支持并发、S3 自动上传。
6.1 硬件清单
| 组件 | GPU 独占 | 显存 | 备注 |
|---|---|---|---|
| Vision Encoder | 1×A100 | ~8 GB | 可与其他组件共卡 |
| LLM 8B | 1×A100 | ~16 GB | 必须整卡 |
| Vision Decoder | 1×A100 | ~16 GB | 可与其他组件共卡 |
| Audio 编解码 | 共用 | ~4 GB | 轻量 |
最低配置:3×A100 80 GB
推荐配置:4×A100 80 GB 留 1 卡做热备
6.2 安装步骤(复制即可用)
# 1. 拉代码
git clone https://github.com/NAVER-Cloud-HyperCLOVA-X/OmniServe.git
cd OmniServe
# 2. 装依赖
pip install huggingface_hub safetensors torch openai easydict
# 3. 下载权重(~16 GB)
huggingface-cli download naver-hyperclovax/HyperCLOVAX-SEED-Omni-8B \
--local-dir ./models/HyperCLOVAX-SEED-Omni-8B
# 4. 转格式(Track B = Omni 模型)
python convert_model.py \
--input ./models/HyperCLOVAX-SEED-Omni-8B \
--output ./track_b \
--track b
# 5. 配环境
cp .env.example .env
# 用 vim 写入 S3 端点与密钥(生成图/音必须)
# 6. 起服务
docker compose --profile track-b build
docker compose --profile track-b up -d
# 7. 看日志
docker compose logs -f omni
# 出现 “Model loaded in 273.1 s” 即可调用
6.3 常用调用模板
| 场景 | 关键参数 | 示范代码片段 |
|---|---|---|
| 图生文 | type: image_url |
见文件 2 “Image understanding” 段 |
| 文生图 | tools: t2i_model_generation |
必须带 system prompt 触发工具 |
| 语音输入 | type: input_audio |
base64 编码 mp3,最大 30 s |
| 语音输出 | 纯文本 prompt + max_tokens≥500 |
模型自动调用 TTS,返回 audio url |
| 视频理解 | 把 mp4 当 image_url 传 | 内部抽 120 帧,平均 11 K token |
7. 局限与注意
-
视频只理解不生成,输出端无视频 Decoder。 -
图像生成固定 27×27 token,等效 384×384 语义网格,细节靠扩散模型“脑补”,极端小字可能糊。 -
音频 token 25/s,即 1 token = 40 ms,不能唱歌,节奏感会飘。 -
知识截止 2025-05,之后事件需 RAG 外挂。 -
许可证允许商用,但禁止用于政治竞选、暴力、色情、虚假诈骗等场景,违规会被追诉。
8. 如何在自己的业务里落地?
| 行业 | 可直接用的能力 | 集成建议 |
|---|---|---|
| 电商客服 | 买家随手拍图 → 模型返回商品参数 + 语音讲解 | 把 OmniServe 当内部 API,前端加拍照按钮 |
| 在线教育 | 韩语数理化图解问答 | 用 KoNET benchmark 同款题型做 few-shot,准确率 33→80 % |
| 内容本地化 | 韩漫英译、自动配音 | 先图生文,再文本翻译,最后 TTS,一条链路 3 次调用 |
| 无障碍 | 视障用户“听”手机相机画面 | 开启连续语音描述,低延时 400 ms 内完成 |
9. FAQ:非技术读者也能看懂
Q:它跟 GPT-4o 比差多少?
A:体量差一个量级,8B 对 200B+。英语通用任务 GPT-4o 仍领先,但韩语、语音合成、轻量部署三项 Omni 更划算。
Q:离散 token 和连续 embedding 会不会打架?
A:训练时把连续特征投影到与离散 token 同一维度,再加残差,实测反而互补:离散管语义对齐,连续管细粒度。
Q:能不能直接跑在 24 GB 游戏卡?
A:官方未提供 INT4/8 量化。社区试验 Llama.cpp 尚未支持视觉 Decoder,暂不建议生产环境强上。
Q:S3 能不能换成本地 MinIO?
A:只要兼容 AWS S3 签名协议即可,把 .env 里 NCP_S3_ENDPOINT 改成 http://minio:9000。
10. 结论:小而全的新基准
HyperCLOVA X 8B Omni 用 8B 参数把“文本-图像-语音”三条流水线压进一个 Transformer,在韩语场景做到准 SOTA,同时放出 Docker 级推理方案。
对于预算有限、又想一次性拥有“图生文、文生图、语音识别、语音合成”的中小团队,它是目前最省显存、最省心的开源选择。
下一步,作者已在技术报告末尾预告:继续放大模型,“Scaling Omni” 将是 2026 的关键词。保持关注,先跑通今天的 8B,未来升级只需换权重。

