把文本、图像、声音揉进一个 8B 模型:HyperCLOVA X 8B Omni 完整拆解

关键词:HyperCLOVA X 8B Omni、any-to-any、统一多模态、文本-图像-语音、8B 参数、韩语优先、OmniServe、开源权重


先回答最常被问到的 5 个问题

问题 一句话回答
它到底是什么? 一个 80 亿参数的“any-to-any”模型,文本、图像、音频既能输进去,也能吐出来。
跟谁像? 功能上像 Qwen2.5-Omni-7B,但韩语任务明显更强;体积只有 8B,单张 A100 可跑。
能商用吗? 可以,遵循 NAVER 自定义许可证,需署名且不得用于非法场景。
需要多少卡? 推理最少 3×A100 80 GB;训练用了上千张 A100,但权重已开放,不用再烧一次钱。
亮点在哪? ① 韩语文化场景理解深;② 离散+连续双编码,生成细节好;③ 提供 Docker 一键推理包 OmniServe。

1. 诞生背景:为什么“all in one”成了刚需?

过去两年,多模态路线大致分两条:

  1. 拼接式:先训好 LLM,再外挂视觉/语音 Encoder,最后加 Decoder。
    缺点: catastrophic forgetting(灾难性遗忘)——文本能力常掉 5~10 分。
  2. 分治式:理解一条模型、生成另一条模型,中间用提示词搭桥。
    缺点:延迟高、误差累积、部署两套框架。

NAVER Cloud 团队的做法是:把三种模态全部塞进同一个 36 层 Decoder-only Transformer,用“next-token 预测”统一接口
文本用离散 token,图像/音频则“离散+连续”双轨:离散 token 负责对齐语义,连续 embedding 补充细节。
这样既避免遗忘,又把 latency 压到单次前向传播,起名 Omni(全能)。


2. 架构速览:一张图看懂数据流向

用户输入
├─ 文本 → SentencePiece Tokenizer
├─ 图像 → ViT 连续编码 → 线性 Adapter
│         ↓
│        TA-Tok 离散 Tokenizer(27×27 网格)
├─ 音频 → Whisper 骨干 → 连续 25 Hz 嵌入
│         ↓
│        FSQ 离散 Tokenizer(25 token/s)
│
└─ 统一序列(文本/视觉/音频 token 交错)→ 8B Transformer
                                        ↓
输出头分裂
├─ 文本:Softmax → 词表
├─ 图像:离散 token → Diffusion Decoder → 像素
└─ 音频:离散 token → Unit-BigVGAN → 16 kHz 波形

关键细节

  • 视觉 Decoder 用 FLUX.1 VAE 潜空间,单通道拼接条件,训练 4 阶段,支持“近原生宽高比”。
  • 音频 Decoder 带 ECAPA-TDNN 说话人嵌入,可零样本克隆音色。
  • 上下文 32 K,最多 3 K 视觉 token 或 11 K 视频 token。

3. 训练三段论:先稳住文本,再吞多模态,最后拉齐连续信号

阶段 目标 数据量 文本占比 视觉占比 音频占比 关键技巧
① 文本预训 4K→8K→32K 渐进长文 1.2 T 100 % 0 0 多 token 并行预测,加速收敛
② 离散对齐 把图像/音频码本当“外语”词表 302 B 10 % 75 % 15 % 文本矩阵冻结,只训新 token
③ 连续注入 视觉/音频 Encoder 与 LLM 拉齐 1.5 T 12 % 73 % 15 % 先冻 Encoder 训 Adapter,再全参数

额外小灶

  • 韩语 OCR、文化地标、方言视频单独加料,保证“Korean-First”。
  • 长视频里音频用 MambaMia 压缩到 1 Hz,省 92 % token。

4. 后训练:把“基础模型”变成“可用助手”

四阶段 SFT(监督微调)曲线:

  1. 基础对话(50 % 文本)——先保语言能力
  2. 任务导向(59 % 视觉)——图文混合指令
  3. 长时视频(41 % 视频)——时序推理
  4. 意图拆解——内置 <think> 块,让模型先写“草稿”再输出,减少幻觉。

例子:用户说“把这张人像转成水彩并读一段描述”

<think>
意图:图像编辑 + 语音输出  
模块:Vision Decoder + Audio Decoder  
</think>
→ 调用 t2i 工具生成水彩 → 调用 TTS 返回语音

5. 成绩如何?公开榜单直译

任务类别 基准(英/韩) HyperCLOVA X 8B Omni 同尺寸对手最好成绩 差距
韩语知识 KMMLU-Pro 64.9 38.6 (Qwen2.5-Omni-7B) +26.3
英语推理 GSM8K 87.3 87.0 (Qwen2.5-Omni-7B) +0.3
视觉问答 LLaVA-W 93.8 88.5 +5.3
图像编辑 ImgEdit 3.83 1.30 (Janus-Pro-7B) +195 %
韩语 ASR KsponSpeech clean WER 28.7 % 34.9 % -6.2 pp
语音翻译 Fleurs en→ko ASR-BLEU 24.7 0.0 碾压
语音自然度 韩语 MOS 4.22 / 5 3.40 (Qwen3-Omni-30B-A3B) +0.82

注:8B 模型在“韩语语音合成”上把 30B 模型甩开一条街,可见韩语数据密度优势。


6. 快速上手:30 分钟跑通 OmniServe

官方提供生产级推理系统 OmniServe,OpenAI 格式,支持并发、S3 自动上传。

6.1 硬件清单

组件 GPU 独占 显存 备注
Vision Encoder 1×A100 ~8 GB 可与其他组件共卡
LLM 8B 1×A100 ~16 GB 必须整卡
Vision Decoder 1×A100 ~16 GB 可与其他组件共卡
Audio 编解码 共用 ~4 GB 轻量

最低配置:3×A100 80 GB
推荐配置:4×A100 80 GB 留 1 卡做热备

6.2 安装步骤(复制即可用)

# 1. 拉代码
git clone https://github.com/NAVER-Cloud-HyperCLOVA-X/OmniServe.git
cd OmniServe

# 2. 装依赖
pip install huggingface_hub safetensors torch openai easydict

# 3. 下载权重(~16 GB)
huggingface-cli download naver-hyperclovax/HyperCLOVAX-SEED-Omni-8B \
    --local-dir ./models/HyperCLOVAX-SEED-Omni-8B

# 4. 转格式(Track B = Omni 模型)
python convert_model.py \
    --input ./models/HyperCLOVAX-SEED-Omni-8B \
    --output ./track_b \
    --track b

# 5. 配环境
cp .env.example .env
# 用 vim 写入 S3 端点与密钥(生成图/音必须)

# 6. 起服务
docker compose --profile track-b build
docker compose --profile track-b up -d

# 7. 看日志
docker compose logs -f omni
# 出现 “Model loaded in 273.1 s” 即可调用

6.3 常用调用模板

场景 关键参数 示范代码片段
图生文 type: image_url 见文件 2 “Image understanding” 段
文生图 tools: t2i_model_generation 必须带 system prompt 触发工具
语音输入 type: input_audio base64 编码 mp3,最大 30 s
语音输出 纯文本 prompt + max_tokens≥500 模型自动调用 TTS,返回 audio url
视频理解 把 mp4 当 image_url 传 内部抽 120 帧,平均 11 K token

7. 局限与注意

  1. 视频只理解不生成,输出端无视频 Decoder。
  2. 图像生成固定 27×27 token,等效 384×384 语义网格,细节靠扩散模型“脑补”,极端小字可能糊。
  3. 音频 token 25/s,即 1 token = 40 ms,不能唱歌,节奏感会飘。
  4. 知识截止 2025-05,之后事件需 RAG 外挂。
  5. 许可证允许商用,但禁止用于政治竞选、暴力、色情、虚假诈骗等场景,违规会被追诉。

8. 如何在自己的业务里落地?

行业 可直接用的能力 集成建议
电商客服 买家随手拍图 → 模型返回商品参数 + 语音讲解 把 OmniServe 当内部 API,前端加拍照按钮
在线教育 韩语数理化图解问答 用 KoNET benchmark 同款题型做 few-shot,准确率 33→80 %
内容本地化 韩漫英译、自动配音 先图生文,再文本翻译,最后 TTS,一条链路 3 次调用
无障碍 视障用户“听”手机相机画面 开启连续语音描述,低延时 400 ms 内完成

9. FAQ:非技术读者也能看懂

Q:它跟 GPT-4o 比差多少?
A:体量差一个量级,8B 对 200B+。英语通用任务 GPT-4o 仍领先,但韩语、语音合成、轻量部署三项 Omni 更划算。

Q:离散 token 和连续 embedding 会不会打架?
A:训练时把连续特征投影到与离散 token 同一维度,再加残差,实测反而互补:离散管语义对齐,连续管细粒度。

Q:能不能直接跑在 24 GB 游戏卡?
A:官方未提供 INT4/8 量化。社区试验 Llama.cpp 尚未支持视觉 Decoder,暂不建议生产环境强上。

Q:S3 能不能换成本地 MinIO?
A:只要兼容 AWS S3 签名协议即可,把 .envNCP_S3_ENDPOINT 改成 http://minio:9000


10. 结论:小而全的新基准

HyperCLOVA X 8B Omni 用 8B 参数把“文本-图像-语音”三条流水线压进一个 Transformer,在韩语场景做到准 SOTA,同时放出 Docker 级推理方案。
对于预算有限、又想一次性拥有“图生文、文生图、语音识别、语音合成”的中小团队,它是目前最省显存、最省心的开源选择
下一步,作者已在技术报告末尾预告:继续放大模型,“Scaling Omni” 将是 2026 的关键词。保持关注,先跑通今天的 8B,未来升级只需换权重。