小米MiMo-Audio 7B震撼发布：语音AI迈入GPT级自由续写时代

高效码农

3 月前

“能不能像 GPT-3 写文章那样，随便给两句声音，模型就把剩下的活儿全包圆？”
小米最新开源的 MiMo-Audio 系列，用 1 亿小时无标注语音把这个问题推到了“基本可以”的程度。下面把论文、博客和代码里的关键信息全部翻译成大白话，告诉你它到底强在哪、能干什么、怎么用、踩坑点在哪。

1. 先一句话总结：MiMo-Audio 是什么？

一套“音频版 GPT”底座：
7B 参数，统一接受文本+声音两种 token，自回归地续写文本或声音。
先在海量语音上做“无监督压缩”，再在小规模指令上做“有监督对齐”，两步走完就能：
- 听懂你说什么（ASR、翻译、问答）
- 模仿谁的声音、情绪、语速（Voice Conversion、InstructTTS）
- 根据上文把对话或直播继续编下去（Speech Continuation）

2. 为什么之前做不到？——两个老大难

痛点	传统做法	MiMo-Audio 解法
语音信息太稠密	一秒 200 个 token，LLM 直接崩	“Patch”把 4 帧并 1 帧，先降采样 6.25 Hz，再让 LLM 处理
语义 vs 声学难两全	要么牺牲音色做语义 token，要么反过来	1.2 B 自研 tokenizer，8 层 RVQ，一起优化“重建误差+文本对齐”

3. 模型全家福

名称	作用	大小	开源地址
MiMo-Audio-Tokenizer	把 24 kHz 波形→离散 token	1.2 B	HuggingFace
MiMo-Audio-7B-Base	纯预训练底座，支持 Few-shot	7 B	HuggingFace
MiMo-Audio-7B-Instruct	指令微调版，直接聊天	7 B	HuggingFace
MiMo-Audio-Eval	官方评测脚本	–	GitHub

4. 核心能力逐条拆解

4.1 语音续写（Speech Continuation）

给 3~5 秒任意 Prompt，模型无限续下去，说话人音色、背景噪声、情绪、方言全部保持一致。
官方展示场景：

双人辩论 → 自动给你生成正反方下一回合
游戏直播 → 带着“兄弟们冲！”口播风格
朗读诗歌 → 连换气口都续得原汁原味

用法：

python inference_example_pretrain.py \
  --task continuation \
  --audio_prompt prompt.wav \
  --out_len 10 \
  --output out.wav

4.2 小样本语音到语音（Few-shot S2S）

无需微调，把 16 组“示范对”塞进上下文就能完成：

任务	示例	输出
音色克隆	A 说→B 说同一句	任意新句子用 B 的声线
情绪转换	同一句“高兴版/悲伤版”	新句子直接变情绪
语速调节	快/慢两种读法	新句子按指定速率
语音去噪	带噪/干净配对	新噪声音频→干净

用法：

python inference_example_pretrain.py \
  --task fewshot_vc \
  --examples_dir ./16_pairs/ \
  --target_wav new.wav

4.3 指令式 TTS（InstructTTS）

一句话把“角色+情绪+场景”说清，模型直接给你演出感满满的声音：
文本：
“所以你三年的梦想和努力全放弃了，是吗？”
指令：
“高声质疑不公的愤怒记者。”

模型会先写一段“内心戏”（Chain-of-Thought），再合成语音，节奏、重音、换气全部按剧本走。

用法：

python inference_example_sft.py \
  --task instruct_tts \
  --text "你的文本" \
  --instruction "用中年男性天津方言，语速快，带不耐烦语气"

4.4 多语种 ASR & 翻译

中文（AISHELL-1）WER 1.78 %
英文（LibriSpeech test-clean）WER 3.76 %
英→中、中→英语音翻译，16-shot 就能用，没见过语言对也能翻。

5. 训练两阶段全景图

阶段	数据规模	目标	关键 trick
Understanding	2.6 T token（文本 1.2 T + 语音 1.4 T）	让 LLM 看懂语音	只计算文本 token 损失，冻结解码器
Understanding+Generation	5 T token（文本 2.6 T + 语音 2.4 T）	让 LLM 会生成语音	音频 8 层 RVQ 分层加权，延迟式并行生成

语音帧率：25 Hz → Patch 后 6.25 Hz → LLM 上下文 8192 个 patch，理论可吃 20 分钟音频。

6. 数据 pipeline 怎么搭？

收集：播客、有声书、新闻、直播……上百种来源，去重+版权过滤。
清洗：VAD、说话人分割、ASR 转写、音量归一。
打标签：
- 语义维度：用 LLM 给转写打分（知识密度、逻辑性）
- 声学维度：自训音频字幕模型，自动写“环境+情绪+音色”描述。
采样：按质量分加权，优先保留高信息密度+高音质片段。

最终入库 1 亿小时，其中 1000 万小时拿来训 tokenizer，剩余做 LLM 预训练。

7. 评测结果速览（都用官方脚本可复现）

7.1 语音版 MMLU（SpeechMMLU）

模型	文本→文本	语音→语音	语音→文本	文本→语音
MiMo-7B-Base	72.5	69.1	69.5	71.5
Step-Audio2-mini	74.1	51.8	67.8	63.4
Kimi-Audio-Base	70.7	11.8	67.9	0.0

modality gap 仅 3.4 分，语音/文本能力几乎无打折。

7.2 通用音频理解（MMAU 三类）

模型	语音	环境声	音乐	平均
MiMo-7B-Instruct	68.5	82.6	73.7	74.9
Gemini-2.5-Flash	76.6	73.3	65.6	71.8
Qwen2.5-Omni	70.6	78.1	65.9	71.5

开源第一，把 Gemini 都超了。

7.3 口语对话（Big-Bench-Audio）

模型	S2T	S2S
gpt-4o-audio	70.2	67.2
MiMo-7B-Instruct	72.9	60.2
Step-Audio2-mini	50.9	47.5

开源里S2T 第一，S2S 仅次于 GPT-4o。

8. 快速上手：15 分钟跑起本地 Demo

8.1 安装

# 1. 拉仓库
git clone https://github.com/XiaomiMiMo/MiMo-Audio.git
cd MiMo-Audio
# 2. 装依赖
pip install -e .
# 3. 装 FlashAttention（可选，加速）
pip install flash-attn --no-build-isolation

8.2 下载模型（示例用 Instruct 版）

huggingface-cli download XiaomiMiMo/MiMo-Audio-Tokenizer --local-dir ./tokenizer
huggingface-cli download XiaomiMiMo/MiMo-Audio-7B-Instruct --local-dir ./instruct

8.3 启动 Gradio 界面

python run_mimo_audio.py \
  --tokenizer_path ./tokenizer \
  --model_path ./instruct

浏览器打开 http://127.0.0.1:7860，把 prompt 粘进去，文本或音频都能当输入。

9. 常见坑 & FAQ

Q1 显存要多少？
A：7B 模型 FP16 约 13 GB，加上缓存建议 16 GB 以上显卡；32 GB 内存可跑 CPU offload。

Q2 为什么续写突然变静音？
A：RVQ 第 1~2 层负责语义，后 6 层负责音质，如果第 1 层预测到结束 token，后面直接停。可手动把 --max_new_tokens 调大。

Q3 中文方言支持吗？
A：训练里有天津、四川、东北口音数据，能听能说，但口音越重越吃 Few-shot，给 3~5 句示范更稳。

Q4 商用要不要授权？
A：模型权重 Apache-2.0，可商用；若用官方演示语音做数据集，需再确认声纹版权。

Q5 能实时流式吗？
A：目前 patch encoder 双向 attention，整段推理；官方说下半年出 streaming 版。

10. 局限 & 下一步（官方白纸黑字）

当前问题	未来计划
In-context 写歌会跑调	继续加音乐数据 + RL
对话过程音色跳变	RLHF + 一致性 loss
思考链在音乐/环境声上 hallucination	引入“音频事实性”奖励模型
超长音频 >30 min 会忘设定	把 RoPE 外扩 + 局部窗口

11. 总结：一句人话

MiMo-Audio 把“语音大模型”第一次做到了像 GPT-3 一样即插即用：
不用你收集微调数据，不用你懂 DSP，给几个例子就能让它听懂、说出、模仿、续写，效果还把多数开源对手按在地上摩擦。
如果你在做播客、配音、翻译、语音助理，甚至就想让 AI 帮你把直播“演”下去——这套开源值得立刻试。

引用（BibTeX）

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={https://github.com/XiaomiMiMo/MiMo-Audio}, 
}