站点图标 高效码农

小米MiMo-Audio 7B震撼发布:语音AI迈入GPT级自由续写时代

“能不能像 GPT-3 写文章那样,随便给两句声音,模型就把剩下的活儿全包圆?”
小米最新开源的 MiMo-Audio 系列,用 1 亿小时无标注语音把这个问题推到了“基本可以”的程度。下面把论文、博客和代码里的关键信息全部翻译成大白话,告诉你它到底强在哪、能干什么、怎么用、踩坑点在哪。


1. 先一句话总结:MiMo-Audio 是什么?

  • 一套“音频版 GPT”底座:
    7B 参数,统一接受文本+声音两种 token,自回归地续写文本或声音。
  • 先在海量语音上做“无监督压缩”,再在小规模指令上做“有监督对齐”,两步走完就能:
    • 听懂你说什么(ASR、翻译、问答)
    • 模仿谁的声音、情绪、语速(Voice Conversion、InstructTTS)
    • 根据上文把对话或直播继续编下去(Speech Continuation)

2. 为什么之前做不到?——两个老大难

痛点 传统做法 MiMo-Audio 解法
语音信息太稠密 一秒 200 个 token,LLM 直接崩 “Patch”把 4 帧并 1 帧,先降采样 6.25 Hz,再让 LLM 处理
语义 vs 声学难两全 要么牺牲音色做语义 token,要么反过来 1.2 B 自研 tokenizer,8 层 RVQ,一起优化“重建误差+文本对齐”

3. 模型全家福

名称 作用 大小 开源地址
MiMo-Audio-Tokenizer 把 24 kHz 波形→离散 token 1.2 B HuggingFace
MiMo-Audio-7B-Base 纯预训练底座,支持 Few-shot 7 B HuggingFace
MiMo-Audio-7B-Instruct 指令微调版,直接聊天 7 B HuggingFace
MiMo-Audio-Eval 官方评测脚本 GitHub

4. 核心能力逐条拆解

4.1 语音续写(Speech Continuation)

给 3~5 秒任意 Prompt,模型无限续下去,说话人音色、背景噪声、情绪、方言全部保持一致。
官方展示场景:

  • 双人辩论 → 自动给你生成正反方下一回合
  • 游戏直播 → 带着“兄弟们冲!”口播风格
  • 朗读诗歌 → 连换气口都续得原汁原味

用法:

python inference_example_pretrain.py \
  --task continuation \
  --audio_prompt prompt.wav \
  --out_len 10 \
  --output out.wav

4.2 小样本语音到语音(Few-shot S2S)

无需微调,把 16 组“示范对”塞进上下文就能完成:

任务 示例 输出
音色克隆 A 说→B 说同一句 任意新句子用 B 的声线
情绪转换 同一句“高兴版/悲伤版” 新句子直接变情绪
语速调节 快/慢两种读法 新句子按指定速率
语音去噪 带噪/干净配对 新噪声音频→干净

用法:

python inference_example_pretrain.py \
  --task fewshot_vc \
  --examples_dir ./16_pairs/ \
  --target_wav new.wav

4.3 指令式 TTS(InstructTTS)

一句话把“角色+情绪+场景”说清,模型直接给你演出感满满的声音:
文本:
“所以你三年的梦想和努力全放弃了,是吗?”
指令:
“高声质疑不公的愤怒记者。”

模型会先写一段“内心戏”(Chain-of-Thought),再合成语音,节奏、重音、换气全部按剧本走。

用法:

python inference_example_sft.py \
  --task instruct_tts \
  --text "你的文本" \
  --instruction "用中年男性天津方言,语速快,带不耐烦语气"

4.4 多语种 ASR & 翻译

  • 中文(AISHELL-1)WER 1.78 %
  • 英文(LibriSpeech test-clean)WER 3.76 %
  • 英→中、中→英语音翻译,16-shot 就能用,没见过语言对也能翻

5. 训练两阶段全景图

阶段 数据规模 目标 关键 trick
Understanding 2.6 T token(文本 1.2 T + 语音 1.4 T) 让 LLM 看懂语音 只计算文本 token 损失,冻结解码器
Understanding+Generation 5 T token(文本 2.6 T + 语音 2.4 T) 让 LLM 会生成语音 音频 8 层 RVQ 分层加权,延迟式并行生成

语音帧率:25 Hz → Patch 后 6.25 Hz → LLM 上下文 8192 个 patch,理论可吃 20 分钟音频


6. 数据 pipeline 怎么搭?

  1. 收集:播客、有声书、新闻、直播……上百种来源,去重+版权过滤
  2. 清洗:VAD、说话人分割、ASR 转写、音量归一。
  3. 打标签
    • 语义维度:用 LLM 给转写打分(知识密度、逻辑性)
    • 声学维度:自训音频字幕模型,自动写“环境+情绪+音色”描述
  4. 采样:按质量分加权,优先保留高信息密度+高音质片段。

最终入库 1 亿小时,其中 1000 万小时拿来训 tokenizer,剩余做 LLM 预训练。


7. 评测结果速览(都用官方脚本可复现)

7.1 语音版 MMLU(SpeechMMLU)

模型 文本→文本 语音→语音 语音→文本 文本→语音
MiMo-7B-Base 72.5 69.1 69.5 71.5
Step-Audio2-mini 74.1 51.8 67.8 63.4
Kimi-Audio-Base 70.7 11.8 67.9 0.0

modality gap 仅 3.4 分,语音/文本能力几乎无打折

7.2 通用音频理解(MMAU 三类)

模型 语音 环境声 音乐 平均
MiMo-7B-Instruct 68.5 82.6 73.7 74.9
Gemini-2.5-Flash 76.6 73.3 65.6 71.8
Qwen2.5-Omni 70.6 78.1 65.9 71.5

开源第一,把 Gemini 都超了

7.3 口语对话(Big-Bench-Audio)

模型 S2T S2S
gpt-4o-audio 70.2 67.2
MiMo-7B-Instruct 72.9 60.2
Step-Audio2-mini 50.9 47.5

开源里S2T 第一,S2S 仅次于 GPT-4o。


8. 快速上手:15 分钟跑起本地 Demo

8.1 安装

# 1. 拉仓库
git clone https://github.com/XiaomiMiMo/MiMo-Audio.git
cd MiMo-Audio
# 2. 装依赖
pip install -e .
# 3. 装 FlashAttention(可选,加速)
pip install flash-attn --no-build-isolation

8.2 下载模型(示例用 Instruct 版)

huggingface-cli download XiaomiMiMo/MiMo-Audio-Tokenizer --local-dir ./tokenizer
huggingface-cli download XiaomiMiMo/MiMo-Audio-7B-Instruct --local-dir ./instruct

8.3 启动 Gradio 界面

python run_mimo_audio.py \
  --tokenizer_path ./tokenizer \
  --model_path ./instruct

浏览器打开 http://127.0.0.1:7860,把 prompt 粘进去,文本或音频都能当输入


9. 常见坑 & FAQ

Q1 显存要多少?
A:7B 模型 FP16 约 13 GB,加上缓存建议 16 GB 以上显卡;32 GB 内存可跑 CPU offload。

Q2 为什么续写突然变静音?
A:RVQ 第 1~2 层负责语义,后 6 层负责音质,如果第 1 层预测到结束 token,后面直接停。可手动把 --max_new_tokens 调大。

Q3 中文方言支持吗?
A:训练里有天津、四川、东北口音数据,能听能说,但口音越重越吃 Few-shot,给 3~5 句示范更稳

Q4 商用要不要授权?
A:模型权重 Apache-2.0,可商用;若用官方演示语音做数据集,需再确认声纹版权。

Q5 能实时流式吗?
A:目前 patch encoder 双向 attention,整段推理;官方说下半年出 streaming 版。


10. 局限 & 下一步(官方白纸黑字)

当前问题 未来计划
In-context 写歌会跑调 继续加音乐数据 + RL
对话过程音色跳变 RLHF + 一致性 loss
思考链在音乐/环境声上 hallucination 引入“音频事实性”奖励模型
超长音频 >30 min 会忘设定 把 RoPE 外扩 + 局部窗口

11. 总结:一句人话

MiMo-Audio 把“语音大模型”第一次做到了像 GPT-3 一样即插即用
不用你收集微调数据,不用你懂 DSP,给几个例子就能让它听懂、说出、模仿、续写,效果还把多数开源对手按在地上摩擦。
如果你在做播客、配音、翻译、语音助理,甚至就想让 AI 帮你把直播“演”下去——这套开源值得立刻试


引用(BibTeX)

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={https://github.com/XiaomiMiMo/MiMo-Audio}, 
}

退出移动版