“能不能像 GPT-3 写文章那样,随便给两句声音,模型就把剩下的活儿全包圆?”
小米最新开源的 MiMo-Audio 系列,用 1 亿小时无标注语音把这个问题推到了“基本可以”的程度。下面把论文、博客和代码里的关键信息全部翻译成大白话,告诉你它到底强在哪、能干什么、怎么用、踩坑点在哪。
1. 先一句话总结:MiMo-Audio 是什么?
-
一套“音频版 GPT”底座:
7B 参数,统一接受文本+声音两种 token,自回归地续写文本或声音。 -
先在海量语音上做“无监督压缩”,再在小规模指令上做“有监督对齐”,两步走完就能: -
听懂你说什么(ASR、翻译、问答) -
模仿谁的声音、情绪、语速(Voice Conversion、InstructTTS) -
根据上文把对话或直播继续编下去(Speech Continuation)
-
2. 为什么之前做不到?——两个老大难
痛点 | 传统做法 | MiMo-Audio 解法 |
---|---|---|
语音信息太稠密 | 一秒 200 个 token,LLM 直接崩 | “Patch”把 4 帧并 1 帧,先降采样 6.25 Hz,再让 LLM 处理 |
语义 vs 声学难两全 | 要么牺牲音色做语义 token,要么反过来 | 1.2 B 自研 tokenizer,8 层 RVQ,一起优化“重建误差+文本对齐” |
3. 模型全家福
名称 | 作用 | 大小 | 开源地址 |
---|---|---|---|
MiMo-Audio-Tokenizer | 把 24 kHz 波形→离散 token | 1.2 B | HuggingFace |
MiMo-Audio-7B-Base | 纯预训练底座,支持 Few-shot | 7 B | HuggingFace |
MiMo-Audio-7B-Instruct | 指令微调版,直接聊天 | 7 B | HuggingFace |
MiMo-Audio-Eval | 官方评测脚本 | – | GitHub |
4. 核心能力逐条拆解
4.1 语音续写(Speech Continuation)
给 3~5 秒任意 Prompt,模型无限续下去,说话人音色、背景噪声、情绪、方言全部保持一致。
官方展示场景:
-
双人辩论 → 自动给你生成正反方下一回合 -
游戏直播 → 带着“兄弟们冲!”口播风格 -
朗读诗歌 → 连换气口都续得原汁原味
用法:
python inference_example_pretrain.py \ --task continuation \ --audio_prompt prompt.wav \ --out_len 10 \ --output out.wav
4.2 小样本语音到语音(Few-shot S2S)
无需微调,把 16 组“示范对”塞进上下文就能完成:
任务 | 示例 | 输出 |
---|---|---|
音色克隆 | A 说→B 说同一句 | 任意新句子用 B 的声线 |
情绪转换 | 同一句“高兴版/悲伤版” | 新句子直接变情绪 |
语速调节 | 快/慢两种读法 | 新句子按指定速率 |
语音去噪 | 带噪/干净配对 | 新噪声音频→干净 |
用法:
python inference_example_pretrain.py \ --task fewshot_vc \ --examples_dir ./16_pairs/ \ --target_wav new.wav
4.3 指令式 TTS(InstructTTS)
一句话把“角色+情绪+场景”说清,模型直接给你演出感满满的声音:
文本:
“所以你三年的梦想和努力全放弃了,是吗?”
指令:
“高声质疑不公的愤怒记者。”
模型会先写一段“内心戏”(Chain-of-Thought),再合成语音,节奏、重音、换气全部按剧本走。
用法:
python inference_example_sft.py \ --task instruct_tts \ --text "你的文本" \ --instruction "用中年男性天津方言,语速快,带不耐烦语气"
4.4 多语种 ASR & 翻译
-
中文(AISHELL-1)WER 1.78 % -
英文(LibriSpeech test-clean)WER 3.76 % -
英→中、中→英语音翻译,16-shot 就能用,没见过语言对也能翻。
5. 训练两阶段全景图
阶段 | 数据规模 | 目标 | 关键 trick |
---|---|---|---|
Understanding | 2.6 T token(文本 1.2 T + 语音 1.4 T) | 让 LLM 看懂语音 | 只计算文本 token 损失,冻结解码器 |
Understanding+Generation | 5 T token(文本 2.6 T + 语音 2.4 T) | 让 LLM 会生成语音 | 音频 8 层 RVQ 分层加权,延迟式并行生成 |
语音帧率:25 Hz → Patch 后 6.25 Hz → LLM 上下文 8192 个 patch,理论可吃 20 分钟音频。
6. 数据 pipeline 怎么搭?
-
收集:播客、有声书、新闻、直播……上百种来源,去重+版权过滤。 -
清洗:VAD、说话人分割、ASR 转写、音量归一。 -
打标签: -
语义维度:用 LLM 给转写打分(知识密度、逻辑性) -
声学维度:自训音频字幕模型,自动写“环境+情绪+音色”描述。
-
-
采样:按质量分加权,优先保留高信息密度+高音质片段。
最终入库 1 亿小时,其中 1000 万小时拿来训 tokenizer,剩余做 LLM 预训练。
7. 评测结果速览(都用官方脚本可复现)
7.1 语音版 MMLU(SpeechMMLU)
模型 | 文本→文本 | 语音→语音 | 语音→文本 | 文本→语音 |
---|---|---|---|---|
MiMo-7B-Base | 72.5 | 69.1 | 69.5 | 71.5 |
Step-Audio2-mini | 74.1 | 51.8 | 67.8 | 63.4 |
Kimi-Audio-Base | 70.7 | 11.8 | 67.9 | 0.0 |
modality gap 仅 3.4 分,语音/文本能力几乎无打折。
7.2 通用音频理解(MMAU 三类)
模型 | 语音 | 环境声 | 音乐 | 平均 |
---|---|---|---|---|
MiMo-7B-Instruct | 68.5 | 82.6 | 73.7 | 74.9 |
Gemini-2.5-Flash | 76.6 | 73.3 | 65.6 | 71.8 |
Qwen2.5-Omni | 70.6 | 78.1 | 65.9 | 71.5 |
开源第一,把 Gemini 都超了。
7.3 口语对话(Big-Bench-Audio)
模型 | S2T | S2S |
---|---|---|
gpt-4o-audio | 70.2 | 67.2 |
MiMo-7B-Instruct | 72.9 | 60.2 |
Step-Audio2-mini | 50.9 | 47.5 |
开源里S2T 第一,S2S 仅次于 GPT-4o。
8. 快速上手:15 分钟跑起本地 Demo
8.1 安装
# 1. 拉仓库
git clone https://github.com/XiaomiMiMo/MiMo-Audio.git
cd MiMo-Audio
# 2. 装依赖
pip install -e .
# 3. 装 FlashAttention(可选,加速)
pip install flash-attn --no-build-isolation
8.2 下载模型(示例用 Instruct 版)
huggingface-cli download XiaomiMiMo/MiMo-Audio-Tokenizer --local-dir ./tokenizer
huggingface-cli download XiaomiMiMo/MiMo-Audio-7B-Instruct --local-dir ./instruct
8.3 启动 Gradio 界面
python run_mimo_audio.py \
--tokenizer_path ./tokenizer \
--model_path ./instruct
浏览器打开 http://127.0.0.1:7860
,把 prompt 粘进去,文本或音频都能当输入。
9. 常见坑 & FAQ
Q1 显存要多少?
A:7B 模型 FP16 约 13 GB,加上缓存建议 16 GB 以上显卡;32 GB 内存可跑 CPU offload。
Q2 为什么续写突然变静音?
A:RVQ 第 1~2 层负责语义,后 6 层负责音质,如果第 1 层预测到结束 token,后面直接停。可手动把 --max_new_tokens
调大。
Q3 中文方言支持吗?
A:训练里有天津、四川、东北口音数据,能听能说,但口音越重越吃 Few-shot,给 3~5 句示范更稳。
Q4 商用要不要授权?
A:模型权重 Apache-2.0,可商用;若用官方演示语音做数据集,需再确认声纹版权。
Q5 能实时流式吗?
A:目前 patch encoder 双向 attention,整段推理;官方说下半年出 streaming 版。
10. 局限 & 下一步(官方白纸黑字)
当前问题 | 未来计划 |
---|---|
In-context 写歌会跑调 | 继续加音乐数据 + RL |
对话过程音色跳变 | RLHF + 一致性 loss |
思考链在音乐/环境声上 hallucination | 引入“音频事实性”奖励模型 |
超长音频 >30 min 会忘设定 | 把 RoPE 外扩 + 局部窗口 |
11. 总结:一句人话
MiMo-Audio 把“语音大模型”第一次做到了像 GPT-3 一样即插即用:
不用你收集微调数据,不用你懂 DSP,给几个例子就能让它听懂、说出、模仿、续写,效果还把多数开源对手按在地上摩擦。
如果你在做播客、配音、翻译、语音助理,甚至就想让 AI 帮你把直播“演”下去——这套开源值得立刻试。
引用(BibTeX)
@misc{coreteam2025mimoaudio,
title={MiMo-Audio: Audio Language Models are Few-Shot Learners},
author={LLM-Core-Team Xiaomi},
year={2025},
url={https://github.com/XiaomiMiMo/MiMo-Audio},
}