Step-Audio-AQAA:首个端到端语音交互大模型,直接听懂声音、开口说话
(图片来源:Pexels,展示人机语音交互场景)
为什么我们需要真正的“语音大模型”?
当我们与智能助手对话时,通常经历这样的过程:语音输入→转文字→文字处理→文字回复→转语音输出。这种“拼装式”方案存在明显瓶颈:
-
信息丢失:语音中的情感、语调等副语言信息无法传递 -
误差累积:自动语音识别(ASR)或文本转语音(TTS)任一环节出错都会导致结果失真 -
响应延迟:多模块串联显著增加处理时间
传统方案如同需要翻译的跨国会议,而Step-Audio-AQAA的突破在于构建了“母语级”对话系统——它能直接听懂原始音频,并生成自然语音回复,实现真正的端到端语音交互(Audio Query-Audio Answer, AQAA)。
核心技术揭秘:三模块协同架构
1. 双码本音频分词器:声音的“解构大师”
(概念图:声音特征分解示意)
-
语言码本(16.7Hz采样)
专注提取音素、语法等结构性特征,相当于识别“说了什么词” -
语义码本
捕捉音色、韵律等声学特征,相当于理解“用什么语气说的” -
协同优势
实验表明,双码本联合训练使下一词预测困惑度(PPL)显著低于单码本方案,为后续处理提供更丰富的特征。
2. 1300亿参数多模态基座:Step-Omni
-
基于StepFun团队前期研发的多模态大模型(支持文本/语音/图像) -
关键改造: -
在原有词表中新增5120个音频标记 -
仅启用文本和语音处理能力
-
-
采用分组查询注意力机制优化计算效率
3. 神经声码器:从标记到声波
-
基于流匹配模型(Flow-Matching) -
类似CosyVoice架构: -
ResNet-1D层 + Transformer块构成U-Net -
专为音频标记重构优化
-
-
输入音频标记 → 输出24kHz高保真语音
突破性训练策略:三阶段锻造模型能力
阶段一:有监督微调(SFT)
(概念图:结构化数据训练)
-
数据准备
-
AQTA数据集(音频问-文本答) -
AQTAA数据集(音频问-文本答-语音答)
通过Step-Audio-TTS-3B模型生成语音样本
-
-
双阶段训练
graph LR A[预训练模型] --> B[全参数微调] B --> C[增强基础问答能力] C --> D[特定能力强化] D --> E[稳定文本-语音交织输出]
-
首阶段:混合数据训练,损失函数仅计算回复部分
$\mathcal{L}_{\text{CE}}(\theta)=-\frac{1}{T}\sum_{t=1}^{T}\log P_{\theta}(y_{t}|x,y_{<t})$< section></t})$<> -
次阶段:精选高质量AQTAA数据,强化唱歌等专项能力
-
阶段二:掩码偏好优化(Masked-DPO)
-
发现关键问题:
直接优化所有标记会导致文本与语音错位 -
创新方案:
在DPO过程中屏蔽音频标记损失,保留文本监督信号 -
损失函数设计:
[L_{mDPO}=-\mathbb{E}\log\sigma\left[\sum \beta\mathbb{I}(a_{t}^{w}\notin A)\log\frac{\pi_{\theta}}{\pi_{ref}} – \sum \beta\mathbb{I}(a_{t}^{l}\notin A)\log\frac{\pi_{\theta}}{\pi_{ref}}\right]]
其中$A$代表音频标记集合
阶段三:权重融合
-
整合三种模型优势: -
SFT第一阶段模型(基础能力强) -
SFT第二阶段模型(专项能力优) -
DPO微调模型(对齐人类偏好)
-
-
加权融合公式:
$W_{Final} = (5 \times W_{SFT1} + 5 \times W_{SFT2} + 1 \times W_{DPO}) / 11$
性能实测:九维能力全面评估
在专业评测集StepEval-Audio-360上的表现(5分制MOS评分):
radarChart
title 模型能力雷达图
axis 语音控制,创造力,语言能力,游戏,角色扮演,逻辑推理,语音理解,唱歌,指令跟随
Step-Audio-AQAA [4.7, 4.5, 4.6, 4.3, 4.4, 4.2, 4.1, 3.8, 3.6]
Kimi-Audio [4.1, 4.0, 4.2, 3.9, 4.0, 3.8, 3.9, 4.2, 3.9]
Qwen-Omni [4.3, 4.2, 4.3, 4.0, 4.1, 4.0, 4.0, 4.0, 4.1]
核心优势领域:
✅ 语音情感控制(领先13%)
✅ 创造力与角色扮演
✅ 多语言理解(支持中/英/日及方言)
待优化方向:
⏳ 唱歌能力(过度强化会损害其他功能)
⏳ 复杂语音指令跟随(需专项数据补充)
关键技术创新点
1. 文本-语音标记交织输出(10:15比例)
-
对比实验证明:带文本引导的语音生成质量显著提升 输出模式 对话质量↑ 相关性↑ 事实性↑ 纯音频标记 1.71 0.05 0.03 文本后接音频 4.01 0.59 0.58 10:15交织 4.03 0.65 0.67
2. 多状态语音拼接技术
-
解决单轮对话中情感/语速动态切换难题 -
最佳方案:保留标记拼接法 # 正确拼接示例 output = [txt_tokens, <audio_start>, happy_tokens, <audio_end>, txt_tokens, <audio_start>, sad_tokens, <audio_end>]
-
错误方案会导致模型混淆语音状态边界
实践应用与获取方式
典型应用场景
-
情感陪伴机器人:根据用户情绪自动调节回应语气 -
多语言客服系统:直接处理方言语音查询 -
游戏NPC交互:实时生成带情绪变化的语音反馈
模型访问
# 通过Hugging Face获取
from transformers import pipeline
agent = pipeline('audio-question-answering',
model='stepfun-ai/Step-Audio-AQAA')
response = agent(audio_query)
在线演示:https://huggingface.co/stepfun-ai/Step-Audio-AQAA
评测数据集:StepEval-Audio-360
未来演进方向
-
无文本引导的语音生成
探索纯音频标记是否支持高质量生成 -
连续音频表征研究
离散标记是否最优解?连续建模或是新方向 -
歌唱能力突破
解决音高稳定性和长旋律连贯性问题 -
推理范式升级
探索类o1推理架构提升语境感知能力
结语
Step-Audio-AQAA的突破不仅在于技术参数(1300亿参数、双码本分词器),更在于重构了语音交互范式。它将原本割裂的听觉理解-认知决策-语音生成整合为统一过程,在语音控制、情感表达等维度确立新标杆。随着代码与模型的开放,这项技术将为智能硬件、无障碍交互等领域提供基础支持。