全球首个端到端语音大模型问世：1300亿参数如何彻底改变人机对话？让你的智能设备真正听懂喜怒哀乐！

高效码农

6 月前

Step-Audio-AQAA：首个端到端语音交互大模型，直接听懂声音、开口说话

(图片来源：Pexels，展示人机语音交互场景)

为什么我们需要真正的“语音大模型”？

当我们与智能助手对话时，通常经历这样的过程：语音输入→转文字→文字处理→文字回复→转语音输出。这种“拼装式”方案存在明显瓶颈：

信息丢失：语音中的情感、语调等副语言信息无法传递
误差累积：自动语音识别（ASR）或文本转语音（TTS）任一环节出错都会导致结果失真
响应延迟：多模块串联显著增加处理时间

传统方案如同需要翻译的跨国会议，而Step-Audio-AQAA的突破在于构建了“母语级”对话系统——它能直接听懂原始音频，并生成自然语音回复，实现真正的端到端语音交互（Audio Query-Audio Answer, AQAA）。

核心技术揭秘：三模块协同架构

1. 双码本音频分词器：声音的“解构大师”

(概念图：声音特征分解示意)

语言码本（16.7Hz采样）
专注提取音素、语法等结构性特征，相当于识别“说了什么词”
语义码本
捕捉音色、韵律等声学特征，相当于理解“用什么语气说的”
协同优势
实验表明，双码本联合训练使下一词预测困惑度（PPL）显著低于单码本方案，为后续处理提供更丰富的特征。

2. 1300亿参数多模态基座：Step-Omni

基于StepFun团队前期研发的多模态大模型（支持文本/语音/图像）
关键改造：
- 在原有词表中新增5120个音频标记
- 仅启用文本和语音处理能力
采用分组查询注意力机制优化计算效率

3. 神经声码器：从标记到声波

基于流匹配模型（Flow-Matching）
类似CosyVoice架构：
- ResNet-1D层 + Transformer块构成U-Net
- 专为音频标记重构优化
输入音频标记 → 输出24kHz高保真语音

突破性训练策略：三阶段锻造模型能力

阶段一：有监督微调（SFT）

(概念图：结构化数据训练)

数据准备
- AQTA数据集（音频问-文本答）
- AQTAA数据集（音频问-文本答-语音答）
  通过Step-Audio-TTS-3B模型生成语音样本
双阶段训练
```
graph LR
A[预训练模型] --> B[全参数微调]
B --> C[增强基础问答能力]
C --> D[特定能力强化]
D --> E[稳定文本-语音交织输出]
```
- 首阶段：混合数据训练，损失函数仅计算回复部分
  $\mathcal{L}_{\text{CE}}(\theta)=-\frac{1}{T}\sum_{t=1}^{T}\log P_{\theta}(y_{t}|x,y_{<t})$< section></t})$<>
- 次阶段：精选高质量AQTAA数据，强化唱歌等专项能力

阶段二：掩码偏好优化（Masked-DPO）

发现关键问题：
直接优化所有标记会导致文本与语音错位
创新方案：
在DPO过程中屏蔽音频标记损失，保留文本监督信号
损失函数设计：
[L_{mDPO}=-\mathbb{E}\log\sigma\left[\sum \beta\mathbb{I}(a_{t}^{w}\notin A)\log\frac{\pi_{\theta}}{\pi_{ref}} – \sum \beta\mathbb{I}(a_{t}^{l}\notin A)\log\frac{\pi_{\theta}}{\pi_{ref}}\right]]
其中$A$代表音频标记集合

阶段三：权重融合

整合三种模型优势：
- SFT第一阶段模型（基础能力强）
- SFT第二阶段模型（专项能力优）
- DPO微调模型（对齐人类偏好）
加权融合公式：
$W_{Final} = (5 \times W_{SFT1} + 5 \times W_{SFT2} + 1 \times W_{DPO}) / 11$

性能实测：九维能力全面评估

在专业评测集StepEval-Audio-360上的表现（5分制MOS评分）：

radarChart
    title 模型能力雷达图
    axis 语音控制，创造力，语言能力，游戏，角色扮演，逻辑推理，语音理解，唱歌，指令跟随
    Step-Audio-AQAA [4.7， 4.5， 4.6， 4.3， 4.4， 4.2， 4.1， 3.8， 3.6]
    Kimi-Audio [4.1， 4.0， 4.2， 3.9， 4.0， 3.8， 3.9， 4.2， 3.9]
    Qwen-Omni [4.3， 4.2， 4.3， 4.0， 4.1， 4.0， 4.0， 4.0， 4.1]

核心优势领域：
✅ 语音情感控制（领先13%）
✅ 创造力与角色扮演
✅ 多语言理解（支持中/英/日及方言）

待优化方向：
⏳ 唱歌能力（过度强化会损害其他功能）
⏳ 复杂语音指令跟随（需专项数据补充）

关键技术创新点

1. 文本-语音标记交织输出（10：15比例）

对比实验证明：带文本引导的语音生成质量显著提升

输出模式对话质量↑ 相关性↑ 事实性↑

纯音频标记 1.71 0.05 0.03

文本后接音频 4.01 0.59 0.58

10：15交织 4.03 0.65 0.67

输出模式	对话质量↑	相关性↑	事实性↑
纯音频标记	1.71	0.05	0.03
文本后接音频	4.01	0.59	0.58
10：15交织	4.03	0.65	0.67

2. 多状态语音拼接技术

解决单轮对话中情感/语速动态切换难题

最佳方案：保留标记拼接法

# 正确拼接示例
output = [txt_tokens, <audio_start>, happy_tokens, <audio_end>, 
          txt_tokens, <audio_start>, sad_tokens, <audio_end>]

错误方案会导致模型混淆语音状态边界

实践应用与获取方式

典型应用场景

情感陪伴机器人：根据用户情绪自动调节回应语气
多语言客服系统：直接处理方言语音查询
游戏NPC交互：实时生成带情绪变化的语音反馈

模型访问

# 通过Hugging Face获取
from transformers import pipeline
agent = pipeline('audio-question-answering', 
                model='stepfun-ai/Step-Audio-AQAA')
response = agent(audio_query)

在线演示：https://huggingface.co/stepfun-ai/Step-Audio-AQAA
评测数据集：StepEval-Audio-360

未来演进方向

无文本引导的语音生成
探索纯音频标记是否支持高质量生成
连续音频表征研究
离散标记是否最优解？连续建模或是新方向
歌唱能力突破
解决音高稳定性和长旋律连贯性问题
推理范式升级
探索类o1推理架构提升语境感知能力

结语

Step-Audio-AQAA的突破不仅在于技术参数（1300亿参数、双码本分词器），更在于重构了语音交互范式。它将原本割裂的听觉理解-认知决策-语音生成整合为统一过程，在语音控制、情感表达等维度确立新标杆。随着代码与模型的开放，这项技术将为智能硬件、无障碍交互等领域提供基础支持。