Voxtral Mini 4B Realtime 2602:实现低延迟多语言实时语音转录的开源模型
Voxtral Mini 4B Realtime 2602 是 Mistral AI 开发的实时语音转录模型,支持 13 种语言,在 480ms 延迟下平均字错误率(WER)为 8.72%,接近离线模型的 5.90%。该 4B 参数模型采用原生流式架构和因果音频编码器,可配置延迟从 240ms 到 2.4s,适用于语音助手、直播字幕和实时会议转录。它在单 GPU(≥16GB 内存)上实时运行,吞吐量超过 12.5 tokens/秒,通过 Apache 2.0 许可开放权重,适合边缘部署。
Voxtral Mini 4B Realtime 2602 简介
实时语音转录在语音助手、直播字幕和多方会议场景中至关重要。Voxtral Mini 4B Realtime 2602 作为开源解决方案,在延迟低于 500ms 的同时,准确率可媲美离线系统。它支持 13 种语言,包括阿拉伯语、德语、英语、西班牙语、法语、印地语、意大利语、荷兰语、葡萄牙语、汉语、日语、韩语和俄语。
该模型参数总量为 4B,由约 3.4B 的语言模型和 0.6B 的音频编码器组成。音频编码器从头训练,支持因果注意力,实现流式处理。两者均采用滑动窗口注意力机制,支持“无限”流式转录。在 480ms 延迟设置下,其性能与领先的离线开源转录模型相当,同时优于现有开源实时基线。
模型以 BF16 格式发布,支持研究和商业应用。边缘设备部署友好,单 GPU(≥16GB 显存)即可实时运行,吞吐量超过 12.5 tokens/秒。这为隐私敏感的现场应用提供了高效选择。
关键特性
Voxtral Mini 4B Realtime 2602 的核心优势在于原生流式架构。它不像将离线模型分块处理,而是随音频到达实时转录,延迟可配置。
具体特性包括:
-
高质量转录:提供带置信度的音频到文本转换。 -
多语言支持:覆盖 13 种语言,满足跨语言转录需求。 -
实时性能:流式 ASR 模型,支持实时场景。 -
可配置延迟:从 240ms 到 2.4s 调节,平衡延迟与准确率。在 480ms 时,字错误率与离线模型差距最小。
这些特性使模型适用于对延迟敏感的场景,同时保持可量化的准确性。
架构细节
音频编码器采用因果注意力,从头训练以支持流式。语言模型主干和音频编码器均使用滑动窗口注意力,允许长时间连续处理而不受固定上下文限制。这确保了在长达数小时的音频流中稳定性能。
基准测试结果
基准测试显示,Voxtral Mini 4B Realtime 2602 在实时设置下表现强劲。以下是 FLEURS、多形式英语和短形式英语的详细结果。
FLEURS 基准(13 种语言平均及单语种 WER)
| Model | Delay | AVG | Arabic | German | English | Spanish | French | Hindi | Italian | Dutch | Portuguese | Chinese | Japanese | Korean | Russian |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Voxtral Mini Transcribe 2.0 | Offline | 5.90% | 13.54% | 3.54% | 3.32% | 2.63% | 4.32% | 10.33% | 2.17% | 4.78% | 3.56% | 7.30% | 4.14% | 12.29% | 4.75% |
| Voxtral Mini 4B Realtime 2602 | 480 ms | 8.72% | 22.53% | 6.19% | 4.90% | 3.31% | 6.42% | 12.88% | 3.27% | 7.07% | 5.03% | 10.45% | 9.59% | 15.74% | 6.02% |
| 160 ms | 12.60% | 24.33% | 9.50% | 6.46% | 5.34% | 9.75% | 15.28% | 5.59% | 11.39% | 10.01% | 17.67% | 19.17% | 19.81% | 9.53% | |
| 240 ms | 10.80% | 23.95% | 8.15% | 5.91% | 4.59% | 8.00% | 14.26% | 4.41% | 9.23% | 7.51% | 13.84% | 15.17% | 17.56% | 7.87% | |
| 960 ms | 7.70% | 20.32% | 4.87% | 4.34% | 2.98% | 5.68% | 11.82% | 2.46% | 6.76% | 4.57% | 8.99% | 6.80% | 14.90% | 5.56% | |
| 2400 ms | 6.73% | 14.71% | 4.15% | 4.05% | 2.71% | 5.23% | 10.73% | 2.37% | 5.91% | 3.93% | 8.48% | 5.50% | 14.30% | 5.41% |
480ms 延迟下,平均 WER 为 8.72%,英语 4.90%(离线 3.32%)、西班牙语 3.31%(离线 2.63%)。延迟增加到 2.4s 时,性能接近离线水平,平均 6.73%。
图:FLEURS 基准下不同语言的字错误率(越低越好)。
长形式英语基准(<10min 和 <20min 片段)
| Model | Delay | Meanwhile (<10m) | E-21 (<10m) | E-22 (<10m) | TEDLIUM (<20m) |
|---|---|---|---|---|---|
| Voxtral Mini Transcribe 2.0 | Offline | 4.08% | 9.81% | 11.69% | 2.86% |
| Voxtral Mini 4B Realtime 2602 | 480ms | 5.05% | 10.23% | 12.30% | 3.17% |
在长音频片段中,480ms 延迟的 WER 与离线差距在 0.3%-1.0% 范围内,适合长时间会议。
短形式英语基准
| Model | Delay | CHiME-4 | GigaSpeech 2k Subset | AMI IHM | SwitchBoard | CHiME-4 SP | GISpeech 2k Subset |
|---|---|---|---|---|---|---|---|
| Voxtral Mini Transcribe 2.0 | Offline | 10.39% | 6.81% | 14.43% | 11.54% | 10.42% | 1.74% |
| Voxtral Mini 4B Realtime 2602 | 480ms | 10.50% | 7.35% | 15.05% | 11.65% | 12.41% | 1.73% |
短形式测试中,多数场景下实时模型与离线差距小于 1%。
这些结果表明,在 480ms 延迟下,该模型在实时场景中提供接近离线水平的实用准确率,尤其在英语、西班牙语等常见语言上表现突出。
适用场景
Voxtral Mini 4B Realtime 2602 针对实时需求设计:
-
私人会议转录:实时生成文本记录,支持多语言参与者。 -
直播字幕生成:低延迟确保字幕与语音同步。 -
实时助手与语音理解:结合 LLM 实现自然对话。 -
更多场景:如电话客服实时分析、现场活动字幕。
低延迟(480ms 甜点)使交互感觉自然,例如语音代理在用户说完后立即响应。
边缘部署优势显著:4B 参数模型在资源有限设备上运行,保护隐私,避免云端传输敏感音频。
推荐设置与最佳实践
为获得最佳效果,遵循以下量化推荐:
-
将温度设置为 0.0,确保确定性输出。 -
单个文本 token 对应约 80ms 音频。1 小时会议需 --max-model-len >= 3600 / 0.8 = 45000。默认 131072 tokens 支持约 3 小时音频(预分配 RoPE 参数限制实际上限)。 -
使用 WebSocket 建立音频流会话。 -
推荐延迟 480ms,作为性能与低延迟的平衡点。可通过 params.json 中的 "transcription_delay_ms": 480调整。
这些设置优化了吞吐量与内存使用,适合生产环境。
如何部署与使用(逐步指南)
Voxtral Mini 4B Realtime 2602 当前仅通过 vLLM 支持生产级实时流。
安装步骤
-
安装 vLLM 夜间版:
uv pip install -U vllm \ --torch-backend=auto \ --extra-index-url https://wheels.vllm.ai/nightly这会自动安装 mistral_common >= 1.9.0。验证:
python -c "import mistral_common; print(mistral_common.__version__)" -
安装音频处理库:
uv pip install soxr librosa soundfile -
可选使用 Docker 镜像(vLLM 官方 Dockerfile 或 Docker Hub nightly)。
服务启动
模型在 ≥16GB 显存单 GPU 上运行。启动命令(eager 模式):
VLLM_DISABLE_COMPILE_CACHE=1 vllm serve mistralai/Voxtral-Mini-4B-Realtime-2602 --compilation_config '{"cudagraph_mode": "PIECEWISE"}'
调整参数:
-
--max-num-batched-tokens:平衡吞吐量与延迟(更高值提升吞吐,但增加延迟)。 -
降低 --max-model-length可节省 RoPE 预计算内存(适用于短于 3 小时场景)。
启动后,实时端点可用:/v1/realtime。
模型使用示例
vLLM 提供示例:
-
音频文件流式转录。 -
Gradio 实时麦克风转录演示。
示例 Gradio 界面显示实时转录效果。
尝试在线演示:https://huggingface.co/spaces/mistralai/Voxtral-Mini-Realtime
WebSocket 用于音频流,确保低延迟连续处理。
许可证
模型根据 Apache 2.0 许可发布。使用时不得侵犯第三方权利,包括知识产权。
常见问题解答(FAQ)
Voxtral Mini 4B Realtime 2602 支持哪些语言?
支持 13 种:阿拉伯语、德语、英语、西班牙语、法语、印地语、意大利语、荷兰语、葡萄牙语、汉语、日语、韩语、俄语。在 FLEURS 基准中,非英语语言如西班牙语(480ms WER 3.31%)和法语(6.42%)表现强劲。
如何平衡延迟与准确率?
默认推荐 480ms(平均 WER 8.72%)。缩短至 240ms 时 WER 升至 10.80%,延长至 2.4s 降至 6.73%。通过 params.json 调整 "transcription_delay_ms"。
硬件需求是什么?
单 GPU ≥16GB 显存即可实时运行,吞吐量 >12.5 tokens/秒。默认 max-model-len 131072 支持 ~3 小时音频。
如何处理长音频?
设置 --max-model-len 根据 token 计算(1 token ≈80ms)。理论无限,但预分配限制实际上限。推荐默认 131072。
温度设置有何影响?
始终设为 0.0 以获得确定性转录结果。
实时端点如何工作?
vLLM 的新 Realtime API 通过 WebSocket 处理音频流,支持生产级会话。
与离线模型相比实时性能如何?
在 480ms 延迟下,FLEURS 平均差距约 2.82%(8.72% vs 5.90%),长形式英语差距 <1%。适合需要即时响应的场景。
是否支持说话者区分?
当前实时版本重点在转录;相关批处理模型提供说话者标签和时间戳。
部署注意事项?
使用 WebSocket 流式音频。夜间 vLLM 确保兼容。Docker 简化跨平台部署。
这些问题覆盖了读者常见的关注点,帮助快速上手。
