开源革命！Voxtral Mini 4B实时语音转录：480ms延迟，13种语言，单GPU部署

高效码农

4 小时前

Voxtral Mini 4B Realtime 2602：实现低延迟多语言实时语音转录的开源模型

Voxtral Mini 4B Realtime 2602 是 Mistral AI 开发的实时语音转录模型，支持 13 种语言，在 480ms 延迟下平均字错误率（WER）为 8.72%，接近离线模型的 5.90%。该 4B 参数模型采用原生流式架构和因果音频编码器，可配置延迟从 240ms 到 2.4s，适用于语音助手、直播字幕和实时会议转录。它在单 GPU（≥16GB 内存）上实时运行，吞吐量超过 12.5 tokens/秒，通过 Apache 2.0 许可开放权重，适合边缘部署。

Voxtral Mini 4B Realtime 2602 简介

实时语音转录在语音助手、直播字幕和多方会议场景中至关重要。Voxtral Mini 4B Realtime 2602 作为开源解决方案，在延迟低于 500ms 的同时，准确率可媲美离线系统。它支持 13 种语言，包括阿拉伯语、德语、英语、西班牙语、法语、印地语、意大利语、荷兰语、葡萄牙语、汉语、日语、韩语和俄语。

该模型参数总量为 4B，由约 3.4B 的语言模型和 0.6B 的音频编码器组成。音频编码器从头训练，支持因果注意力，实现流式处理。两者均采用滑动窗口注意力机制，支持“无限”流式转录。在 480ms 延迟设置下，其性能与领先的离线开源转录模型相当，同时优于现有开源实时基线。

模型以 BF16 格式发布，支持研究和商业应用。边缘设备部署友好，单 GPU（≥16GB 显存）即可实时运行，吞吐量超过 12.5 tokens/秒。这为隐私敏感的现场应用提供了高效选择。

关键特性

Voxtral Mini 4B Realtime 2602 的核心优势在于原生流式架构。它不像将离线模型分块处理，而是随音频到达实时转录，延迟可配置。

具体特性包括：

高质量转录：提供带置信度的音频到文本转换。
多语言支持：覆盖 13 种语言，满足跨语言转录需求。
实时性能：流式 ASR 模型，支持实时场景。
可配置延迟：从 240ms 到 2.4s 调节，平衡延迟与准确率。在 480ms 时，字错误率与离线模型差距最小。

这些特性使模型适用于对延迟敏感的场景，同时保持可量化的准确性。

架构细节
音频编码器采用因果注意力，从头训练以支持流式。语言模型主干和音频编码器均使用滑动窗口注意力，允许长时间连续处理而不受固定上下文限制。这确保了在长达数小时的音频流中稳定性能。

基准测试结果

基准测试显示，Voxtral Mini 4B Realtime 2602 在实时设置下表现强劲。以下是 FLEURS、多形式英语和短形式英语的详细结果。

FLEURS 基准（13 种语言平均及单语种 WER）

Model	Delay	AVG	Arabic	German	English	Spanish	French	Hindi	Italian	Dutch	Portuguese	Chinese	Japanese	Korean	Russian
Voxtral Mini Transcribe 2.0	Offline	5.90%	13.54%	3.54%	3.32%	2.63%	4.32%	10.33%	2.17%	4.78%	3.56%	7.30%	4.14%	12.29%	4.75%
Voxtral Mini 4B Realtime 2602	480 ms	8.72%	22.53%	6.19%	4.90%	3.31%	6.42%	12.88%	3.27%	7.07%	5.03%	10.45%	9.59%	15.74%	6.02%
	160 ms	12.60%	24.33%	9.50%	6.46%	5.34%	9.75%	15.28%	5.59%	11.39%	10.01%	17.67%	19.17%	19.81%	9.53%
	240 ms	10.80%	23.95%	8.15%	5.91%	4.59%	8.00%	14.26%	4.41%	9.23%	7.51%	13.84%	15.17%	17.56%	7.87%
	960 ms	7.70%	20.32%	4.87%	4.34%	2.98%	5.68%	11.82%	2.46%	6.76%	4.57%	8.99%	6.80%	14.90%	5.56%
	2400 ms	6.73%	14.71%	4.15%	4.05%	2.71%	5.23%	10.73%	2.37%	5.91%	3.93%	8.48%	5.50%	14.30%	5.41%

480ms 延迟下，平均 WER 为 8.72%，英语 4.90%（离线 3.32%）、西班牙语 3.31%（离线 2.63%）。延迟增加到 2.4s 时，性能接近离线水平，平均 6.73%。

图：FLEURS 基准下不同语言的字错误率（越低越好）。

长形式英语基准（<10min 和 <20min 片段）

Model	Delay	Meanwhile (<10m)	E-21 (<10m)	E-22 (<10m)	TEDLIUM (<20m)
Voxtral Mini Transcribe 2.0	Offline	4.08%	9.81%	11.69%	2.86%
Voxtral Mini 4B Realtime 2602	480ms	5.05%	10.23%	12.30%	3.17%

在长音频片段中，480ms 延迟的 WER 与离线差距在 0.3%-1.0% 范围内，适合长时间会议。

短形式英语基准

Model	Delay	CHiME-4	GigaSpeech 2k Subset	AMI IHM	SwitchBoard	CHiME-4 SP	GISpeech 2k Subset
Voxtral Mini Transcribe 2.0	Offline	10.39%	6.81%	14.43%	11.54%	10.42%	1.74%
Voxtral Mini 4B Realtime 2602	480ms	10.50%	7.35%	15.05%	11.65%	12.41%	1.73%

短形式测试中，多数场景下实时模型与离线差距小于 1%。

这些结果表明，在 480ms 延迟下，该模型在实时场景中提供接近离线水平的实用准确率，尤其在英语、西班牙语等常见语言上表现突出。

适用场景

Voxtral Mini 4B Realtime 2602 针对实时需求设计：

私人会议转录：实时生成文本记录，支持多语言参与者。
直播字幕生成：低延迟确保字幕与语音同步。
实时助手与语音理解：结合 LLM 实现自然对话。
更多场景：如电话客服实时分析、现场活动字幕。

低延迟（480ms 甜点）使交互感觉自然，例如语音代理在用户说完后立即响应。

边缘部署优势显著：4B 参数模型在资源有限设备上运行，保护隐私，避免云端传输敏感音频。

如何部署与使用（逐步指南）

Voxtral Mini 4B Realtime 2602 当前仅通过 vLLM 支持生产级实时流。

安装步骤

安装 vLLM 夜间版：

uv pip install -U vllm \
    --torch-backend=auto \
    --extra-index-url https://wheels.vllm.ai/nightly

这会自动安装 mistral_common >= 1.9.0。验证：

python -c "import mistral_common; print(mistral_common.__version__)"

安装音频处理库：
```
uv pip install soxr librosa soundfile
```
可选使用 Docker 镜像（vLLM 官方 Dockerfile 或 Docker Hub nightly）。

服务启动

模型在 ≥16GB 显存单 GPU 上运行。启动命令（eager 模式）：

VLLM_DISABLE_COMPILE_CACHE=1 vllm serve mistralai/Voxtral-Mini-4B-Realtime-2602 --compilation_config '{"cudagraph_mode": "PIECEWISE"}'

调整参数：

--max-num-batched-tokens：平衡吞吐量与延迟（更高值提升吞吐，但增加延迟）。
降低 --max-model-length 可节省 RoPE 预计算内存（适用于短于 3 小时场景）。

启动后，实时端点可用：/v1/realtime。

模型使用示例

vLLM 提供示例：

音频文件流式转录。
Gradio 实时麦克风转录演示。

示例 Gradio 界面显示实时转录效果。

尝试在线演示：https://huggingface.co/spaces/mistralai/Voxtral-Mini-Realtime

WebSocket 用于音频流，确保低延迟连续处理。

许可证

模型根据 Apache 2.0 许可发布。使用时不得侵犯第三方权利，包括知识产权。

常见问题解答（FAQ）

Voxtral Mini 4B Realtime 2602 支持哪些语言？
支持 13 种：阿拉伯语、德语、英语、西班牙语、法语、印地语、意大利语、荷兰语、葡萄牙语、汉语、日语、韩语、俄语。在 FLEURS 基准中，非英语语言如西班牙语（480ms WER 3.31%）和法语（6.42%）表现强劲。

如何平衡延迟与准确率？
默认推荐 480ms（平均 WER 8.72%）。缩短至 240ms 时 WER 升至 10.80%，延长至 2.4s 降至 6.73%。通过 params.json 调整 "transcription_delay_ms"。

硬件需求是什么？
单 GPU ≥16GB 显存即可实时运行，吞吐量 >12.5 tokens/秒。默认 max-model-len 131072 支持 ~3 小时音频。

如何处理长音频？
设置 --max-model-len 根据 token 计算（1 token ≈80ms）。理论无限，但预分配限制实际上限。推荐默认 131072。

温度设置有何影响？
始终设为 0.0 以获得确定性转录结果。

实时端点如何工作？
vLLM 的新 Realtime API 通过 WebSocket 处理音频流，支持生产级会话。

与离线模型相比实时性能如何？
在 480ms 延迟下，FLEURS 平均差距约 2.82%（8.72% vs 5.90%），长形式英语差距 <1%。适合需要即时响应的场景。

是否支持说话者区分？
当前实时版本重点在转录；相关批处理模型提供说话者标签和时间戳。

部署注意事项？
使用 WebSocket 流式音频。夜间 vLLM 确保兼容。Docker 简化跨平台部署。

这些问题覆盖了读者常见的关注点，帮助快速上手。