语音技术归档 | 高效码农

4个月前高效码农

引言本文欲回答的核心问题：如何构建一个能够同时处理语音理解、生成和编辑任务的统一模型？Ming-UniAudio通过创新的统一连续语音分词器和端到端语音语言模型，首次实现了无需时间戳条件的自由形式语 …

9个月前高效码农

Step-Audio-AQAA：首个端到端语音交互大模型，直接听懂声音、开口说话 (图片来源：Pexels，展示人机语音交互场景) 为什么我们需要真正的“语音大模型”？当我们与智能助手对话时，通常经 …

10个月前高效码农

NVIDIA Parakeet TDT 0.6B V2：一款高精度英语语音识别模型解析引言在人工智能技术飞速发展的今天，语音识别（ASR）已成为人机交互、智能助手、会议记录等场景的核心技术。NVI …