语音识别归档 | 高效码农

5个月前高效码农

核心问题：如何让语音识别技术覆盖全球数千种语言？语音识别技术正在改变人机交互方式，但全球7000多种语言中，大多数仍被排除在技术覆盖范围之外。Omnilingual ASR项目通过开源方式解决了这一 …

6个月前高效码农

在数字媒体爆炸式增长的今天，音频和视频内容的转录需求日益增加。无论是会议记录、讲座整理还是播客内容转化，自动语音识别（ASR）技术都扮演着关键角色。然而，许多ASR服务对音频长度和大小设置了严格限制， …

6个月前高效码农

“能不能像 GPT-3 写文章那样，随便给两句声音，模型就把剩下的活儿全包圆？” 小米最新开源的 MiMo-Audio 系列，用 1 亿小时无标注语音把这个问题推到了“基本可以”的程度。下面把论文、博 …

6个月前高效码农

作者 / 团队 / 机构作者：Yixuan Zhou、Guoyang Zeng、Xin Liu、Xiang Li、Renjie Yu、Ziyang Wang、Runchuan Ye、Weiyue S …

6个月前高效码农

“ 作者：FunAudio 团队适用人群：计算机、电子、通信、人工智能及相关专业毕业生；对“大模型+语音”落地感兴趣的产品经理与工程团队阅读收益：30 min 搞懂一套可直接上线的大模型语音识别方 …

7个月前高效码农

核心问题：Ear-3 到底刷新了什么行业记录？一句话答案：它把“错词率”压到 5.26 %、说话人标错率压到 3.8 %，支持 140+ 种语言，每小时只收 0.23 美元——四项指标同时领先，且已 …

7个月前高效码农

开放语音识别新标杆：OLMoASR 技术解析与应用实践核心问题：如何用开源方案实现媲美商业级语音识别的效果？本文通过解析OLMoASR开源项目，回答开发者关心的三个核心问题：开放语音模型的架构优势 …

7个月前高效码农

IndexTTS2：第一款能“卡点”又“带情绪”的零样本语音合成引擎本文核心问题：IndexTTS2 到底解决了什么痛点？——它让自回归 TTS 第一次既能精确控制时长，又能零样本复刻情绪，且一句话 …

7个月前高效码农

通义千问ASR模型全解析：Qwen3-ASR与Qwen-Audio-ASR的选择、使用与实践本文欲回答的核心问题通义千问提供的Qwen3-ASR和Qwen-Audio-ASR两种语音识别模型，在功 …

7个月前高效码农

本地优先的语音转写与协作平台：IntraScribe 完整指南 “ “开会两小时，整理纪要一整天？” 如果你在企业、学校或政府机关的内网里工作，又对数据隐私格外敏感，这句话可能戳中了痛点。 Intra …

7个月前高效码农

完全开源语音识别新标杆：OLMoASR模型训练与应用指南为什么需要开源的语音识别模型？在人工智能领域，语音识别技术正深刻改变人机交互方式。然而大多数先进模型仍是闭源的”黑箱&#8221 …

7个月前高效码农

WhisperLiveKit：把实时语音转文字装进本地浏览器 “ “我能不能在不上传任何音频文件的情况下，把会议内容实时转成文字，并且知道是谁在说话？” WhisperLiveKit 的回答是：可以， …

8个月前高效码农

MOSS-TTSD：开源双语对话语音合成模型，让AI播客制作更简单 MOSS-TTSD模型示意图在人工智能技术飞速发展的今天，语音合成技术已经从简单的文本转语音（TTS）进化到了更加复杂的对话式语音 …

9个月前高效码农

语音语言模型（SpeechLM）技术全景：从原理到应用实践前沿动态 🎉 重要进展：我们的综述论文《语音语言模型的最新进展》正式被自然语言处理顶会 ACL 2025 收录！本文全面解析语音语言模型（S …