Qwen3-ASR-Toolkit突破长音频转录限制:智能分割+并行处理技术揭秘

23天前 高效码农

在数字媒体爆炸式增长的今天,音频和视频内容的转录需求日益增加。无论是会议记录、讲座整理还是播客内容转化,自动语音识别(ASR)技术都扮演着关键角色。然而,许多ASR服务对音频长度和大小设置了严格限制, …

小米MiMo-Audio 7B震撼发布:语音AI迈入GPT级自由续写时代

23天前 高效码农

“能不能像 GPT-3 写文章那样,随便给两句声音,模型就把剩下的活儿全包圆?” 小米最新开源的 MiMo-Audio 系列,用 1 亿小时无标注语音把这个问题推到了“基本可以”的程度。下面把论文、博 …

VoxCPM:无分词器的 TTS 模型,用于高级语音合成

25天前 高效码农

作者 / 团队 / 机构 作者:Yixuan Zhou、Guoyang Zeng、Xin Liu、Xiang Li、Renjie Yu、Ziyang Wang、Runchuan Ye、Weiyue S …

FunAudio-ASR语音识别技术揭秘:实测准确率提升30%,如何实现工业级落地?

26天前 高效码农

“ 作者:FunAudio 团队 适用人群:计算机、电子、通信、人工智能及相关专业毕业生;对“大模型+语音”落地感兴趣的产品经理与工程团队 阅读收益:30 min 搞懂一套可直接上线的大模型语音识别方 …

TwinMind Ear-3刷新语音AI天花板:5.26%错词率+140种语言覆盖仅需0.23美元/小时

1个月前 高效码农

核心问题:Ear-3 到底刷新了什么行业记录? 一句话答案:它把“错词率”压到 5.26 %、说话人标错率压到 3.8 %,支持 140+ 种语言,每小时只收 0.23 美元——四项指标同时领先,且已 …

开源方案如何媲美商业语音识别?OLMoASR技术解析+应用指南

1个月前 高效码农

开放语音识别新标杆:OLMoASR 技术解析与应用实践 核心问题:如何用开源方案实现媲美商业级语音识别的效果? 本文通过解析OLMoASR开源项目,回答开发者关心的三个核心问题:开放语音模型的架构优势 …

IndexTTS2震撼发布:全球首款零样本自回归TTS引擎实现精准卡点与情绪复刻

1个月前 高效码农

IndexTTS2:第一款能“卡点”又“带情绪”的零样本语音合成引擎 本文核心问题:IndexTTS2 到底解决了什么痛点?——它让自回归 TTS 第一次既能精确控制时长,又能零样本复刻情绪,且一句话 …

通义千问ASR模型终极对比:Qwen3-ASR与Qwen-Audio-ASR选择指南(附实战代码)

1个月前 高效码农

通义千问ASR模型全解析:Qwen3-ASR与Qwen-Audio-ASR的选择、使用与实践 本文欲回答的核心问题 通义千问提供的Qwen3-ASR和Qwen-Audio-ASR两种语音识别模型,在功 …

本地语音转写革命:IntraScribe如何让会议纪要秒级生成?

1个月前 高效码农

本地优先的语音转写与协作平台:IntraScribe 完整指南 “ “开会两小时,整理纪要一整天?” 如果你在企业、学校或政府机关的内网里工作,又对数据隐私格外敏感,这句话可能戳中了痛点。 Intra …

OLMoASR模型开源!语音识别技术迎来新突破?

1个月前 高效码农

完全开源语音识别新标杆:OLMoASR模型训练与应用指南 为什么需要开源的语音识别模型? 在人工智能领域,语音识别技术正深刻改变人机交互方式。然而大多数先进模型仍是闭源的”黑箱&#8221 …

无需联网!本地实时语音转文字系统搭建指南(支持说话人分离)

1个月前 高效码农

WhisperLiveKit:把实时语音转文字装进本地浏览器 “ “我能不能在不上传任何音频文件的情况下,把会议内容实时转成文字,并且知道是谁在说话?” WhisperLiveKit 的回答是:可以, …

MOSS-TTSD开源模型发布:双语语音合成如何颠覆AI播客制作?

2个月前 高效码农

MOSS-TTSD:开源双语对话语音合成模型,让AI播客制作更简单 MOSS-TTSD模型示意图 在人工智能技术飞速发展的今天,语音合成技术已经从简单的文本转语音(TTS)进化到了更加复杂的对话式语音 …

语音语言模型(SpeechLM)如何颠覆传统语音交互?技术全景解析

3个月前 高效码农

语音语言模型(SpeechLM)技术全景:从原理到应用实践 前沿动态 🎉 重要进展:我们的综述论文《语音语言模型的最新进展》正式被自然语言处理顶会 ACL 2025 收录!本文全面解析语音语言模型(S …