在数字媒体爆炸式增长的今天,音频和视频内容的转录需求日益增加。无论是会议记录、讲座整理还是播客内容转化,自动语音识别(ASR)技术都扮演着关键角色。然而,许多ASR服务对音频长度和大小设置了严格限制, …
“能不能像 GPT-3 写文章那样,随便给两句声音,模型就把剩下的活儿全包圆?” 小米最新开源的 MiMo-Audio 系列,用 1 亿小时无标注语音把这个问题推到了“基本可以”的程度。下面把论文、博 …
作者 / 团队 / 机构 作者:Yixuan Zhou、Guoyang Zeng、Xin Liu、Xiang Li、Renjie Yu、Ziyang Wang、Runchuan Ye、Weiyue S …
“ 作者:FunAudio 团队 适用人群:计算机、电子、通信、人工智能及相关专业毕业生;对“大模型+语音”落地感兴趣的产品经理与工程团队 阅读收益:30 min 搞懂一套可直接上线的大模型语音识别方 …
核心问题:Ear-3 到底刷新了什么行业记录? 一句话答案:它把“错词率”压到 5.26 %、说话人标错率压到 3.8 %,支持 140+ 种语言,每小时只收 0.23 美元——四项指标同时领先,且已 …
开放语音识别新标杆:OLMoASR 技术解析与应用实践 核心问题:如何用开源方案实现媲美商业级语音识别的效果? 本文通过解析OLMoASR开源项目,回答开发者关心的三个核心问题:开放语音模型的架构优势 …
IndexTTS2:第一款能“卡点”又“带情绪”的零样本语音合成引擎 本文核心问题:IndexTTS2 到底解决了什么痛点?——它让自回归 TTS 第一次既能精确控制时长,又能零样本复刻情绪,且一句话 …
通义千问ASR模型全解析:Qwen3-ASR与Qwen-Audio-ASR的选择、使用与实践 本文欲回答的核心问题 通义千问提供的Qwen3-ASR和Qwen-Audio-ASR两种语音识别模型,在功 …
本地优先的语音转写与协作平台:IntraScribe 完整指南 “ “开会两小时,整理纪要一整天?” 如果你在企业、学校或政府机关的内网里工作,又对数据隐私格外敏感,这句话可能戳中了痛点。 Intra …
完全开源语音识别新标杆:OLMoASR模型训练与应用指南 为什么需要开源的语音识别模型? 在人工智能领域,语音识别技术正深刻改变人机交互方式。然而大多数先进模型仍是闭源的”黑箱” …
WhisperLiveKit:把实时语音转文字装进本地浏览器 “ “我能不能在不上传任何音频文件的情况下,把会议内容实时转成文字,并且知道是谁在说话?” WhisperLiveKit 的回答是:可以, …
MOSS-TTSD:开源双语对话语音合成模型,让AI播客制作更简单 MOSS-TTSD模型示意图 在人工智能技术飞速发展的今天,语音合成技术已经从简单的文本转语音(TTS)进化到了更加复杂的对话式语音 …
语音语言模型(SpeechLM)技术全景:从原理到应用实践 前沿动态 🎉 重要进展:我们的综述论文《语音语言模型的最新进展》正式被自然语言处理顶会 ACL 2025 收录!本文全面解析语音语言模型(S …