语音处理归档 | 高效码农

3个月前高效码农

WhisperLiveKit：低延迟自托管语音转文本工具，带实时说话人识别如果你需要一款能实时将语音转换成文字，还能区分不同说话人的工具，那么WhisperLiveKit（简称WLK）可能正是你在找 …

4个月前高效码农

LongCat-Audio-Codec：为语音大语言模型设计的音频标记化与解标记解决方案在语音大语言模型快速发展的今天，如何在低比特率下实现高质量音频重建成为了技术发展的关键瓶颈。美团LongCat …

8个月前高效码农

wav2graph：语音数据到知识图谱的突破性学习框架语音信号中蕴含丰富信息，如何有效提取结构化知识是关键挑战在人工智能领域，语音数据作为最自然的人机交互形式，蕴含着丰富的语义信息。传统方法主要关 …

11个月前高效码农

引言：语音克隆技术的革新者在人工智能领域，语音合成技术始终是研究热点之一。2023年5月，由MyShell团队推出的OpenVoice技术首次亮相，其核心目标是通过先进的算法实现高精度语音克隆。截至 …

11个月前高效码农

MegaTTS 3：轻量高效的零样本语音合成解决方案概述 MegaTTS 3 是由字节跳动与浙江大学联合推出的新一代语音合成模型，基于 PyTorch 实现。其核心创新在于结合了稀疏对齐增强的潜在扩 …