核心问题:Ear-3 到底刷新了什么行业记录?
一句话答案:它把“错词率”压到 5.26 %、说话人标错率压到 3.8 %,支持 140+ 种语言,每小时只收 0.23 美元——四项指标同时领先,且已可落地。
本文欲回答的核心问题
-
Ear-3 在真实业务里能帮我解决哪些痛点? -
技术栈如何拆?哪一步最关键? -
云依赖、隐私、离线 fallback 怎么权衡? -
想马上试用,该走哪几条路径? -
作者踩坑反思:哪些场景可能“翻车”?
一、为什么现在是“转写 accuracy × 成本”拐点
维度 | 上一代主流 | Ear-3 刷新值 | 业务体感 |
---|---|---|---|
错词率 (WER) | 8 % 左右 | 5.26 % | 1 小时录音少错约 160 词,后期校对时间减半 |
说话人标错率 (DER) | 3.9 % | 3.8 % | 三人会议 10 次发言,大约只错 1 次归属 |
语言数 | ≤100 | 140+ | 同一项目可覆盖东南亚、非洲小语种,无需多供应商 |
价格 | 0.5–1 $/h | 0.23 $/h | 月处理 1 万小时,直接省出 1 名算法工程师年薪 |
作者反思:价格击穿心理阈值之后,“先全文转写、后全文语义搜索” 终于成为默认工作流,而不是“能省则省”。
二、技术拆解:一条 pipeline 如何把 WER 再砍 3 %
本段核心问题:5.26 % 是不是靠“暴力堆数据”?
一句话答案:开源基座 + 精细数据配比 + 三段式前处理,缺一不可。
2.1 训练配方
-
基座:多开源模型融合,而非单一大模型。 -
数据:人工标注的播客、影片、法庭录音,先分段清洗再送标,保证 8 k–32 kHz 全频带均衡。 -
目标函数:CTC + Attention 联合,额外加一项“说话人边界损失”,让模型自己学会“换人了”。
2.2 推理前处理(三段式)
-
音频自动增益 + 降噪(RNNoise + 自研轻量 U-Net)。 -
16 kHz 上采样 + VAD 二次切分,把无声段提前丢弃,减少幻觉。 -
说话人聚类预标签,送给 ASR 解码器做 “谁说了哪句话” 先验。
作者见解:第 2 步 VAD 如果调得激进,会把句尾气音切掉,导致中文“吗”“呢”丢失;TwinMind 用重叠窗回滚 150 ms,基本解决。
2.3 后处理
-
时间戳强制对齐:ASR 输出先和原始音做 MFCC 强制对齐,修正±200 ms 漂移。 -
标点模型单独微调,避免“逗号句号全部逗号”的灾难。
三、多语言与代码混写实战
本段核心问题:140+ 语言是不是“纸面支持”?
一句话答案:连“粤英夹杂 + 马来语借词”的吉隆坡街头采访都能一次出稿,无需额外词典。
3.1 场景示例
视频本地化项目
-
源素材:YouTube 旅行博主 40 分钟 vlog,含英语、粤语、普通话、马来语。 -
过去做法:拆轨→四条人工字幕轨→合并,耗时 6 小时。 -
Ear-3 做法:直接上传,代码混写开关=ON,30 分钟返回单轨带语言标签字幕,人工仅调时轴,总耗时 45 分钟。
3.2 技术关键点
-
统一 SentencePiece 词表,所有语言共享 sub-word,解决 OOV。 -
训练阶段随机插入“语言切换 token”,让模型看见“一句英文突然切中文”不慌张。 -
推理时语言 ID 由模型自己输出,无需手动指定。
作者反思:小语种口音英语(如菲律宾英语)容易标成“en-uk”或“en-us”,如果后续要训练方言合成 TTS,记得手动改标签。
四、成本模型:0.23 $/h 是怎么算出来的
本段核心问题:便宜是否等于“暗中限速”?
一句话答案:按实际音频时长计费,无并发上限、无 QPS 罚金,但强制走云 GPU。
计费项 | 说明 |
---|---|
时长基准 | 原始音频分钟数,不足 15 s 按 15 s 计 |
并发 | 官方承诺默认 50 路并发,提工单可继续抬 |
附加费 | 说话人分离、标点、时间戳不再额外收钱 |
失败重跑 | 因服务端错误导致失败,自动重跑且不计费 |
成本对比示例
-
企业月跑 5 万小时,Ear-3 账单 11 500 USD;同量级某云厂商 0.6 $/h → 30 000 USD,差出 1.5 倍。
五、隐私与合规:音频“即删”到底靠不靠谱
本段核心问题:云上传会不会留痕?
一句话答案:原始音频在内存流式处理,落盘前已删,只保留文字与可选加密副本。
5.1 数据生命周期
-
上传 TLS 1.3 加密,内存解压。 -
转写完毕立刻写结果到用户专属 bucket,音频丢弃。 -
用户可勾选“本地加密备份”,密钥在客户端,TwinMind 侧无法解密。
5.2 合规认证
-
SOC 2 Type II、ISO 27001 已通过,GDPR 数据处理协议(DPA) 可签署。 -
对于医疗 HIPAA,需走专属合规区,价格上浮 15 %。
作者见解:如果做公检法项目,建议让 IT 自己搭 VPN 专线上传,且关闭“加密备份”,避免密钥管理扯皮。
六、落地指南:三步跑通第一批文件
本段核心问题:我现在就想试,最低成本路线?
一句话答案:Web 上传→查收邮件→JSON 回掉,全程 10 分钟零代码。
6.1 零代码快速体验
-
打开 https://twinmind.com/transcribe -
拖入 <100 M 的 mp3/wav/m4a,选语言“Auto”→Start -
转写完成会邮件附带链接,可在线可视化播放、修改、导出 SRT/VTT
6.2 API 批量集成(即将开放)
-
端点: POST /v1/async/transcribe
-
请求示例
curl -X POST https://api.twinmind.com/v1/async/transcribe \
-H "Authorization: Bearer $TM_API_KEY" \
-F "audio=@meet.wav" \
-F "language=auto" \
-F "diarize=true"
-
回调:支持 webhook
或轮询GET /v1/job/{job_id}
-
返回:带说话人 ID 的 JSON,示例如下
{
"segments": [
{
"start": 1.84,
"end": 4.12,
"text": "So let's review the Q3 forecast.",
"speaker": "A"
}
]
}
6.3 移动端计划
-
iPhone / Android / Chrome 插件将在下月推送给 Pro 订阅用户,可离线缓存 Ear-2 模型,网络恢复自动切回 Ear-3。
七、典型业务场景与配置建议
场景 | 关键参数 | 推荐做法 | 常见坑 |
---|---|---|---|
跨国会议记录 | diarize=true, language=auto |
会前 30 s 让每人自报姓名,方便后期替换 speaker ID | 餐厅背景噪声>60 dB 时,DER 会飙到 7 % |
视频字幕本地化 | max_segment_len=30 |
30 字符强制断句,方便观众阅读 | 中文无空格,提前开 CJK 切词 |
法庭录音归档 | enable_redaction=true |
自动打掩码 SSN、卡号 | 美国部分州要求“律师-客户特权”段落手动二次掩码 |
客服质检 | sentiment=true |
结合情绪标签快速筛选投诉电话 | 客服俚语过多,自定义词汇表先上传 |
八、局限与翻车现场
-
必须联网 → 野外采访、保密机房慎入。 -
超大文件 (>2 G) 需先切片,否则上传超时。 -
音乐+人声混合 (如 MV) 会误把歌词当对白,建议先开 vocal isolation。 -
口音极重的苏格兰英语 WER 会短暂升到 9 %,官方说后续热更新模型。
作者反思:我用 Ear-3 跑 1950 年老电影,原声噪声+飞快英音导致 15 % WER,说明“干净训练集”优势在极端域外也会失效;先跑音频修复再转写,效果回到 7 %。
九、结论:四项记录同时刷新意味着什么
-
技术侧:证明“开源基座 + 精细数据工程”仍然能打败盲目堆参数。 -
商业侧:0.23 $/h 把高精准转写从“预算审批”变成“随手打开”。 -
生态侧:API 即将开放,预计会涌现一波“实时字幕 + 知识管理”小工具。 -
用户侧:多语言、说话人分离、低价同时可用,“先转写、后治理”将成为知识管理默认范式。
实用摘要 / 操作清单
-
准备 <100 M 音频→打开 TwinMind 转写页 -
选语言 Auto→勾选说话人分离→Start -
收邮件→在线校对→导出 SRT/VTT/JSON -
需要批量:申请 API Key→用 /v1/async/transcribe
→轮询或 webhook -
合规项目:签署 DPA→关闭加密备份→走专属合规区
One-page Summary
TwinMind Ear-3 delivers 5.26 % WER, 3.8 % DER, 140+ languages and 0.23 $/h in one package. It fuses open-source checkpoints, cleans audio before recognition, and deletes raw files on-the-fly. Cloud-only, but API and mobile clients arrive within weeks. Best for meeting minutes, media localisation, legal archiving and global support centres that need cheap, accurate, multilingual transcripts today.
FAQ
-
Ear-3 支持离线吗?
不支持,必须云端 GPU;网络掉线会自动降级到 Ear-2。 -
计费按原始时长还是处理时长?
按原始音频时长,不足 15 s 进位。 -
可以处理背景音乐吗?
轻度背景音可忍;歌曲混杂建议先开 vocal isolation。 -
是否保存我的音频?
不保存,仅保留文字;可勾选客户端加密备份。 -
何时开放 API?
官方称“未来几周”,现在可网页上传零代码体验。 -
中文方言效果如何?
粤语、四川话已验证 WER < 6 %;过于小众方言可能回落。 -
价格会涨吗?
官方承诺 2026 年中前不涨价,企业可锁多年协议。 -
和 Whisper 比优势在哪?
同文件 WER 低 2–3 %,说话人分离领先,且每小时便宜约 50 %。