从零开始:用 AI 把任何播客变成可搜索的文字
“
一篇写给非技术人员的全流程指南,手把手教你把音频变成高可读性的文本与摘要。
为什么要读这篇文章?
如果你在以下场景里踩过坑,这篇文章就是为你写的:
-
听了一场 2 小时的技术访谈,却只记得一句金句,想回头找上下文却找不到。 -
想引用播客内容写公众号或论文,却苦于没有可检索的文字。 -
手里有一堆内部培训录音,老板要求“明天交一份要点总结”。
我会用日常语言带你完成三件事:
-
理解原理:AI 如何把声音变成文字,又如何在本地跑起来,不泄露隐私。 -
动手实践:从安装到生成第一份文字稿,只需 10 分钟。 -
避坑指南:常见报错、硬件瓶颈、模型大小怎么选,一次说清。
一、播客转文字到底在做什么?
1.1 把大象放进冰箱的三步
1.2 为什么选 Faster-Whisper?
-
本地跑:不经过云端,敏感内容不会外泄。 -
免费:开源模型,0 元即可商用。 -
够快:同样一段 60 分钟音频,比原版 Whisper 省一半时间。 -
省显存:6 GB 显存就能跑 base
模型,老显卡也吃得消。
二、10 分钟跑通全流程
2.1 先确认你的机器
“
没有独显也能跑,只是慢一些。
2.2 一键安装脚本(Windows 示例)
# 1. 克隆项目
git clone https://github.com/wendy7756/podcast-to-text
cd podcast-to-text
# 2. 装 Node 依赖
npm install
# 3. 装 Python 依赖
pip install faster-whisper
# 4. 复制环境模板
copy .env.example .env
# macOS / Linux 用 cp .env.example .env
2.3 填入 OpenAI 密钥
用记事本打开 .env
,找到这行:
OPENAI_API_KEY=your_openai_api_key_here
把 your_openai_api_key_here
替换成你的密钥(仅用于文字润色,音频不会上传)。
2.4 启动服务
npm start
浏览器自动弹出 http://localhost:3000
,看到如下界面即可:

三、第一次转录:用 3 分钟音频热身
3.1 准备测试音频
-
在 server/assets/
里已自带test_audio.mp3
,时长 3 分钟。 -
如果想用自己的播客,直接把 MP3 链接粘进来即可。
3.2 操作流程
-
选“直接音频 URL” → 填入 http://localhost:3000/server/assets/test_audio.mp3
-
点击“开始处理” -
等待 30 秒左右,页面出现两段结果: -
全文转录:带时间戳的逐字稿。 -
智能摘要:三段式结构(主题 → 关键论点 → 结论)。
-
3.3 结果长什么样?
【00:00-00:12】大家好,我是主持人 Alice,今天我们聊 AI 与伦理。
【00:12-00:34】嘉宾 Bob 提出一个观点:算法偏见并非技术问题,而是数据问题。
...
摘要:
- 主题:AI 伦理的核心是数据质量
- 要点:1) 偏见来源于历史数据 2) 技术无法自我纠正
- 结论:需要立法强制数据透明
四、FAQ:90% 的疑问一次说清
Q1:必须联网吗?
-
第一次安装:需要联网下载模型(约 150 MB)。 -
日常转录:完全离线运行,音频和文字都在本机。
Q2:支持哪些音频格式?
MP3、M4A、WAV、AAC、OGG 通吃。本质是 FFmpeg 在背后转码,只要是 FFmpeg 能打开的格式都能处理。
Q3:模型大小怎么选?
“
如果报错
CUDA out of memory
,换小一号模型即可。
Q4:中文 + 英文混说怎么办?
Faster-Whisper 原生支持多语言自动检测,无需额外设置。准确率实测 95% 以上。
Q5:能处理 3 小时长音频吗?
可以。本地模型没有时长限制,唯一瓶颈是硬盘空间:1 小时音频 ≈ 100 MB,转录后文本 ≈ 1 MB。
五、把转录结果用在 5 个真实场景
六、常见报错与自救手册
七、进阶:如何让它更懂你的行业?
7.1 自定义提示词
在 server/services/openaiService.js
里找到 prompt
变量,把默认提示词改成:
你是一名医学编辑,请把以下文字整理成临床指南摘要,保留所有药物名称与剂量。
保存后重启服务,摘要风格立刻改变。
7.2 接入企业微信机器人
把 npm start
放到公司内网服务器,再把结果 POST 到企业微信 Webhook,就能实现“录音结束 5 分钟后群里收到文字稿”。
八、写在最后
你现在已经掌握了:
-
本地部署一套可商用、0 成本的播客转文字系统; -
用 10 分钟把任何音频变成可检索、可引用的文本; -
根据场景二次开发,让 AI 真正为你所用。
如果这篇文章解决了你的问题,欢迎把链接转给同样被“听录音”折磨的同事。