从零开始:用 AI 把任何播客变成可搜索的文字

一篇写给非技术人员的全流程指南,手把手教你把音频变成高可读性的文本与摘要。


为什么要读这篇文章?

如果你在以下场景里踩过坑,这篇文章就是为你写的:

  • 听了一场 2 小时的技术访谈,却只记得一句金句,想回头找上下文却找不到。
  • 想引用播客内容写公众号或论文,却苦于没有可检索的文字。
  • 手里有一堆内部培训录音,老板要求“明天交一份要点总结”。

我会用日常语言带你完成三件事:

  1. 理解原理:AI 如何把声音变成文字,又如何在本地跑起来,不泄露隐私。
  2. 动手实践:从安装到生成第一份文字稿,只需 10 分钟。
  3. 避坑指南:常见报错、硬件瓶颈、模型大小怎么选,一次说清。

一、播客转文字到底在做什么?

1.1 把大象放进冰箱的三步

步骤 通俗解释 对应技术名词
1. 拿到音频 把播客下载到电脑 音频提取
2. 听写 像速记员一样逐字打出来 语音转文字(ASR)
3. 润色 去掉嗯啊、分段、加标点 文本后处理

1.2 为什么选 Faster-Whisper?

  • 本地跑:不经过云端,敏感内容不会外泄。
  • 免费:开源模型,0 元即可商用。
  • 够快:同样一段 60 分钟音频,比原版 Whisper 省一半时间。
  • 省显存:6 GB 显存就能跑 base 模型,老显卡也吃得消。

二、10 分钟跑通全流程

2.1 先确认你的机器

硬件 最低要求 推荐配置
系统 Windows 10 / macOS 11 / Ubuntu 20.04 同上
CPU 四核 八核以上
内存 8 GB 16 GB
显卡 可选,有则加速 GTX 1660 以上

没有独显也能跑,只是慢一些。

2.2 一键安装脚本(Windows 示例)

# 1. 克隆项目
git clone https://github.com/wendy7756/podcast-to-text
cd podcast-to-text

# 2. 装 Node 依赖
npm install

# 3. 装 Python 依赖
pip install faster-whisper

# 4. 复制环境模板
copy .env.example .env
# macOS / Linux 用 cp .env.example .env

2.3 填入 OpenAI 密钥

用记事本打开 .env,找到这行:

OPENAI_API_KEY=your_openai_api_key_here

your_openai_api_key_here 替换成你的密钥(仅用于文字润色,音频不会上传)。

2.4 启动服务

npm start

浏览器自动弹出 http://localhost:3000,看到如下界面即可:

播客提取器页面

三、第一次转录:用 3 分钟音频热身

3.1 准备测试音频

  • server/assets/ 里已自带 test_audio.mp3,时长 3 分钟。
  • 如果想用自己的播客,直接把 MP3 链接粘进来即可。

3.2 操作流程

  1. 选“直接音频 URL” → 填入 http://localhost:3000/server/assets/test_audio.mp3
  2. 点击“开始处理”
  3. 等待 30 秒左右,页面出现两段结果:

    • 全文转录:带时间戳的逐字稿。
    • 智能摘要:三段式结构(主题 → 关键论点 → 结论)。

3.3 结果长什么样?

【00:00-00:12】大家好,我是主持人 Alice,今天我们聊 AI 与伦理。
【00:12-00:34】嘉宾 Bob 提出一个观点:算法偏见并非技术问题,而是数据问题。
...
摘要:
- 主题:AI 伦理的核心是数据质量
- 要点:1) 偏见来源于历史数据 2) 技术无法自我纠正
- 结论:需要立法强制数据透明

四、FAQ:90% 的疑问一次说清

Q1:必须联网吗?

  • 第一次安装:需要联网下载模型(约 150 MB)。
  • 日常转录:完全离线运行,音频和文字都在本机。

Q2:支持哪些音频格式?

MP3、M4A、WAV、AAC、OGG 通吃。本质是 FFmpeg 在背后转码,只要是 FFmpeg 能打开的格式都能处理。

Q3:模型大小怎么选?

模型 显存占用 速度 适合场景
tiny 1 GB 最快 快速预览
base 2 GB 日常访谈
small 6 GB 多人圆桌
medium 12 GB 专业术语多

如果报错 CUDA out of memory,换小一号模型即可。

Q4:中文 + 英文混说怎么办?

Faster-Whisper 原生支持多语言自动检测,无需额外设置。准确率实测 95% 以上。

Q5:能处理 3 小时长音频吗?

可以。本地模型没有时长限制,唯一瓶颈是硬盘空间:1 小时音频 ≈ 100 MB,转录后文本 ≈ 1 MB。


五、把转录结果用在 5 个真实场景

场景 操作提示 输出示例
会议纪要 上传公司例会录音 自动生成待办清单
内容创作 选中金句 → 复制为 Markdown 直接粘贴到公众号
学术研究 导出带时间戳的 SRT 插入论文附录
多语言字幕 一键翻译摘要 YouTube 双语字幕
知识库 全文 + 摘要存 Notion 可搜索的音频档案

六、常见报错与自救手册

报错信息 原因 解决办法
ffmpeg not found 没装 FFmpeg Windows 用 winget install FFmpeg,macOS brew install ffmpeg
ModuleNotFoundError: faster_whisper Python 环境错位 which python 确认路径,再 pip install faster-whisper
Error: EACCES Linux 端口权限 改成 PORT=8080 npm start
OpenAI 401 密钥填错 重新复制密钥,不要带空格

七、进阶:如何让它更懂你的行业?

7.1 自定义提示词

server/services/openaiService.js 里找到 prompt 变量,把默认提示词改成:

你是一名医学编辑,请把以下文字整理成临床指南摘要,保留所有药物名称与剂量。

保存后重启服务,摘要风格立刻改变。

7.2 接入企业微信机器人

npm start 放到公司内网服务器,再把结果 POST 到企业微信 Webhook,就能实现“录音结束 5 分钟后群里收到文字稿”。


八、写在最后

你现在已经掌握了:

  • 本地部署一套可商用、0 成本的播客转文字系统;
  • 用 10 分钟把任何音频变成可检索、可引用的文本;
  • 根据场景二次开发,让 AI 真正为你所用。

如果这篇文章解决了你的问题,欢迎把链接转给同样被“听录音”折磨的同事。