AI视频转录器如何实现30+平台语音秒转文字？技术大牛亲授跨平台处理秘籍

高效码农

6 小时前

AI视频转录器：多平台视频语音转文字与智能摘要工具全指南

本文欲回答的核心问题：什么是AI视频转录器？它能实现哪些功能？如何安装、配置并高效使用这款工具处理来自不同平台的视频内容？

在信息爆炸的时代，视频作为主流信息载体，其内容的高效提取与利用成为刚需。无论是科研人员需要快速获取学术讲座的核心观点，还是自媒体从业者希望将视频内容转化为文字稿进行二次创作，亦或是普通用户想留存网课的关键信息，都需要一款能将视频语音精准转化为文字，并进一步生成摘要的工具。AI视频转录器正是为解决这些需求而生的开源工具，支持30+视频平台，集转录、优化、翻译、摘要功能于一体。本文将全面解析这款工具的功能、安装方法、使用技巧与技术细节，帮助不同需求的用户快速上手。

图片说明：AI视频转录器的直观界面，展示了视频处理后的转录文本与摘要结果

核心功能：AI视频转录器能解决哪些实际问题？

本段欲回答的核心问题：AI视频转录器的核心功能有哪些？这些功能分别适用于什么场景？能为用户带来哪些具体价值？

AI视频转录器的功能设计围绕“视频内容高效转化与利用”展开，每个功能都对应着实际使用中的痛点场景，让视频处理从繁琐变得简单。

多平台支持：打破视频来源限制

支持YouTube、Bilibili、抖音等30+平台的视频处理，覆盖了国内外主流视频内容平台。

应用场景：自媒体从业者经常需要参考不同平台的热门视频内容，以往要分别下载各平台视频再处理，过程繁琐。使用这款工具，只需粘贴不同平台的视频链接，即可统一处理，无需担心格式或来源限制。例如，同时分析YouTube上的海外教程和Bilibili的国内解读视频，快速整合信息。

智能转录：高精度语音转文字

基于Faster-Whisper模型实现语音转文字，相比传统工具，转录准确率更高，尤其在处理多口音、专业术语时表现更优。

应用场景：高校教师录制的线上课程往往包含大量专业词汇，传统转录工具容易出错。使用AI视频转录器，能准确识别“机器学习”“神经网络”等专业术语，生成可直接编辑的文字稿，大大减少后期校对时间。

AI文本优化：让转录内容更易读

自动完成错别字修正、句子完整化和智能分段，解决原始转录文本中常见的语句断裂、用词不当问题。

应用场景：会议录制的视频中，发言人常出现口误、停顿或半截话，原始转录文本会显得混乱。工具优化后，能将“这个…那个算法，嗯…效率很高”修正为“这个算法的效率很高”，并按逻辑分段，便于快速阅读。

多语言摘要：快速把握视频核心

支持多种语言的智能摘要生成，能提炼视频的关键信息，节省观看完整视频的时间。

应用场景：科研人员需要浏览大量外文学术演讲视频，逐一看完耗时费力。通过生成中文摘要，可快速判断视频是否与研究方向相关，再决定是否深入观看，大幅提升信息筛选效率。

条件式翻译：跨语言内容无缝处理

当所选总结语言与Whisper检测到的语言不一致时，自动调用GPT-4o生成翻译，实现跨语言内容的流畅转化。

应用场景：外贸从业者观看英文产品介绍视频时，选择生成中文摘要，工具会自动翻译并提炼核心卖点，无需额外使用翻译软件，简化信息获取流程。

移动适配：随时随地处理视频

完美支持移动设备，在手机、平板上也能顺畅操作，满足用户在非电脑场景下的处理需求。

应用场景：出差途中收到重要行业论坛的视频链接，可直接用手机打开工具，输入链接并生成摘要，在碎片化时间里快速掌握行业动态。

作者反思：在测试这款工具的多平台支持功能时，我发现它对一些小众平台的兼容性也超出预期。这得益于底层依赖的yt-dlp工具的强大，这提示我们，优秀的开源工具往往是站在“巨人的肩膀”上——通过整合成熟的开源组件，能快速实现复杂功能，这也是开源生态的魅力所在。

快速开始：如何搭建AI视频转录器的运行环境？

本段欲回答的核心问题：使用AI视频转录器需要满足哪些环境要求？有哪些安装方式可供选择？不同安装方式分别适合什么用户？

无论你是技术小白还是有经验的开发者，都能找到适合自己的安装方式。前提是确保满足基础环境要求，再根据自身情况选择自动安装、Docker部署或手动安装。

环境要求：运行工具的基础条件

使用AI视频转录器前，需确保系统满足以下条件：

Python 3.8+：工具的后端基于Python开发，需确保Python版本符合要求。可通过python --version或python3 --version命令检查当前版本。
FFmpeg：用于视频解析和音频提取，是处理视频文件的核心依赖。
可选：OpenAI API密钥：若需要使用智能摘要、条件式翻译功能，需准备OpenAI API密钥；仅使用基础转录功能则无需配置。

应用场景：对于刚接触Python的用户，建议先通过官方网站安装最新版Python（3.8及以上），并勾选“Add Python to PATH”选项，避免后续出现路径问题。

安装方法一：自动安装（适合有基础命令行经验的用户）

自动安装通过脚本完成环境配置，步骤简单，适合对命令行操作有一定了解的用户。

操作步骤：

克隆项目代码
打开终端（macOS/Linux）或命令提示符（Windows），执行以下命令：

# 克隆项目到本地
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
# 进入项目目录
cd AI-Video-Transcriber

运行安装脚本
脚本会自动处理依赖安装、环境配置等步骤：

# 赋予脚本执行权限（macOS/Linux）
chmod +x install.sh
# 运行安装脚本
./install.sh

注意事项：Windows系统可能需要使用WSL（Windows Subsystem for Linux）执行上述命令，或直接选择其他安装方式。

安装方法二：Docker部署（推荐给追求简单快捷的用户）

Docker部署将工具及依赖打包在容器中，无需担心环境冲突，是最省心的安装方式，尤其适合非技术背景用户。

前置条件：
需安装Docker Desktop（下载地址：https://www.docker.com/products/docker-desktop），并确保Docker服务处于运行状态。

操作步骤：

克隆项目并进入目录
同自动安装的第一步：

git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber

配置环境变量
复制环境变量模板并修改：

# 复制模板文件
cp .env.example .env
# 编辑.env文件（需设置OPENAI_API_KEY，若仅用基础功能可留空）
# 可使用文本编辑器打开，如nano .env 或直接在图形界面编辑

启动服务
推荐使用Docker Compose，一键启动：

# 后台运行服务
docker-compose up -d

也可手动构建镜像并运行：

# 构建Docker镜像
docker build -t ai-video-transcriber .
# 运行容器，映射8000端口
docker run -p 8000:8000 -e OPENAI_API_KEY="你的API密钥" ai-video-transcriber

应用场景：团队协作时，Docker部署能确保所有人使用相同的环境，避免“在我电脑上能运行”的问题。只需共享项目代码和.env配置，团队成员即可快速启动工具。

安装方法三：手动安装（适合需要自定义配置的开发者）

手动安装步骤稍多，但能让用户更灵活地控制环境，适合需要调整依赖版本或进行二次开发的场景。

操作步骤：

安装Python依赖（推荐使用虚拟环境）
虚拟环境能隔离项目依赖，避免与系统其他Python项目冲突：

# 创建虚拟环境（macOS/Linux）
python3 -m venv .venv
# 激活虚拟环境
source .venv/bin/activate
# 升级pip
python -m pip install --upgrade pip
# 安装依赖
pip install -r requirements.txt

Windows系统激活虚拟环境的命令为：

.venv\Scripts\activate

安装FFmpeg
根据操作系统选择对应命令：
- macOS：brew install ffmpeg（需先安装Homebrew）
- Ubuntu/Debian：sudo apt update && sudo apt install ffmpeg
- CentOS/RHEL：sudo yum install ffmpeg

配置环境变量
若需使用摘要/翻译功能，需设置OpenAI API密钥：

# 在终端中临时设置（关闭终端后失效）
export OPENAI_API_KEY="你的_API_Key"

# 若使用自建/代理的OpenAI兼容网关，可设置端点
# export OPENAI_BASE_URL="https://你的网关地址/v1"

如需永久生效，可将上述命令添加到.bashrc（macOS/Linux）或系统环境变量配置中。

作者反思：手动安装过程中，虚拟环境的使用是关键。曾有用户因未激活虚拟环境，导致依赖安装到系统全局Python中，出现版本冲突。建议每次使用工具前，先通过source .venv/bin/activate（macOS/Linux）确认虚拟环境已激活，终端提示符前出现(.venv)即表示成功。

启动与使用：如何用AI视频转录器处理视频？

本段欲回答的核心问题：如何启动AI视频转录器服务？处理一个视频的完整流程是怎样的？有哪些实用技巧能提升使用效率？

完成安装后，启动服务并处理视频的过程非常直观，只需几个步骤即可从视频链接得到转录文本和摘要。

启动服务：让工具运行起来

启动服务的命令因安装方式略有不同，但最终都会在本地8000端口运行服务。

基础启动命令：

# 确保已进入项目目录，虚拟环境已激活（手动安装方式）
python3 start.py

服务启动后，打开浏览器访问 http://localhost:8000 即可看到工具界面。

使用显式环境变量启动（适合临时调整配置）：

# 激活虚拟环境
source .venv/bin/activate
# 设置API密钥
export OPENAI_API_KEY=你的_API_Key
# 可选：设置自定义OpenAI端点
# export OPENAI_BASE_URL=https://oneapi.basevec.com/v1
# 以生产模式启动（禁用调试模式）
python3 start.py --prod

Docker部署启动验证：
使用Docker Compose启动后，可通过docker ps命令查看容器是否正常运行，若状态为“Up”则表示服务已启动。

使用指南：从视频链接到结果输出的完整流程

以处理一个YouTube视频为例，详细说明使用步骤：

输入视频链接
在工具界面的输入框中，粘贴目标视频的链接（如https://www.youtube.com/watch?v=示例视频ID）。支持同时输入多个链接，工具会按顺序处理。
选择摘要语言
在下拉菜单中选择希望生成摘要的语言（如中文、英文、日语等）。若视频语言与摘要语言不同，工具会自动触发翻译功能（需配置OpenAI API）。
开始处理
点击“开始”按钮，工具会进入处理流程，界面会实时显示进度，包括：
- 视频下载和解析：获取视频文件并提取音频轨道
- 音频转录：使用Faster-Whisper将语音转为文字
- 文本优化：修正错误、补全句子、合理分段
- 摘要生成：基于优化后的文本生成选定语言的摘要
查看结果
处理完成后，界面会分为两个区域：上方是优化后的完整转录文本，下方是智能摘要。可直接在线浏览，也可复制内容到本地文档。
下载文件
点击“下载”按钮，可将转录文本和摘要以Markdown格式保存到本地，方便后续编辑或归档。

应用场景：学生处理网课视频时，可选择“中文”作为摘要语言，即使视频是英文授课，也能得到中文摘要，快速梳理知识点；同时下载Markdown文件，用于整理笔记或制作思维导图。

效率技巧：对于时长超过1小时的视频，建议选择较小的Whisper模型（如tiny或base），并在非高峰时段处理，减少等待时间。

技术架构：AI视频转录器是如何工作的？

本段欲回答的核心问题：AI视频转录器的技术栈由哪些部分组成？各组件的作用是什么？项目结构如何设计以保证扩展性？

了解工具的技术架构，不仅能帮助用户更好地使用工具，也能为二次开发提供清晰的方向。这款工具采用前后端分离架构，各模块职责明确，便于维护和扩展。

后端技术栈：处理核心业务逻辑

后端负责视频下载、音频转录、文本处理等核心功能，采用以下技术：

FastAPI：现代化的Python Web框架，以高性能和自动生成API文档著称。它负责接收前端请求、调度各处理模块，并将结果返回给前端。相比传统框架，FastAPI的异步处理能力能更好地应对视频处理这类IO密集型任务。
yt-dlp：视频下载和处理工具，支持30+平台的视频解析。它是实现“多平台支持”的核心，能从不同平台的链接中提取视频资源，并分离出音频轨道供后续转录使用。
Faster-Whisper：Whisper模型的高效实现，相比官方版本速度更快，资源占用更低。它负责将音频文件转为文字，支持多种模型大小，可在速度和精度之间灵活权衡。
OpenAI API：提供智能文本优化、摘要生成和翻译功能。当用户启用这些高级功能时，后端会将处理后的文本发送到OpenAI API，获取优化结果后返回给用户。

应用场景解析：当用户输入一个Bilibili视频链接后，FastAPI接收请求并调用yt-dlp模块，yt-dlp解析链接并下载视频的音频部分；接着Faster-Whisper将音频转为原始文字；若用户开启了优化功能，后端会调用OpenAI API对文字进行修正和分段；最后FastAPI将处理结果返回给前端展示。

前端技术栈：打造用户友好的交互界面

前端负责与用户交互，展示处理进度和结果，采用的技术包括：

HTML5 + CSS3：构建响应式界面，确保在电脑、手机等不同设备上都有良好的显示效果。通过CSS3的媒体查询功能，界面元素会根据屏幕尺寸自动调整布局。
JavaScript (ES6+)：实现前端交互逻辑，如点击按钮触发请求、实时显示处理进度、动态更新结果等。ES6的异步语法能更好地处理与后端的通信，避免界面卡顿。
Marked.js：将后端返回的Markdown格式文本渲染为HTML，方便用户阅读。支持代码高亮、列表、标题等Markdown元素，提升内容可读性。
Font Awesome：提供丰富的图标资源，用于按钮、状态指示等，让界面更直观。例如，用“下载”图标表示文件保存功能，用“刷新”图标表示重新处理。

项目结构：模块化设计的优势

项目采用清晰的模块化结构，各目录和文件职责明确，便于理解和扩展：

AI-Video-Transcriber/
├── backend/                 # 后端代码目录
│   ├── main.py             # FastAPI主应用，处理路由和请求
│   ├── video_processor.py  # 视频处理模块，调用yt-dlp下载和解析视频
│   ├── transcriber.py      # 转录模块，封装Faster-Whisper功能
│   ├── summarizer.py       # 摘要模块，调用OpenAI API生成摘要
│   └── translator.py       # 翻译模块，处理跨语言翻译逻辑
├── static/                 # 前端文件目录
│   ├── index.html          # 主页面，包含界面布局
│   └── app.js              # 前端逻辑，处理交互和请求
├── temp/                   # 临时文件目录，存储下载的音频和中间结果
├── Docker相关文件           # 用于Docker部署的配置
│   ├── Dockerfile          # 定义Docker镜像构建步骤
│   ├── docker-compose.yml  # 简化多容器部署的配置
│   └── .dockerignore       # 指定Docker构建时忽略的文件
├── .env.example        # 环境变量模板，包含必要的配置项
├── requirements.txt    # Python依赖列表，明确各库的版本
└── start.py           # 启动脚本，简化服务启动流程

作者反思：这种模块化的项目结构让功能扩展变得简单。例如，若要支持新的视频平台，只需扩展video_processor.py中的解析逻辑；若要替换摘要生成模型，只需修改summarizer.py中调用的API接口。这种“高内聚、低耦合”的设计，是开源项目保持生命力的关键。

配置选项：如何根据需求调整工具性能？

本段欲回答的核心问题：AI视频转录器有哪些可配置的选项？如何通过环境变量和模型选择来平衡工具的速度、精度和资源占用？

通过合理配置，用户可以根据自身硬件条件和需求，在速度、精度和资源占用之间找到最佳平衡点。工具提供了环境变量和模型选择两类配置项。

环境变量：控制服务运行的关键参数

环境变量用于配置服务的基础运行参数，无需修改代码即可调整工具行为。主要变量如下：

变量名	描述	默认值	是否必需
`OPENAI_API_KEY`	OpenAI API密钥，用于智能摘要和翻译功能	–	否（仅基础转录无需）
`HOST`	服务器绑定的IP地址	`0.0.0.0`	否
`PORT`	服务运行的端口号	`8000`	否
`WHISPER_MODEL_SIZE`	指定使用的Whisper模型大小	`base`	否

配置示例：
若8000端口被占用，可通过环境变量修改端口：

# 临时设置端口为8080
export PORT=8080
# 启动服务
python3 start.py

此时访问 http://localhost:8080 即可使用工具。

Whisper模型大小选择：平衡速度与精度

Faster-Whisper提供多种模型大小，不同模型在参数量、速度、精度和资源占用上有显著差异，用户可根据需求选择：

模型	参数量	支持语言	速度	内存占用	适用场景
tiny	39 M	英语、多语言	快	低（约150MB）	对速度要求高，精度要求不高的场景，如短视频快速转录
base	74 M	英语、多语言	中	低（约250MB）	日常使用的平衡选择，兼顾速度和精度
small	244 M	英语、多语言	中	中（约750MB）	对精度有一定要求，且设备内存充足的场景
medium	769 M	英语、多语言	慢	中（约1.5GB）	专业场景，如学术讲座转录，需要较高精度
large	1550 M	多语言（无英语专用版）	很慢	高（约3GB）	对精度要求极高的场景，如法律、医疗视频转录

配置方法：
通过环境变量指定模型：

# 使用small模型
export WHISPER_MODEL_SIZE=small
# 启动服务
python3 start.py

应用场景解析：

手机端部署（通过Docker或轻量化服务器）：建议选择tiny模型，减少内存占用，避免卡顿。
桌面端处理重要视频：base或small模型能在可接受的时间内提供较好的精度。
服务器端批量处理：若硬件资源充足，可选用medium或large模型，确保转录质量。

作者反思：在测试不同模型时发现，base模型在多数日常场景下表现最佳。对于10分钟左右的视频，在普通笔记本上处理时间约3-5分钟，精度能满足大部分需求。而tiny模型虽然速度快（1-2分钟），但在处理专业术语时容易出错，需要根据实际内容类型选择。

常见问题与解决方案：使用中可能遇到的问题及应对

本段欲回答的核心问题：使用AI视频转录器时，用户可能会遇到哪些常见问题？如何排查和解决这些问题？

即使是设计完善的工具，在不同环境和使用场景下也可能出现问题。以下是用户反馈较多的问题及解决方案，帮助快速定位并解决问题。

转录速度慢：如何提升处理效率？

问题表现：处理视频耗时过长，进度条长时间停滞。

可能原因及解决方案：

模型选择过大：当前使用的Whisper模型（如large）资源占用高，处理速度慢。
解决：改用更小的模型，如export WHISPER_MODEL_SIZE=base后重启服务。
硬件性能不足：电脑CPU或内存配置较低，难以快速处理视频。
解决：关闭其他占用资源的程序，或在性能更好的设备上运行工具。
视频时长过长：1小时以上的视频本身需要较长处理时间。
解决：分时段处理，或选择非高峰时段运行，避免资源竞争。

平台支持问题：某些视频链接无法处理怎么办？

问题表现：输入视频链接后，提示“无法提取视频”或“不支持的平台”。

可能原因及解决方案：

平台未被yt-dlp支持：虽然工具支持30+平台，但仍有少数小众平台可能不兼容。
解决：查看yt-dlp官方文档（https://github.com/yt-dlp/yt-dlp）确认平台支持情况，或手动下载视频后通过本地文件处理（若工具支持）。
视频链接错误或失效：链接拼写错误或视频已被删除。
解决：检查链接是否正确，在浏览器中验证视频可正常播放。
网络限制：所在网络无法访问目标平台（如海外平台）。
解决：尝试使用VPN或代理，确保网络能访问目标视频平台。

AI优化功能不可用：摘要或翻译功能无法使用

问题表现：处理完成后只有原始转录文本，无优化内容或摘要。

可能原因及解决方案：

未配置OpenAI API密钥：AI优化功能依赖OpenAI API，未设置密钥时会自动禁用。
解决：配置OPENAI_API_KEY环境变量，重启服务后重试。
API密钥无效或过期：密钥错误或已超过使用限额。
解决：登录OpenAI官网检查密钥状态，更换有效密钥。
网络无法访问OpenAI服务器：所在网络限制了对api.openai.com的访问。
解决：使用代理或配置OPENAI_BASE_URL指向兼容的网关，如export OPENAI_BASE_URL="https://你的网关地址/v1"。

500报错或白屏：服务运行异常的排查

问题表现：访问http://localhost:8000时出现500错误，或页面空白无内容。

排查清单：

虚拟环境是否激活：手动安装方式需确保.venv环境已激活（终端显示(.venv)）。
解决：运行source .venv/bin/activate（macOS/Linux）或.venv\Scripts\activate（Windows）。
依赖是否正确安装：可能存在依赖缺失或版本冲突。
解决：重新安装依赖pip install -r requirements.txt，注意终端输出的错误信息。
端口是否被占用：8000端口被其他程序占用会导致服务启动失败。
解决：更换端口（如export PORT=8080），或关闭占用端口的程序（macOS/Linux可通过lsof -i:8000查找进程并杀死）。
FFmpeg是否安装成功：FFmpeg缺失会导致视频处理失败。
解决：重新安装FFmpeg，通过ffmpeg -version验证安装成功。

Docker部署问题：容器启动失败或无法访问

问题表现：Docker容器启动后立即退出，或访问localhost:8000无响应。

解决方案：

查看容器日志：通过日志定位错误原因

# 查看容器名称（假设容器名为ai-video-transcriber-ai-video-transcriber-1）
docker ps -a
# 查看日志
docker logs ai-video-transcriber-ai-video-transcriber-1

端口冲突：8000端口被占用，可修改映射端口

# 重新运行容器，映射8001端口到容器的8000端口
docker run -p 8001:8000 --env-file .env ai-video-transcriber

.env文件问题：文件缺失或格式错误
解决：确保已执行cp .env.example .env，且文件中无语法错误（如多余空格）。
Docker资源不足：容器内存分配不足导致启动失败
解决：在Docker Desktop中增加内存分配（建议至少4GB），或启动时限制内存使用
```
docker run -m 2g -p 8000:8000 --env-file .env ai-video-transcriber
```

实用摘要与操作清单

本段欲回答的核心问题：使用AI视频转录器的关键步骤和注意事项有哪些？如何快速回顾工具的核心功能和配置要点？

核心功能速览

支持30+视频平台的语音转文字
提供AI文本优化（修正、分段）
多语言摘要与条件式翻译
全平台适配，包括移动设备

安装与启动清单

环境准备
- 安装Python 3.8+、FFmpeg
- （可选）准备OpenAI API密钥
安装方式选择
- 小白用户：优先Docker部署（docker-compose up -d）
- 命令行用户：自动安装（运行install.sh）
- 开发者：手动安装（虚拟环境+依赖安装）
启动服务
- 基础启动：python3 start.py
- 自定义配置：设置环境变量（如端口、模型）后启动

使用流程清单

访问http://localhost:8000
输入视频链接
选择摘要语言
点击“开始”并等待处理完成
查看转录文本和摘要，按需下载

配置优化建议

速度优先：WHISPER_MODEL_SIZE=tiny
平衡选择：WHISPER_MODEL_SIZE=base（默认）
高精度需求：WHISPER_MODEL_SIZE=medium或large
端口冲突：export PORT=8080

一页速览（One-page Summary）

项目	关键信息
工具名称	AI视频转录器
核心功能	多平台视频转录、AI文本优化、多语言摘要、条件式翻译
支持平台	YouTube、Bilibili、抖音等30+（基于yt-dlp）
技术依赖	Python 3.8+、FFmpeg、Faster-Whisper、OpenAI API（可选）
安装方式	自动安装、Docker部署、手动安装
启动命令	`python3 start.py`
访问地址	`http://localhost:8000`
模型选择	tiny（快/低精度）、base（平衡）、small/medium/large（高精度/慢）
常见问题	转录慢（换小模型）、功能不可用（检查API密钥）、报错（查日志/环境）

常见问题（FAQ）

AI视频转录器支持哪些视频格式？
工具通过yt-dlp处理视频，支持各平台的原生格式，无需用户手动转换格式，只需提供视频链接即可。
处理一个1小时的视频需要多长时间？
取决于模型大小和硬件性能：tiny模型约10-15分钟，base模型约20-30分钟，large模型可能超过1小时。
不配置OpenAI API密钥能使用哪些功能？
可使用基础转录（Faster-Whisper）和简化版摘要功能，但无法使用AI文本优化和条件式翻译。
如何更新工具到最新版本？
进入项目目录，执行git pull拉取最新代码，然后重新安装依赖或重建Docker镜像。
能否处理本地视频文件？
当前版本主要支持通过链接处理网络视频，本地文件处理功能暂未实现，可关注项目更新。
移动设备上使用时，处理速度会变慢吗？
是的，移动设备硬件性能通常低于电脑，建议在移动设备上仅处理短视频，或选择tiny模型。
Docker部署后，如何查看处理的临时文件？
临时文件存储在容器内的/app/temp目录，可通过docker exec -it 容器名 /bin/bash进入容器查看。
工具会保存我的视频或转录内容吗？
所有处理均在本地完成，临时文件存储在temp目录，用户可手动删除，工具不会上传或云端存储内容。