摘要
小说视频工作流(Novel Video Workflow)是一个运行在macOS上的开源自动化系统,通过Ollama + IndexTTS2 + DrawThings + Aegisub的组合,能将整本小说文本自动拆分成章节 → 生成带声音克隆的高质量语音 → 基于章节内容智能生成配图 → 产出精准时间轴字幕 → 最终输出剪映可直接识别的草稿项目结构。整个流程基本做到“上传小说文本 → 喝杯咖啡 → 回来检查output文件夹”就能得到可修改后一键发布的短视频内容。目前官方推荐剪映客户端版本为3.4.1。
如果你正在寻找一种批量、低成本、高度可控的方式把网络小说、言情、悬疑、灵异、古言等长文本内容快速转化为适合抖音/快手/小红书/视频号的竖屏视频素材,这个项目可能是2025–2026年最贴近实际生产链路的开源方案之一。
这套系统到底能帮我解决什么真实痛点?
大多数创作者在把小说改成视频时会卡在下面几个环节:
-
章节分割要人工看半天 -
配音声音单一、感情匮乏,或者克隆声音又特别贵 -
每一章要找/画几十张图,手动对齐时间轴累到崩溃 -
字幕时间轴对不准,总是“嘴型对不上” -
最后素材散落在各个文件夹,导入剪映还要一层一层拖拽
这套工作流把以上几乎所有重复劳动都自动化了,并且输出格式直接对齐剪映草稿包结构,导入后基本只需要微调转场、加片头片尾和背景音乐就能发。
系统真实运行环境与硬件门槛(2026年1月数据)
| 项目 | 要求 / 推荐配置 | 强制性 | 备注 |
|---|---|---|---|
| 操作系统 | macOS | 必须 | 项目目前仅在Apple Silicon上完整测试通过 |
| CPU/GPU | Apple M1及以上(Metal支持) | 必须 | M2/M3/M4速度明显更快 |
| 内存 | 16GB 起步,强烈建议32GB | 推荐 | 同时跑Ollama 4B + DrawThings + IndexTTS2 吃内存比较明显 |
| 存储空间 | 100GB以上可用空间 | 推荐 | 一本30万字小说全流程可能产生15–40GB素材 |
| Go语言 | 1.25及以上 | 必须 | – |
| 剪映客户端 | 3.4.1(其他版本自行尝试) | 强烈推荐 | 官方实测版本,草稿识别最稳定 |
一句话总结门槛:一台M1/M2/M3/M4的MacBook + 32GB内存 是目前最舒适的体验配置。
必须提前启动的四个核心AI服务
在运行主程序之前,你需要让下面四个服务全部处于可访问状态:
-
Ollama(内容理解、章节智能拆分、提示词优化)
-
默认端口:11434 -
推荐模型: qwen3:4b(轻量且中文理解能力优秀)
curl -fsSL https://ollama.ai/install.sh | sh ollama serve & # 后台运行 ollama pull qwen3:4b -
-
DrawThings(图像生成主力)
-
App Store 下载 Draw Things -
打开“偏好设置 → HTTP服务”,勾选启动并允许局域网访问 -
确认监听端口为 7861
-
-
IndexTTS2(目前最强本地免费/低成本声音克隆TTS之一)
-
端口:7860 -
需要按照IndexTTS2官方仓库说明完成安装与启动 -
推荐准备一段清晰的参考人声(1–3分钟干净录音)
-
-
FFmpeg(音频切分、格式转换等底层依赖)
-
macOS 上最简单的方式是用Homebrew安装
brew install ffmpeg -
最推荐的启动方式(一键完整工作流)
绝大多数用户直接用下面这条命令最省事:
# 同时启动MCP服务 + Web控制台
go run main.go
启动后浏览器打开:
http://localhost:8080
你会看到一个非常简洁的Web界面。
Web控制台真实操作流程(图文版)
-
把小说文本文件放入正确位置
mkdir -p input/幽灵客栈 cp 幽灵客栈.txt input/幽灵客栈/幽灵客栈.txt -
(强烈推荐)准备一段参考人声
mkdir -p assets/ref_audio cp 张三参考声.m4a assets/ref_audio/ref.m4a -
打开 http://localhost:8080
-
在页面上选择刚刚创建的文件夹(幽灵客栈)
-
勾选你想执行的步骤(一般全选)
-
章节智能分割 -
音频生成(IndexTTS2) -
图像生成(DrawThings) -
字幕生成 -
剪映项目文件生成
-
-
点击“处理上传的文件夹”
之后就是等待…… 时间主要消耗在:
-
TTS合成(最耗时,每章3–10分钟不等) -
图像生成(每张图5–60秒,看显存和模型)
最终输出长什么样?(以“幽灵客栈”第10章为例)
处理完成后,你会在 output/幽灵客栈/chapter_10/ 看到:
chapter_10/
├── chapter_10.wav # 完整音频(带克隆声音)
├── chapter_10.srt # 精准对齐的字幕(Aegisub生成)
├── chapter_10.json # 剪映草稿文件(核心产物)
└── images/
├── scene_01.png
├── scene_02.png
├── scene_03.png
... # 一般每章8–15张图
└── scene_10.png
最关键的是那个 chapter_10.json。
在剪映中操作方式:
-
打开剪映客户端(3.4.1版本) -
点击“草稿” → “从文件夹导入草稿” -
选择 output/幽灵客栈/chapter_10/文件夹 -
剪映会自动识别项目结构,素材、音频、字幕、画面顺序全部就位
此时你只需要:
-
检查一下转场是否流畅 -
决定是否要加统一的片头/片尾 -
调节一下整体色调/LUT -
导出即可
整个过程比传统手工剪辑快5–10倍。
目前支持的MCP工具一览(供高级玩家/Ollama Desktop集成)
| 工具名称 | 主要功能 | 是否需要参考音频 | 输出类型 |
|---|---|---|---|
| generate_indextts2_audio | 调用IndexTTS2生成单段音频 | 推荐 | .wav |
| generate_subtitles_from_indextts2 | 根据已生成的音频反推出srt字幕 | — | .srt |
| file_split_novel_into_chapters | 智能拆分整本小说为章节 | — | chapter_xx 文件夹 |
| generate_image_from_text | 纯文本提示词生成单张图 | — | .png |
| generate_image_from_image | 以图生图(风格迁移) | — | .png |
| generate_images_from_chapter | 章节内容智能拆分成多张图 | — | 多张 .png |
| generate_images_from_chapter_with_ai_prompt | 先让Ollama写提示词,再生成图像 | — | 多张 .png(质量更高) |
其中最推荐的是最后两个,它们利用了Ollama对章节内容的深度理解来写提示词,生成的图像一致性明显更好。
常见问题快速自查(FAQ)
Q1:为什么启动后提示“DrawThings服务不可用”?
A:确认DrawThings是否已开启HTTP服务,并且端口确实是7861。macOS防火墙有时会拦截。
Q2:声音克隆效果很差,怎么办?
A:参考音频质量最重要。尽量用安静环境、无背景音乐、清晰的1–3分钟独白。音量不要忽大忽小。
Q3:一张图生成太慢,能不能少生成几张?
A:目前可以通过修改config.yaml里的图像生成数量参数来控制(具体字段请查看配置文件注释)。
Q4:能不能只生成音频和字幕,不生成图片?
A:在Web界面取消勾选图像生成相关的选项即可。
Q5:剪映导入后画面是黑的/顺序乱了?
A:目前最稳定的版本是剪映3.4.1。更高版本的文件结构识别规则可能有变化,建议先用官方指定版本测试。
Q6:能不能跑在Windows/Linux上?
A:目前项目README明确写的是macOS + Apple Silicon,后续是否适配Windows/Linux取决于社区贡献。
写在最后:这套方案适合谁?
-
有一定技术动手能力(能敲命令行、改配置文件) -
拥有一台内存充足的Apple Silicon Mac -
希望用最低成本批量生产小说解说/有声小说/剧情短视频内容 -
不想把核心数据和提示词交给在线付费平台 -
愿意花时间调教出属于自己风格的声音 + 画面模板
如果你符合上面大部分条件,那么“小说视频工作流”大概率能帮你把从文本到成片的时间压缩到原来的1/5–1/10。
项目地址:https://github.com/hulutech-web/novel-video-workflow
建议直接阅读里面的 SYSTEM_ARCHITECTURE.md 和 USER_GUIDE.md,它们比README更详细。
希望这套工具能让更多优质小说被看见,也让创作者少一些重复劳动。

