小说视频工作流：用AI把小说一键变成可直接导入剪映的视频项目（2026最新实测版）

高效码农

2 月前

摘要
小说视频工作流（Novel Video Workflow）是一个运行在macOS上的开源自动化系统，通过Ollama + IndexTTS2 + DrawThings + Aegisub的组合，能将整本小说文本自动拆分成章节 → 生成带声音克隆的高质量语音 → 基于章节内容智能生成配图 → 产出精准时间轴字幕 → 最终输出剪映可直接识别的草稿项目结构。整个流程基本做到“上传小说文本 → 喝杯咖啡 → 回来检查output文件夹”就能得到可修改后一键发布的短视频内容。目前官方推荐剪映客户端版本为3.4.1。

如果你正在寻找一种批量、低成本、高度可控的方式把网络小说、言情、悬疑、灵异、古言等长文本内容快速转化为适合抖音/快手/小红书/视频号的竖屏视频素材，这个项目可能是2025–2026年最贴近实际生产链路的开源方案之一。

这套系统到底能帮我解决什么真实痛点？

大多数创作者在把小说改成视频时会卡在下面几个环节：

章节分割要人工看半天
配音声音单一、感情匮乏，或者克隆声音又特别贵
每一章要找/画几十张图，手动对齐时间轴累到崩溃
字幕时间轴对不准，总是“嘴型对不上”
最后素材散落在各个文件夹，导入剪映还要一层一层拖拽

这套工作流把以上几乎所有重复劳动都自动化了，并且输出格式直接对齐剪映草稿包结构，导入后基本只需要微调转场、加片头片尾和背景音乐就能发。

系统真实运行环境与硬件门槛（2026年1月数据）

项目	要求 / 推荐配置	强制性	备注
操作系统	macOS	必须	项目目前仅在Apple Silicon上完整测试通过
CPU/GPU	Apple M1及以上（Metal支持）	必须	M2/M3/M4速度明显更快
内存	16GB 起步，强烈建议32GB	推荐	同时跑Ollama 4B + DrawThings + IndexTTS2 吃内存比较明显
存储空间	100GB以上可用空间	推荐	一本30万字小说全流程可能产生15–40GB素材
Go语言	1.25及以上	必须	–
剪映客户端	3.4.1（其他版本自行尝试）	强烈推荐	官方实测版本，草稿识别最稳定

一句话总结门槛：一台M1/M2/M3/M4的MacBook + 32GB内存 是目前最舒适的体验配置。

必须提前启动的四个核心AI服务

在运行主程序之前，你需要让下面四个服务全部处于可访问状态：

Ollama（内容理解、章节智能拆分、提示词优化）
- 默认端口：11434
- 推荐模型：qwen3:4b（轻量且中文理解能力优秀）
```
curl -fsSL https://ollama.ai/install.sh | sh
ollama serve &                 # 后台运行
ollama pull qwen3:4b
```
DrawThings（图像生成主力）
- App Store 下载 Draw Things
- 打开“偏好设置 → HTTP服务”，勾选启动并允许局域网访问
- 确认监听端口为 7861
IndexTTS2（目前最强本地免费/低成本声音克隆TTS之一）
- 端口：7860
- 需要按照IndexTTS2官方仓库说明完成安装与启动
- 推荐准备一段清晰的参考人声（1–3分钟干净录音）
FFmpeg（音频切分、格式转换等底层依赖）
- macOS 上最简单的方式是用Homebrew安装
```
brew install ffmpeg
```

最推荐的启动方式（一键完整工作流）

绝大多数用户直接用下面这条命令最省事：

# 同时启动MCP服务 + Web控制台
go run main.go

启动后浏览器打开：

http://localhost:8080

你会看到一个非常简洁的Web界面。

Web控制台真实操作流程（图文版）

把小说文本文件放入正确位置

mkdir -p input/幽灵客栈
cp 幽灵客栈.txt input/幽灵客栈/幽灵客栈.txt

（强烈推荐）准备一段参考人声

mkdir -p assets/ref_audio
cp 张三参考声.m4a assets/ref_audio/ref.m4a

打开 http://localhost:8080
在页面上选择刚刚创建的文件夹（幽灵客栈）
勾选你想执行的步骤（一般全选）
- 章节智能分割
- 音频生成（IndexTTS2）
- 图像生成（DrawThings）
- 字幕生成
- 剪映项目文件生成
点击“处理上传的文件夹”

之后就是等待…… 时间主要消耗在：

TTS合成（最耗时，每章3–10分钟不等）
图像生成（每张图5–60秒，看显存和模型）

最终输出长什么样？（以“幽灵客栈”第10章为例）

处理完成后，你会在 output/幽灵客栈/chapter_10/ 看到：

chapter_10/
├── chapter_10.wav           # 完整音频（带克隆声音）
├── chapter_10.srt           # 精准对齐的字幕（Aegisub生成）
├── chapter_10.json          # 剪映草稿文件（核心产物）
└── images/
    ├── scene_01.png
    ├── scene_02.png
    ├── scene_03.png
    ...                     # 一般每章8–15张图
    └── scene_10.png

最关键的是那个 chapter_10.json。

在剪映中操作方式：

打开剪映客户端（3.4.1版本）
点击“草稿” → “从文件夹导入草稿”
选择 output/幽灵客栈/chapter_10/ 文件夹
剪映会自动识别项目结构，素材、音频、字幕、画面顺序全部就位

此时你只需要：

检查一下转场是否流畅
决定是否要加统一的片头/片尾
调节一下整体色调/LUT
导出即可

整个过程比传统手工剪辑快5–10倍。

目前支持的MCP工具一览（供高级玩家/Ollama Desktop集成）

工具名称	主要功能	是否需要参考音频	输出类型
generate_indextts2_audio	调用IndexTTS2生成单段音频	推荐	.wav
generate_subtitles_from_indextts2	根据已生成的音频反推出srt字幕	—	.srt
file_split_novel_into_chapters	智能拆分整本小说为章节	—	chapter_xx 文件夹
generate_image_from_text	纯文本提示词生成单张图	—	.png
generate_image_from_image	以图生图（风格迁移）	—	.png
generate_images_from_chapter	章节内容智能拆分成多张图	—	多张 .png
generate_images_from_chapter_with_ai_prompt	先让Ollama写提示词，再生成图像	—	多张 .png（质量更高）

其中最推荐的是最后两个，它们利用了Ollama对章节内容的深度理解来写提示词，生成的图像一致性明显更好。

常见问题快速自查（FAQ）

Q1：为什么启动后提示“DrawThings服务不可用”？
A：确认DrawThings是否已开启HTTP服务，并且端口确实是7861。macOS防火墙有时会拦截。

Q2：声音克隆效果很差，怎么办？
A：参考音频质量最重要。尽量用安静环境、无背景音乐、清晰的1–3分钟独白。音量不要忽大忽小。

Q3：一张图生成太慢，能不能少生成几张？
A：目前可以通过修改config.yaml里的图像生成数量参数来控制（具体字段请查看配置文件注释）。

Q4：能不能只生成音频和字幕，不生成图片？
A：在Web界面取消勾选图像生成相关的选项即可。

Q5：剪映导入后画面是黑的/顺序乱了？
A：目前最稳定的版本是剪映3.4.1。更高版本的文件结构识别规则可能有变化，建议先用官方指定版本测试。

Q6：能不能跑在Windows/Linux上？
A：目前项目README明确写的是macOS + Apple Silicon，后续是否适配Windows/Linux取决于社区贡献。

写在最后：这套方案适合谁？

有一定技术动手能力（能敲命令行、改配置文件）
拥有一台内存充足的Apple Silicon Mac
希望用最低成本批量生产小说解说/有声小说/剧情短视频内容
不想把核心数据和提示词交给在线付费平台
愿意花时间调教出属于自己风格的声音 + 画面模板

如果你符合上面大部分条件，那么“小说视频工作流”大概率能帮你把从文本到成片的时间压缩到原来的1/5–1/10。

项目地址：https://github.com/hulutech-web/novel-video-workflow
建议直接阅读里面的 SYSTEM_ARCHITECTURE.md 和 USER_GUIDE.md，它们比README更详细。

希望这套工具能让更多优质小说被看见，也让创作者少一些重复劳动。