站点图标 高效码农

小说视频工作流:用AI把小说一键变成可直接导入剪映的视频项目(2026最新实测版)

摘要
小说视频工作流(Novel Video Workflow)是一个运行在macOS上的开源自动化系统,通过Ollama + IndexTTS2 + DrawThings + Aegisub的组合,能将整本小说文本自动拆分成章节 → 生成带声音克隆的高质量语音 → 基于章节内容智能生成配图 → 产出精准时间轴字幕 → 最终输出剪映可直接识别的草稿项目结构。整个流程基本做到“上传小说文本 → 喝杯咖啡 → 回来检查output文件夹”就能得到可修改后一键发布的短视频内容。目前官方推荐剪映客户端版本为3.4.1。

如果你正在寻找一种批量、低成本、高度可控的方式把网络小说、言情、悬疑、灵异、古言等长文本内容快速转化为适合抖音/快手/小红书/视频号的竖屏视频素材,这个项目可能是2025–2026年最贴近实际生产链路的开源方案之一。

这套系统到底能帮我解决什么真实痛点?

大多数创作者在把小说改成视频时会卡在下面几个环节:

  • 章节分割要人工看半天
  • 配音声音单一、感情匮乏,或者克隆声音又特别贵
  • 每一章要找/画几十张图,手动对齐时间轴累到崩溃
  • 字幕时间轴对不准,总是“嘴型对不上”
  • 最后素材散落在各个文件夹,导入剪映还要一层一层拖拽

这套工作流把以上几乎所有重复劳动都自动化了,并且输出格式直接对齐剪映草稿包结构,导入后基本只需要微调转场、加片头片尾和背景音乐就能发。

系统真实运行环境与硬件门槛(2026年1月数据)

项目 要求 / 推荐配置 强制性 备注
操作系统 macOS 必须 项目目前仅在Apple Silicon上完整测试通过
CPU/GPU Apple M1及以上(Metal支持) 必须 M2/M3/M4速度明显更快
内存 16GB 起步,强烈建议32GB 推荐 同时跑Ollama 4B + DrawThings + IndexTTS2 吃内存比较明显
存储空间 100GB以上可用空间 推荐 一本30万字小说全流程可能产生15–40GB素材
Go语言 1.25及以上 必须
剪映客户端 3.4.1(其他版本自行尝试) 强烈推荐 官方实测版本,草稿识别最稳定

一句话总结门槛:一台M1/M2/M3/M4的MacBook + 32GB内存 是目前最舒适的体验配置。

必须提前启动的四个核心AI服务

在运行主程序之前,你需要让下面四个服务全部处于可访问状态:

  1. Ollama(内容理解、章节智能拆分、提示词优化)

    • 默认端口:11434
    • 推荐模型:qwen3:4b(轻量且中文理解能力优秀)
    curl -fsSL https://ollama.ai/install.sh | sh
    ollama serve &                 # 后台运行
    ollama pull qwen3:4b
    
  2. DrawThings(图像生成主力)

    • App Store 下载 Draw Things
    • 打开“偏好设置 → HTTP服务”,勾选启动并允许局域网访问
    • 确认监听端口为 7861
  3. IndexTTS2(目前最强本地免费/低成本声音克隆TTS之一)

    • 端口:7860
    • 需要按照IndexTTS2官方仓库说明完成安装与启动
    • 推荐准备一段清晰的参考人声(1–3分钟干净录音)
  4. FFmpeg(音频切分、格式转换等底层依赖)

    • macOS 上最简单的方式是用Homebrew安装
    brew install ffmpeg
    

最推荐的启动方式(一键完整工作流)

绝大多数用户直接用下面这条命令最省事:

# 同时启动MCP服务 + Web控制台
go run main.go

启动后浏览器打开:

http://localhost:8080

你会看到一个非常简洁的Web界面。

Web控制台真实操作流程(图文版)

  1. 把小说文本文件放入正确位置

    mkdir -p input/幽灵客栈
    cp 幽灵客栈.txt input/幽灵客栈/幽灵客栈.txt
    
  2. (强烈推荐)准备一段参考人声

    mkdir -p assets/ref_audio
    cp 张三参考声.m4a assets/ref_audio/ref.m4a
    
  3. 打开 http://localhost:8080

  4. 在页面上选择刚刚创建的文件夹(幽灵客栈)

  5. 勾选你想执行的步骤(一般全选)

    • 章节智能分割
    • 音频生成(IndexTTS2)
    • 图像生成(DrawThings)
    • 字幕生成
    • 剪映项目文件生成
  6. 点击“处理上传的文件夹”

之后就是等待…… 时间主要消耗在:

  • TTS合成(最耗时,每章3–10分钟不等)
  • 图像生成(每张图5–60秒,看显存和模型)

最终输出长什么样?(以“幽灵客栈”第10章为例)

处理完成后,你会在 output/幽灵客栈/chapter_10/ 看到:

chapter_10/
├── chapter_10.wav           # 完整音频(带克隆声音)
├── chapter_10.srt           # 精准对齐的字幕(Aegisub生成)
├── chapter_10.json          # 剪映草稿文件(核心产物)
└── images/
    ├── scene_01.png
    ├── scene_02.png
    ├── scene_03.png
    ...                     # 一般每章8–15张图
    └── scene_10.png

最关键的是那个 chapter_10.json

在剪映中操作方式

  1. 打开剪映客户端(3.4.1版本)
  2. 点击“草稿” → “从文件夹导入草稿”
  3. 选择 output/幽灵客栈/chapter_10/ 文件夹
  4. 剪映会自动识别项目结构,素材、音频、字幕、画面顺序全部就位

此时你只需要:

  • 检查一下转场是否流畅
  • 决定是否要加统一的片头/片尾
  • 调节一下整体色调/LUT
  • 导出即可

整个过程比传统手工剪辑快5–10倍。

目前支持的MCP工具一览(供高级玩家/Ollama Desktop集成)

工具名称 主要功能 是否需要参考音频 输出类型
generate_indextts2_audio 调用IndexTTS2生成单段音频 推荐 .wav
generate_subtitles_from_indextts2 根据已生成的音频反推出srt字幕 .srt
file_split_novel_into_chapters 智能拆分整本小说为章节 chapter_xx 文件夹
generate_image_from_text 纯文本提示词生成单张图 .png
generate_image_from_image 以图生图(风格迁移) .png
generate_images_from_chapter 章节内容智能拆分成多张图 多张 .png
generate_images_from_chapter_with_ai_prompt 先让Ollama写提示词,再生成图像 多张 .png(质量更高)

其中最推荐的是最后两个,它们利用了Ollama对章节内容的深度理解来写提示词,生成的图像一致性明显更好。

常见问题快速自查(FAQ)

Q1:为什么启动后提示“DrawThings服务不可用”?
A:确认DrawThings是否已开启HTTP服务,并且端口确实是7861。macOS防火墙有时会拦截。

Q2:声音克隆效果很差,怎么办?
A:参考音频质量最重要。尽量用安静环境、无背景音乐、清晰的1–3分钟独白。音量不要忽大忽小。

Q3:一张图生成太慢,能不能少生成几张?
A:目前可以通过修改config.yaml里的图像生成数量参数来控制(具体字段请查看配置文件注释)。

Q4:能不能只生成音频和字幕,不生成图片?
A:在Web界面取消勾选图像生成相关的选项即可。

Q5:剪映导入后画面是黑的/顺序乱了?
A:目前最稳定的版本是剪映3.4.1。更高版本的文件结构识别规则可能有变化,建议先用官方指定版本测试。

Q6:能不能跑在Windows/Linux上?
A:目前项目README明确写的是macOS + Apple Silicon,后续是否适配Windows/Linux取决于社区贡献。

写在最后:这套方案适合谁?

  • 有一定技术动手能力(能敲命令行、改配置文件)
  • 拥有一台内存充足的Apple Silicon Mac
  • 希望用最低成本批量生产小说解说/有声小说/剧情短视频内容
  • 不想把核心数据和提示词交给在线付费平台
  • 愿意花时间调教出属于自己风格的声音 + 画面模板

如果你符合上面大部分条件,那么“小说视频工作流”大概率能帮你把从文本到成片的时间压缩到原来的1/5–1/10。

项目地址:https://github.com/hulutech-web/novel-video-workflow
建议直接阅读里面的 SYSTEM_ARCHITECTURE.md 和 USER_GUIDE.md,它们比README更详细。

希望这套工具能让更多优质小说被看见,也让创作者少一些重复劳动。

退出移动版