Pixelle-Video评测：输入一句话，AI自动生成爆款短视频，连脚本配音都省了！

高效码农

2 月前

Pixelle-Video：打造零门槛的AI全自动短视频生成引擎

摘要：
Pixelle-Video 是一款 AI 全自动短视频引擎，用户仅需输入一个主题，即可自动完成视频文案撰写、AI 配图与视频生成、语音合成及背景音乐添加的全过程。该工具支持 Windows 一键安装及源码部署，无需剪辑经验，结合 ComfyUI 与多种 LLM 模型，实现从脚本到成片的“一句话”式创作。

1. 引言：当视频创作变成“一句话”的事

在数字化内容爆炸的时代，短视频已成为信息传播的主流载体。然而，从灵感到成片，传统的视频制作流程往往涉及繁琐的脚本撰写、素材搜集、剪辑合成等环节，这对绝大多数创作者来说，既是技术门槛，也是时间成本的巨大挑战。如果有一种方式，能够让你只需输入一个简单的主题，剩下的所有工作——从写脚本、找配图、生成语音到最终剪辑合成——全部由 AI 自动完成，那将会是怎样的体验？

这正是 Pixelle-Video 致力于解决的痛点。作为一个 AI 全自动短视频引擎，它将复杂的视频生产流程封装在极简的操作界面之下。无论你是想制作关于“如何提升自己”的个人成长类视频，还是探讨“为什么我们还没有找到外星文明”的科普内容，甚至是对“资治通鉴”的历史解说，Pixelle-Video 都能通过其模块化的 AI 工作流，在几分钟内为你生成一部高质量的短视频。

本文将基于 Pixelle-Video 的核心功能与技术架构，深入剖析其工作原理，提供详尽的安装配置指南，并展示如何通过简单的 Web 界面操作，实现从零开始的自动化视频创作。

2. 核心功能全景：从灵感到成片的自动化闭环

Pixelle-Video 的核心价值在于其“全自动生成”能力。它不仅仅是一个视频剪辑工具，更是一个集成了大语言模型（LLM）、计算机视觉（CV）和语音合成（TTS）技术的综合创作平台。其功能亮点覆盖了视频制作的全生命周期，真正实现了“零门槛，零剪辑经验”。

2.1 AI 智能文案与脚本生成

视频的灵魂在于文案。Pixelle-Video 内置了强大的 AI 智能文案功能，用户只需输入一个“主题”，系统便会自动调用配置好的大语言模型（如通义千问、DeepSeek、GPT 等），智能创作出符合主题的视频解说词。这一过程完全省去了人工构思和撰写的环节，且生成的脚本结构清晰，可直接用于后续的视听制作。

2.2 AI 配图与视频生成

为了配合文案，Pixelle-Video 能够根据每一句解说词自动生成精美的 AI 插图或视频片段。

配图能力：支持调用各种 AI 绘画模型，为每一句话生成匹配的画面。
视频生成：通过集成如 WAN 2.1 等先进的 AI 视频生成模型，系统可以创建动态的视频内容，使画面不再局限于静态图片，大大增强了视频的观赏性。
自定义素材：除了 AI 生成，用户还可以使用“自定义素材”功能，上传自己的照片和视频，系统会利用 AI 智能分析这些素材，并根据素材生成相应的脚本，实现了“素材先于脚本”的灵活创作模式。

2.3 智能语音合成与音色克隆

声音是视频的情感载体。Pixelle-Video 支持众多主流的 TTS（文本转语音）方案，包括 Edge-TTS 和 Index-TTS 等。

多模态语音：不仅支持基础的语音合成，还支持“克隆音色”功能。用户只需上传一段参考音频（支持 MP3/WAV/FLAC 等格式），系统即可基于该音频克隆出相似的音色，用于旁白解说，极大地提升了视频的个性化程度。
多语言支持：系统还新增了对多语言 TTS 音色的支持，能够满足不同地区语言的需求。

2.4 背景音乐与视觉风格

BGM 添加：视频氛围离不开音乐。系统支持添加背景音乐（BGM），用户可以选择内置音乐库中的曲目，或者将自定义的音乐文件放入指定文件夹，系统会自动合成。
视觉模板：为了打造独特的视频风格，Pixelle-Video 提供了多种视觉模板。无论是极简风格、电影感还是其他艺术风格，用户都可以通过选择不同的模板和调整参数来定制视频的外观。

2.5 灵活的尺寸与模型兼容性

针对不同的发布平台，系统支持竖屏、横屏等多种视频尺寸。更重要的是，其底层基于 ComfyUI 架构构建，具有极强的扩展性。用户不仅可以使用预置的工作流，还能灵活组合原子能力，例如将生图模型替换为 FLUX，或将 TTS 替换为 ChatTTS 等，满足了从入门玩家到专业极客的不同需求。

3. 技术架构：模块化的视频生成流水线

Pixelle-Video 采用了清晰的模块化设计，其视频生成流程逻辑严密，主要分为四个核心阶段：文案生成 → 配图规划 → 逐帧处理 → 视频合成。

文案生成：这是整个流程的起点。系统根据用户输入的主题，利用 LLM 生成结构化的视频脚本。在这个过程中，用户可以选择支持固定脚本，也可以让 AI 创意生成。
配图规划：脚本生成后，系统会对文案进行语义分析，为每一句话（或段落）规划相应的视觉提示词，决定是生成静态图片还是动态视频片段。
逐帧处理：这是计算密集型环节。系统调用配置好的图像/视频生成服务（如 ComfyUI 或 RunningHub），根据提示词逐帧渲染视觉内容。同时，TTS 引擎将文案转化为音频文件。
视频合成：最后，系统将生成的视觉素材、音频文件以及背景音乐，根据选定的时间轴和视觉模板，通过 FFmpeg 等工具进行最终合成，输出完整的视频文件。

这种流水线设计使得每个环节都支持灵活定制。用户可以在任何环节介入，替换不同的 AI 模型、调整音频参数或切换视觉风格，从而实现个性化的创作需求。

4. 快速开始：安装与部署指南

为了降低用户的使用门槛，Pixelle-Video 提供了两种主要的安装方式：Windows 一键整合包和源码安装。无论你是普通 Windows 用户还是开发者，都能找到适合自己的部署方案。

4.1 Windows 一键整合包（推荐 Windows 用户）

对于大多数 Windows 用户而言，最便捷的方式是使用官方提供的一键整合包。这种方式最大的优势在于“开箱即用”，无需用户自行安装 Python、uv 或 ffmpeg 等复杂的运行环境依赖。

操作步骤：

下载：访问 GitHub 发布页面，下载最新的 Windows 一键整合包压缩文件。
解压：将下载的压缩包解压到本地任意目录。
启动：进入解压后的文件夹，双击运行 start.bat 脚本。
访问：脚本会自动启动 Web 界面，浏览器通常会自动打开 http://localhost:8501。如果没有自动打开，手动在浏览器中输入该地址即可。
配置：首次使用时，需要在 Web 界面的「⚙️ 系统配置」中填写 LLM API 和图像生成服务的密钥。配置完成后，即可开始生成视频。

4.2 从源码安装（适合 macOS / Linux 用户）

对于 macOS、Linux 用户或希望进行深度定制的开发者，从源码安装是更灵活的选择。

前置环境依赖：
在开始之前，必须确保系统中已安装 Python 包管理器 uv 和视频处理工具 ffmpeg。

安装 uv：请访问 uv 官方文档查看适合你系统的安装方法。安装完成后，在终端运行 uv --version 验证安装成功。
安装 ffmpeg：
- macOS：使用 Homebrew 安装，命令为 brew install ffmpeg。
- Ubuntu / Debian：使用 apt 包管理器，命令为 sudo apt update 和 sudo apt install ffmpeg。
- Windows：从官网下载后解压，将 bin 目录添加到系统环境变量 PATH 中。
- 验证安装：在终端运行 ffmpeg -version。

安装步骤：

下载项目：使用 git 命令克隆仓库到本地：

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video

启动 Web 界面：使用 uv 运行 Streamlit 应用（推荐方式，会自动处理依赖安装）：
```
uv run streamlit run web/app.py
```
配置：浏览器打开 http://localhost:8501 后，展开「⚙️ 系统配置」面板，根据提示填写 LLM 和图像服务的相关信息并保存。

5. Web 界面深度解析：从配置到生成

Pixelle-Video 的 Web 界面采用直观的三栏布局，分别对应系统配置、内容/视听设置和生成控制。下面我们将详细解析每个部分的功能与设置技巧。

5.1 ⚙️ 系统配置：一切的基础

首次使用时，系统配置是必经之路。点击展开面板后，主要涉及两大核心配置：

LLM 配置（大语言模型）

LLM 是视频文案的大脑。

快速选择预设：为了方便新手，界面提供了下拉菜单，允许用户直接选择预设模型，如通义千问、GPT-4o、DeepSeek 等。选择后，系统会自动填充 Base URL 和 Model 名称，大大简化了操作。
手动配置：对于高级用户，也可以手动输入 API Key、API 地址和模型名称。
API Key 获取：界面通常提供“获取 API Key”的引导链接，点击即可跳转至相应平台注册并获取密钥。

图像配置

这部分决定了视频画面的生成来源。

本地部署（推荐）：如果你本地部署了 ComfyUI，只需填写本地服务地址（默认为 http://127.0.0.1:8188）。点击“测试连接”按钮，即可确认服务是否可用。
云端部署：对于本地算力不足的用户，可以使用 RunningHub 等云端服务。只需填入云端图像生成服务的 API Key 即可。

配置完成后，务必点击“保存配置”以确设置生效。

5.2 📝 内容输入：创意的起点

左侧栏主要用于内容的输入与设定。

生成模式选择

AI 生成内容：这是最核心的模式。用户只需输入一个主题（例如：“为什么要养成阅读习惯”），AI 就会自动创作文案。适合希望快速生成视频、让代笔写稿的用户。
固定文案内容：如果你已经准备好了现成的文案，可以直接选择此模式，将文案粘贴进去，系统将跳过 AI 创作环节，直接基于该文案生成视频。

背景音乐（BGM）设置

无 BGM：仅保留人声解说。
内置音乐：从预置列表中选择背景音乐（如 default.mp3）。
自定义音乐：用户可以将自己喜欢的音乐文件（支持 MP3/WAV 等格式）放入项目的 bgm/ 文件夹中，系统会自动识别并供选择。
试听功能：点击“试听 BGM”即可在生成前预览音乐效果。

5.3 🎤 语音设置：赋予视频声音

中间栏的上半部分专注于语音合成设置。

TTS 工作流选择

系统会自动扫描 workflows/ 文件夹中的 TTS 工作流，用户可以从下拉菜单中选择。除了内置的 Edge-TTS、Index-TTS 等主流方案外，如果你熟悉 ComfyUI，甚至可以使用自定义的 TTS 工作流。

参考音频与声音克隆

对于支持声音克隆的工作流（如 Index-TTS），用户可以上传参考音频文件。

上传格式：支持 MP3、WAV、FLAC 等常见格式。
即时预览：上传后，输入测试文本，点击“预览语音”即可试听克隆后的音色效果。

5.4 🎨 视觉设置：打造独特风格

中间栏的下半部分用于控制画面的视觉效果。

图像生成设置

ComfyUI 工作流：选择图像生成的具体工作流，支持本地和云端（RunningHub）。默认工作流通常为 image_flux.json。用户同样可以放置自定义工作流到 workflows/ 文件夹以供调用。
图像尺寸：以像素为单位设置生成图像的宽度和高度。默认设置通常为 1024×1024，但请注意，不同的 AI 模型对尺寸有特定的限制，需根据实际情况调整。
提示词前缀：这是控制整体画面风格的关键。用户需要输入英文的提示词前缀（例如：“Minimalist black-and-white matchstick figure style illustration, clean lines, simple sketch style”）。系统会将此前缀与文案生成的描述结合，从而控制画面的艺术风格。点击“预览风格”可以测试该前缀的效果。

视频模板

模板决定了视频画面的布局、字体和动画效果。

命名规范：
- static_*.html：静态模板，主要基于文字样式，无需 AI 生成媒体。
- image_*.html：图片模板，使用 AI 生成的图片作为背景。
- video_*.html：视频模板，使用 AI 生成的视频作为背景。
尺寸分组：模板按竖屏、横屏、方形等尺寸分组显示，方便根据发布平台选择。
自定义预览：点击“预览模板”可以查看模板效果，并支持自定义参数进行测试。懂 HTML 的用户甚至可以直接在 templates/ 文件夹中修改或创建自己的模板。

5.5 🎬 生成视频：一键输出

右侧栏是最终的控制中心。

生成与进度

配置好所有参数后，点击醒目的“🎬 生成视频”按钮。系统会开始工作，并在界面上实时显示进度。例如，你可能会看到“分镜 3/5 – 生成插图”这样的状态更新，让你随时掌握当前的处理阶段。

视频预览与输出

生成完成后，视频会自动在界面中播放预览。同时，界面会显示视频的时长、文件大小、分镜数等详细信息。最终的成品视频文件会被保存在项目的 output/ 文件夹中，方便用户查找和管理。

6. 应用场景与案例展示

Pixelle-Video 的强大之处在于其广泛的适应性。通过调整主题、模板和风格，它可以生成各种类型的视频内容。以下是文档中展示的部分应用场景：

6.1 竖屏视频案例（适合抖音、快手、Shorts）

人文纪实类：例如“旅行路上的风景让人流连忘返”，使用默认模板，展现旅途风光。
文化解构类：例如“Santa ID”，探索特定文化标识。
科学思辨类：例如“为什么我们还没有找到外星文明？”，利用 AI 生成的深空画面，配合解说，引人深思。
个人成长类：例如“如何提升自己”，结合克隆音色，营造亲切的导师氛围。
深度思考类：例如“如何理解反脆弱”，通过视觉化抽象概念，帮助观众理解复杂理论。
历史文化类：例如“资治通鉴”，配合固定画面，重现历史厚重感。
情感类：例如“冬日暖阳”，利用柔和的画面和克隆音色，传递温暖情绪。
小说解说类：例如“斗破苍穹”，通过自创脚本，快速制作小说解说视频。
知识科普类：例如“养生知识”，使用特定模型（如 Qwen）生成的插图，直观展示健康知识。

6.2 横屏视频案例（适合 B站、YouTube）

副业赚钱类：例如“副业赚钱”，采用电影模板，提升内容的质感。
历史解说类：例如“资治通鉴启示录”，使用自定义模板，打造独特的历史讲述风格。

这些案例表明，无论是简单的情感分享，还是复杂的知识科普，Pixelle-Video 都能通过输入一个关键词，全自动地生成令人满意的视频作品。

7. 系统更新与迭代历程

一个活跃的开源项目离不开持续的迭代更新。Pixelle-Video 的更新日志反映了其在功能和稳定性上的不断进步。以下是其近期的重要更新节点：

2026-01-14：新增了「数字人口播」和「图生视频」两条新的流水线，进一步丰富了视频生成的形式；同时新增了多语言 TTS 音色支持，拓展了国际化应用。
2026-01-06：新增了对 RunningHub 48G 显存机器的调用支持，这意味着云端生成更高清、更复杂的视频成为了可能。
2025-12-28：支持了 RunningHub 并发限制的可配置化，并优化了 LLM 返回结构化数据的逻辑，提升了系统的稳定性和数据处理效率。
2025-12-17：新增了 ComfyUI API Key 配置功能，支持 Nano Banana 模型的调用，且 API 接口开始支持模板自定义参数，增强了接口的灵活性。
2025-12-10：侧边栏内置了 FAQ（常见问题解答），方便用户随时查阅；同时锁定了 edge-tts 的版本，修复了 TTS 服务可能出现的不稳定问题。
2025-12-08：支持了固定脚本的多种分割方式（包括段落、行、句子），并优化了模板选择的交互逻辑，现在用户可以直接预览并选择模板。
2025-12-06：修复了视频生成 API 返回 URL 路径处理的问题，并进一步支持了跨平台兼容性。
2025-12-05：新增了 Windows 整合包下载，极大地降低了 Windows 用户的入手难度；同时优化了图片与视频的反推工作流。
2025-12-04：重磅新增「自定义素材」功能，支持用户上传自己的照片和视频，AI 会根据这些素材智能分析并生成脚本。
2025-11-18：优化了 RunningHub 服务的调用，支持并行处理，加快了生成速度；新增了历史记录页面，方便用户管理过往任务；并支持了批量创建视频任务。

8. 常见问题（FAQ）

在使用过程中，用户可能会遇到各种疑问。以下是基于文档整理的常见问题及解答：

Q: 第一次使用生成一个视频大概需要多久？
A: 生成时长主要取决于视频的分镜数量、当前的网络状况以及所使用的 AI 模型的推理速度。在常规条件下，通常几分钟内即可完成一个短视频的生成。

Q: 如果生成的视频效果不满意，我该怎么办？
A: Pixelle-Video 提供了多维度的调整空间，您可以尝试：

更换 LLM 模型：不同的模型（如 GPT、通义千问、DeepSeek）生成的文案风格不同，切换模型可能会带来新的灵感。
调整图像参数：尝试调整图像生成的尺寸，或者修改“提示词前缀”来改变配图的画风。
优化语音效果：更换 TTS 工作流，或者上传高质量的参考音频进行声音克隆，以获得更自然的听感。
切换模板与尺寸：尝试不同的视频模板和视频尺寸，可能会呈现出意想不到的视觉效果。

Q: 使用 Pixelle-Video 制作视频的费用大概多少？
A: 本项目完全支持免费运行！ 用户可以根据自身条件选择不同的成本方案：

完全免费方案：LLM 使用本地运行的 Ollama + ComfyUI 本地部署。这种方式完全在本地运行，不产生 API 调用费用，但需要较好的本地硬件配置。
推荐方案：LLM 使用通义千问（成本极低，性价比高）+ ComfyUI 本地部署。这是成本与体验的平衡之选。
云端方案：LLM 使用 OpenAI + 图像使用 RunningHub。这种方式费用较高，但无需部署本地环境，且算力强大。

选择建议：如果您本地有性能较好的显卡，强烈建议使用完全免费方案；否则，推荐使用通义千问方案以获得较高的性价比。

9. 总结

Pixelle-Video 不仅仅是一个工具，它是自动化视频创作理念的具体实践。通过将 ComfyUI 的强大能力与现代化的 Web 界面相结合，它打破了视频制作的技术壁垒，让每个人都能成为视频创作者。无论是想要快速产出内容的自媒体人，还是希望探索 AI 边界的技术极客，Pixelle-Video 都提供了从简单到专业的完整路径。

随着数字人口播、图生视频等新功能的不断加入，以及对 RunningHub 等云端算力的支持，Pixelle-Video 正在变得越来越智能和强大。只需输入一个主题，剩下的就交给 AI，这已不再是未来的想象，而是触手可及的现实。