站点图标 高效码农

Pixelle-Video评测:输入一句话,AI自动生成爆款短视频,连脚本配音都省了!

Pixelle-Video:打造零门槛的AI全自动短视频生成引擎

摘要:
Pixelle-Video 是一款 AI 全自动短视频引擎,用户仅需输入一个主题,即可自动完成视频文案撰写、AI 配图与视频生成、语音合成及背景音乐添加的全过程。该工具支持 Windows 一键安装及源码部署,无需剪辑经验,结合 ComfyUI 与多种 LLM 模型,实现从脚本到成片的“一句话”式创作。


1. 引言:当视频创作变成“一句话”的事

在数字化内容爆炸的时代,短视频已成为信息传播的主流载体。然而,从灵感到成片,传统的视频制作流程往往涉及繁琐的脚本撰写、素材搜集、剪辑合成等环节,这对绝大多数创作者来说,既是技术门槛,也是时间成本的巨大挑战。如果有一种方式,能够让你只需输入一个简单的主题,剩下的所有工作——从写脚本、找配图、生成语音到最终剪辑合成——全部由 AI 自动完成,那将会是怎样的体验?

这正是 Pixelle-Video 致力于解决的痛点。作为一个 AI 全自动短视频引擎,它将复杂的视频生产流程封装在极简的操作界面之下。无论你是想制作关于“如何提升自己”的个人成长类视频,还是探讨“为什么我们还没有找到外星文明”的科普内容,甚至是对“资治通鉴”的历史解说,Pixelle-Video 都能通过其模块化的 AI 工作流,在几分钟内为你生成一部高质量的短视频。

本文将基于 Pixelle-Video 的核心功能与技术架构,深入剖析其工作原理,提供详尽的安装配置指南,并展示如何通过简单的 Web 界面操作,实现从零开始的自动化视频创作。

2. 核心功能全景:从灵感到成片的自动化闭环

Pixelle-Video 的核心价值在于其“全自动生成”能力。它不仅仅是一个视频剪辑工具,更是一个集成了大语言模型(LLM)、计算机视觉(CV)和语音合成(TTS)技术的综合创作平台。其功能亮点覆盖了视频制作的全生命周期,真正实现了“零门槛,零剪辑经验”。

2.1 AI 智能文案与脚本生成

视频的灵魂在于文案。Pixelle-Video 内置了强大的 AI 智能文案功能,用户只需输入一个“主题”,系统便会自动调用配置好的大语言模型(如通义千问、DeepSeek、GPT 等),智能创作出符合主题的视频解说词。这一过程完全省去了人工构思和撰写的环节,且生成的脚本结构清晰,可直接用于后续的视听制作。

2.2 AI 配图与视频生成

为了配合文案,Pixelle-Video 能够根据每一句解说词自动生成精美的 AI 插图或视频片段。

  • 配图能力:支持调用各种 AI 绘画模型,为每一句话生成匹配的画面。
  • 视频生成:通过集成如 WAN 2.1 等先进的 AI 视频生成模型,系统可以创建动态的视频内容,使画面不再局限于静态图片,大大增强了视频的观赏性。
  • 自定义素材:除了 AI 生成,用户还可以使用“自定义素材”功能,上传自己的照片和视频,系统会利用 AI 智能分析这些素材,并根据素材生成相应的脚本,实现了“素材先于脚本”的灵活创作模式。

2.3 智能语音合成与音色克隆

声音是视频的情感载体。Pixelle-Video 支持众多主流的 TTS(文本转语音)方案,包括 Edge-TTS 和 Index-TTS 等。

  • 多模态语音:不仅支持基础的语音合成,还支持“克隆音色”功能。用户只需上传一段参考音频(支持 MP3/WAV/FLAC 等格式),系统即可基于该音频克隆出相似的音色,用于旁白解说,极大地提升了视频的个性化程度。
  • 多语言支持:系统还新增了对多语言 TTS 音色的支持,能够满足不同地区语言的需求。

2.4 背景音乐与视觉风格

  • BGM 添加:视频氛围离不开音乐。系统支持添加背景音乐(BGM),用户可以选择内置音乐库中的曲目,或者将自定义的音乐文件放入指定文件夹,系统会自动合成。
  • 视觉模板:为了打造独特的视频风格,Pixelle-Video 提供了多种视觉模板。无论是极简风格、电影感还是其他艺术风格,用户都可以通过选择不同的模板和调整参数来定制视频的外观。

2.5 灵活的尺寸与模型兼容性

针对不同的发布平台,系统支持竖屏、横屏等多种视频尺寸。更重要的是,其底层基于 ComfyUI 架构构建,具有极强的扩展性。用户不仅可以使用预置的工作流,还能灵活组合原子能力,例如将生图模型替换为 FLUX,或将 TTS 替换为 ChatTTS 等,满足了从入门玩家到专业极客的不同需求。

3. 技术架构:模块化的视频生成流水线

Pixelle-Video 采用了清晰的模块化设计,其视频生成流程逻辑严密,主要分为四个核心阶段:文案生成 → 配图规划 → 逐帧处理 → 视频合成

  1. 文案生成:这是整个流程的起点。系统根据用户输入的主题,利用 LLM 生成结构化的视频脚本。在这个过程中,用户可以选择支持固定脚本,也可以让 AI 创意生成。
  2. 配图规划:脚本生成后,系统会对文案进行语义分析,为每一句话(或段落)规划相应的视觉提示词,决定是生成静态图片还是动态视频片段。
  3. 逐帧处理:这是计算密集型环节。系统调用配置好的图像/视频生成服务(如 ComfyUI 或 RunningHub),根据提示词逐帧渲染视觉内容。同时,TTS 引擎将文案转化为音频文件。
  4. 视频合成:最后,系统将生成的视觉素材、音频文件以及背景音乐,根据选定的时间轴和视觉模板,通过 FFmpeg 等工具进行最终合成,输出完整的视频文件。

这种流水线设计使得每个环节都支持灵活定制。用户可以在任何环节介入,替换不同的 AI 模型、调整音频参数或切换视觉风格,从而实现个性化的创作需求。

4. 快速开始:安装与部署指南

为了降低用户的使用门槛,Pixelle-Video 提供了两种主要的安装方式:Windows 一键整合包和源码安装。无论你是普通 Windows 用户还是开发者,都能找到适合自己的部署方案。

4.1 Windows 一键整合包(推荐 Windows 用户)

对于大多数 Windows 用户而言,最便捷的方式是使用官方提供的一键整合包。这种方式最大的优势在于“开箱即用”,无需用户自行安装 Python、uv 或 ffmpeg 等复杂的运行环境依赖。

操作步骤:

  1. 下载:访问 GitHub 发布页面,下载最新的 Windows 一键整合包压缩文件。
  2. 解压:将下载的压缩包解压到本地任意目录。
  3. 启动:进入解压后的文件夹,双击运行 start.bat 脚本。
  4. 访问:脚本会自动启动 Web 界面,浏览器通常会自动打开 http://localhost:8501。如果没有自动打开,手动在浏览器中输入该地址即可。
  5. 配置:首次使用时,需要在 Web 界面的「⚙️ 系统配置」中填写 LLM API 和图像生成服务的密钥。配置完成后,即可开始生成视频。

4.2 从源码安装(适合 macOS / Linux 用户)

对于 macOS、Linux 用户或希望进行深度定制的开发者,从源码安装是更灵活的选择。

前置环境依赖:
在开始之前,必须确保系统中已安装 Python 包管理器 uv 和视频处理工具 ffmpeg

  • 安装 uv:请访问 uv 官方文档查看适合你系统的安装方法。安装完成后,在终端运行 uv --version 验证安装成功。
  • 安装 ffmpeg
    • macOS:使用 Homebrew 安装,命令为 brew install ffmpeg
    • Ubuntu / Debian:使用 apt 包管理器,命令为 sudo apt updatesudo apt install ffmpeg
    • Windows:从官网下载后解压,将 bin 目录添加到系统环境变量 PATH 中。
    • 验证安装:在终端运行 ffmpeg -version

安装步骤:

  1. 下载项目:使用 git 命令克隆仓库到本地:
    git clone https://github.com/AIDC-AI/Pixelle-Video.git
    cd Pixelle-Video
    
  2. 启动 Web 界面:使用 uv 运行 Streamlit 应用(推荐方式,会自动处理依赖安装):
    uv run streamlit run web/app.py
    
  3. 配置:浏览器打开 http://localhost:8501 后,展开「⚙️ 系统配置」面板,根据提示填写 LLM 和图像服务的相关信息并保存。

5. Web 界面深度解析:从配置到生成

Pixelle-Video 的 Web 界面采用直观的三栏布局,分别对应系统配置、内容/视听设置和生成控制。下面我们将详细解析每个部分的功能与设置技巧。

5.1 ⚙️ 系统配置:一切的基础

首次使用时,系统配置是必经之路。点击展开面板后,主要涉及两大核心配置:

LLM 配置(大语言模型)

LLM 是视频文案的大脑。

  • 快速选择预设:为了方便新手,界面提供了下拉菜单,允许用户直接选择预设模型,如通义千问、GPT-4o、DeepSeek 等。选择后,系统会自动填充 Base URL 和 Model 名称,大大简化了操作。
  • 手动配置:对于高级用户,也可以手动输入 API Key、API 地址和模型名称。
  • API Key 获取:界面通常提供“获取 API Key”的引导链接,点击即可跳转至相应平台注册并获取密钥。

图像配置

这部分决定了视频画面的生成来源。

  • 本地部署(推荐):如果你本地部署了 ComfyUI,只需填写本地服务地址(默认为 http://127.0.0.1:8188)。点击“测试连接”按钮,即可确认服务是否可用。
  • 云端部署:对于本地算力不足的用户,可以使用 RunningHub 等云端服务。只需填入云端图像生成服务的 API Key 即可。

配置完成后,务必点击“保存配置”以确设置生效。

5.2 📝 内容输入:创意的起点

左侧栏主要用于内容的输入与设定。

生成模式选择

  • AI 生成内容:这是最核心的模式。用户只需输入一个主题(例如:“为什么要养成阅读习惯”),AI 就会自动创作文案。适合希望快速生成视频、让代笔写稿的用户。
  • 固定文案内容:如果你已经准备好了现成的文案,可以直接选择此模式,将文案粘贴进去,系统将跳过 AI 创作环节,直接基于该文案生成视频。

背景音乐(BGM)设置

  • 无 BGM:仅保留人声解说。
  • 内置音乐:从预置列表中选择背景音乐(如 default.mp3)。
  • 自定义音乐:用户可以将自己喜欢的音乐文件(支持 MP3/WAV 等格式)放入项目的 bgm/ 文件夹中,系统会自动识别并供选择。
  • 试听功能:点击“试听 BGM”即可在生成前预览音乐效果。

5.3 🎤 语音设置:赋予视频声音

中间栏的上半部分专注于语音合成设置。

TTS 工作流选择

系统会自动扫描 workflows/ 文件夹中的 TTS 工作流,用户可以从下拉菜单中选择。除了内置的 Edge-TTS、Index-TTS 等主流方案外,如果你熟悉 ComfyUI,甚至可以使用自定义的 TTS 工作流。

参考音频与声音克隆

对于支持声音克隆的工作流(如 Index-TTS),用户可以上传参考音频文件。

  • 上传格式:支持 MP3、WAV、FLAC 等常见格式。
  • 即时预览:上传后,输入测试文本,点击“预览语音”即可试听克隆后的音色效果。

5.4 🎨 视觉设置:打造独特风格

中间栏的下半部分用于控制画面的视觉效果。

图像生成设置

  • ComfyUI 工作流:选择图像生成的具体工作流,支持本地和云端(RunningHub)。默认工作流通常为 image_flux.json。用户同样可以放置自定义工作流到 workflows/ 文件夹以供调用。
  • 图像尺寸:以像素为单位设置生成图像的宽度和高度。默认设置通常为 1024×1024,但请注意,不同的 AI 模型对尺寸有特定的限制,需根据实际情况调整。
  • 提示词前缀:这是控制整体画面风格的关键。用户需要输入英文的提示词前缀(例如:“Minimalist black-and-white matchstick figure style illustration, clean lines, simple sketch style”)。系统会将此前缀与文案生成的描述结合,从而控制画面的艺术风格。点击“预览风格”可以测试该前缀的效果。

视频模板

模板决定了视频画面的布局、字体和动画效果。

  • 命名规范
    • static_*.html:静态模板,主要基于文字样式,无需 AI 生成媒体。
    • image_*.html:图片模板,使用 AI 生成的图片作为背景。
    • video_*.html:视频模板,使用 AI 生成的视频作为背景。
  • 尺寸分组:模板按竖屏、横屏、方形等尺寸分组显示,方便根据发布平台选择。
  • 自定义预览:点击“预览模板”可以查看模板效果,并支持自定义参数进行测试。懂 HTML 的用户甚至可以直接在 templates/ 文件夹中修改或创建自己的模板。

5.5 🎬 生成视频:一键输出

右侧栏是最终的控制中心。

生成与进度

配置好所有参数后,点击醒目的“🎬 生成视频”按钮。系统会开始工作,并在界面上实时显示进度。例如,你可能会看到“分镜 3/5 – 生成插图”这样的状态更新,让你随时掌握当前的处理阶段。

视频预览与输出

生成完成后,视频会自动在界面中播放预览。同时,界面会显示视频的时长、文件大小、分镜数等详细信息。最终的成品视频文件会被保存在项目的 output/ 文件夹中,方便用户查找和管理。

6. 应用场景与案例展示

Pixelle-Video 的强大之处在于其广泛的适应性。通过调整主题、模板和风格,它可以生成各种类型的视频内容。以下是文档中展示的部分应用场景:

6.1 竖屏视频案例(适合抖音、快手、Shorts)

  • 人文纪实类:例如“旅行路上的风景让人流连忘返”,使用默认模板,展现旅途风光。
  • 文化解构类:例如“Santa ID”,探索特定文化标识。
  • 科学思辨类:例如“为什么我们还没有找到外星文明?”,利用 AI 生成的深空画面,配合解说,引人深思。
  • 个人成长类:例如“如何提升自己”,结合克隆音色,营造亲切的导师氛围。
  • 深度思考类:例如“如何理解反脆弱”,通过视觉化抽象概念,帮助观众理解复杂理论。
  • 历史文化类:例如“资治通鉴”,配合固定画面,重现历史厚重感。
  • 情感类:例如“冬日暖阳”,利用柔和的画面和克隆音色,传递温暖情绪。
  • 小说解说类:例如“斗破苍穹”,通过自创脚本,快速制作小说解说视频。
  • 知识科普类:例如“养生知识”,使用特定模型(如 Qwen)生成的插图,直观展示健康知识。

6.2 横屏视频案例(适合 B站、YouTube)

  • 副业赚钱类:例如“副业赚钱”,采用电影模板,提升内容的质感。
  • 历史解说类:例如“资治通鉴启示录”,使用自定义模板,打造独特的历史讲述风格。

这些案例表明,无论是简单的情感分享,还是复杂的知识科普,Pixelle-Video 都能通过输入一个关键词,全自动地生成令人满意的视频作品。

7. 系统更新与迭代历程

一个活跃的开源项目离不开持续的迭代更新。Pixelle-Video 的更新日志反映了其在功能和稳定性上的不断进步。以下是其近期的重要更新节点:

  • 2026-01-14:新增了「数字人口播」和「图生视频」两条新的流水线,进一步丰富了视频生成的形式;同时新增了多语言 TTS 音色支持,拓展了国际化应用。
  • 2026-01-06:新增了对 RunningHub 48G 显存机器的调用支持,这意味着云端生成更高清、更复杂的视频成为了可能。
  • 2025-12-28:支持了 RunningHub 并发限制的可配置化,并优化了 LLM 返回结构化数据的逻辑,提升了系统的稳定性和数据处理效率。
  • 2025-12-17:新增了 ComfyUI API Key 配置功能,支持 Nano Banana 模型的调用,且 API 接口开始支持模板自定义参数,增强了接口的灵活性。
  • 2025-12-10:侧边栏内置了 FAQ(常见问题解答),方便用户随时查阅;同时锁定了 edge-tts 的版本,修复了 TTS 服务可能出现的不稳定问题。
  • 2025-12-08:支持了固定脚本的多种分割方式(包括段落、行、句子),并优化了模板选择的交互逻辑,现在用户可以直接预览并选择模板。
  • 2025-12-06:修复了视频生成 API 返回 URL 路径处理的问题,并进一步支持了跨平台兼容性。
  • 2025-12-05:新增了 Windows 整合包下载,极大地降低了 Windows 用户的入手难度;同时优化了图片与视频的反推工作流。
  • 2025-12-04:重磅新增「自定义素材」功能,支持用户上传自己的照片和视频,AI 会根据这些素材智能分析并生成脚本。
  • 2025-11-18:优化了 RunningHub 服务的调用,支持并行处理,加快了生成速度;新增了历史记录页面,方便用户管理过往任务;并支持了批量创建视频任务。

8. 常见问题(FAQ)

在使用过程中,用户可能会遇到各种疑问。以下是基于文档整理的常见问题及解答:

Q: 第一次使用生成一个视频大概需要多久?
A: 生成时长主要取决于视频的分镜数量、当前的网络状况以及所使用的 AI 模型的推理速度。在常规条件下,通常几分钟内即可完成一个短视频的生成。

Q: 如果生成的视频效果不满意,我该怎么办?
A: Pixelle-Video 提供了多维度的调整空间,您可以尝试:

  1. 更换 LLM 模型:不同的模型(如 GPT、通义千问、DeepSeek)生成的文案风格不同,切换模型可能会带来新的灵感。
  2. 调整图像参数:尝试调整图像生成的尺寸,或者修改“提示词前缀”来改变配图的画风。
  3. 优化语音效果:更换 TTS 工作流,或者上传高质量的参考音频进行声音克隆,以获得更自然的听感。
  4. 切换模板与尺寸:尝试不同的视频模板和视频尺寸,可能会呈现出意想不到的视觉效果。

Q: 使用 Pixelle-Video 制作视频的费用大概多少?
A: 本项目完全支持免费运行! 用户可以根据自身条件选择不同的成本方案:

  • 完全免费方案:LLM 使用本地运行的 Ollama + ComfyUI 本地部署。这种方式完全在本地运行,不产生 API 调用费用,但需要较好的本地硬件配置。
  • 推荐方案:LLM 使用通义千问(成本极低,性价比高)+ ComfyUI 本地部署。这是成本与体验的平衡之选。
  • 云端方案:LLM 使用 OpenAI + 图像使用 RunningHub。这种方式费用较高,但无需部署本地环境,且算力强大。

选择建议:如果您本地有性能较好的显卡,强烈建议使用完全免费方案;否则,推荐使用通义千问方案以获得较高的性价比。

9. 总结

Pixelle-Video 不仅仅是一个工具,它是自动化视频创作理念的具体实践。通过将 ComfyUI 的强大能力与现代化的 Web 界面相结合,它打破了视频制作的技术壁垒,让每个人都能成为视频创作者。无论是想要快速产出内容的自媒体人,还是希望探索 AI 边界的技术极客,Pixelle-Video 都提供了从简单到专业的完整路径。

随着数字人口播、图生视频等新功能的不断加入,以及对 RunningHub 等云端算力的支持,Pixelle-Video 正在变得越来越智能和强大。只需输入一个主题,剩下的就交给 AI,这已不再是未来的想象,而是触手可及的现实。

退出移动版