Pixelle MCP：让AI工作流变得简单而强大

你是否曾经想过，如何让复杂的AI模型和工作流变得像搭积木一样简单？在AI快速发展的今天，很多开发者和创作者都被各种复杂的工具链所困扰。今天，我想和你分享一个真正能解决这个问题的开源项目——Pixelle MCP，一个全模态融合智能体框架，它让LLM与ComfyUI强强联合，创造出前所未有的可能性。

什么是Pixelle MCP？

简单来说，Pixelle MCP是一个基于MCP协议的AIGC方案，它最大的特点是能够零代码将ComfyUI工作流无缝转化为MCP Tool，让大语言模型(LLM)与ComfyUI协同工作。这意味着，即使你不是编程高手，也能轻松创建和使用各种AI工作流。

想象一下，你只需设计好ComfyUI工作流，系统就能自动将其转化为LLM可以理解和调用的工具，无需编写任何额外代码。这就是Pixelle MCP带来的革命性体验。

为什么你需要了解Pixelle MCP？

在当前的AI生态中，我们面临着几个关键挑战：

工具割裂：文本、图像、声音、视频等不同模态的AI工具往往各自为政
使用门槛高：即使有了ComfyUI这样的可视化工具，与LLM集成仍然需要大量开发工作
工作流复用困难：创建好的工作流难以在不同场景中灵活应用

Pixelle MCP正是为了解决这些问题而生。它实现了TISV（Text、Image、Sound/Speech、Video）全模态的互转和生成，让不同类型的AI能力可以无缝协作。

项目架构：三个核心组件

Pixelle MCP由三个主要部分组成，每个部分都有其独特功能：

组件	作用	优势
mcp-base	基础服务，提供文件存储和共用服务能力	为整个系统提供稳定可靠的基础支撑
mcp-client	MCP客户端，基于Chainlit构建的Web界面	提供直观易用的用户交互体验
mcp-server	MCP服务端，提供各种AIGC工具和服务	作为核心引擎，连接LLM与ComfyUI工作流

这种模块化设计让Pixelle MCP具备了极高的灵活性——你可以单独部署Server端仅提供MCP Server，或单独部署Client端仅提供MCP Client，也可以联合部署，完全根据你的需求定制。

五大核心功能：为什么它如此特别

1. 全模态支持：打破AI应用的边界

Pixelle MCP支持TISV（Text、Image、Sound/Speech、Video）全模态的互转和生成。这意味着：

你可以将文字描述转换为图像（文生图）
将图像转换为视频（图生视频）
甚至可以将文本转换为语音，再将语音转换为视频

这种全模态支持让创意工作不再受限于单一媒介，为内容创作者打开了全新的可能性。

2. 零代码开发：工作流即工具

这是Pixelle MCP最具革命性的特点。传统的AI工作流集成需要大量编码工作，而Pixelle MCP实现了”Workflow即MCP Tool”的方案：

在ComfyUI中设计你的工作流
按照特定规范标记参数
导出为API格式
系统自动将其转化为LLM可调用的工具

无需编写任何额外代码，就能让LLM理解和使用你的工作流。这大大降低了AI应用开发的门槛。

3. ComfyUI生态无缝集成

Pixelle MCP的Server端底层基于ComfyUI实现，这意味着你可以直接利用ComfyUI庞大的插件生态和工作流库。无论你是使用Stable Diffusion、Wan2.1还是Flux模型，都能在Pixelle MCP中轻松集成。

4. 灵活的部署方式

Pixelle MCP支持多种部署方式，适应不同的使用场景：

独立Server部署：仅需启动mcp-server，为其他系统提供AI能力
独立Client部署：仅需启动mcp-client，连接已有的MCP Server
完整系统部署：同时部署Client和Server，获得完整体验

这种灵活性使Pixelle MCP既适合个人开发者，也适合企业级应用。

5. 统一配置管理

项目采用YAML配置方案，一个配置文件就能管理所有服务。这大大简化了系统配置和维护工作，避免了传统多组件系统中常见的配置混乱问题。

如何开始使用Pixelle MCP？

第一步：安装与配置

1. 克隆源码

git clone https://github.com/AIDC-AI/Pixelle-MCP.git
cd Pixelle-MCP

2. 配置服务

复制并编辑配置文件：

cp config.yml.example config.yml

配置文件包含三个主要部分：基础服务、MCP服务端和MCP客户端。确保完成以下检查：

✅ 已复制config.yml.example为config.yml
✅ 已配置ComfyUI服务地址（确保ComfyUI正在运行）
✅ 已配置至少一个LLM模型（OpenAI或Ollama）
✅ 端口号未被其他服务占用（9001, 9002, 9003）

第二步：添加MCP Tool（可选但推荐）

虽然可以跳过此步骤，但添加MCP Tool将极大扩展你的AI能力。我们默认提供了一套热门工作流：

cp -r mcp-server/workflows/* mcp-server/data/custom_workflows/

重要提示：在拷贝之前，建议先将工作流拖进你的ComfyUI画布试运行，确保后续调用过程中能够顺利执行。

第三步：启动服务

有三种启动方式可选：

1. Docker方式启动（推荐）

docker compose up -d

2. 一键脚本启动

Linux/macOS用户：

# 前台运行
./run.sh

# 或后台运行
./run.sh start --daemon

Windows用户：直接双击根目录下的run.bat脚本

3. 手动启动服务

需要先安装uv环境。

启动基础服务（mcp-base）：

cd mcp-base
uv sync
uv run main.py

启动服务端（mcp-server）：

cd mcp-server
uv sync
uv run main.py

启动客户端（mcp-client）：

cd mcp-client
uv sync
uv run main.py

第四步：访问服务

启动完成后，各服务地址如下：

客户端：🌐 http://localhost:9003 (Chainlit Web UI，默认用户名密码均为dev)
服务端：🗄️ http://localhost:9002/sse (MCP Server)
基础服务：🔧 http://localhost:9001/docs (文件存储和基础API)

如何添加自己的MCP Tool？

添加最简单的MCP Tool：图片高斯模糊

在ComfyUI中搭建一个实现图片高斯模糊的工作流
将LoadImage节点的title改为$image.image!（表示这是一个必填参数）
导出为API格式文件，并重命名为i_blur.json
将文件复制到mcp-server/data/custom_workflows/目录
刷新页面，发送任意图片，即可实现基于LLM的高斯模糊处理

添加复杂MCP Tool：文本生成图像

对于更复杂的工作流，如使用Flux Turbo模型的文本生成图像：

按照相同步骤创建工作流
在需要参数化的节点标题中使用特殊语法
导出为API格式
复制到工作流目录

关键区别在于工作流本身的复杂度，添加MCP Tool的步骤完全相同。

ComfyUI工作流自定义规范详解

参数定义：如何让LLM理解你的工作流

在ComfyUI中，通过在节点标题中使用特殊语法来定义参数：

$<参数名>.<字段名>[!][:<描述信息>]

例如：

$image.image!:输入图片URL → 创建名为image的必填参数
$width.width:图片宽度，默认512 → 创建名为width的可选参数

系统会根据节点字段的当前值自动推断参数类型：

整数值（512, 1024）→ int类型
浮点数值（1.5, 3.14）→ float类型
布尔值（true, false）→ bool类型
字符串值 → str类型（默认类型）

输出定义：如何让系统知道结果在哪里

有两种方式定义输出：

自动识别输出节点：系统会自动识别常见的输出节点，如：
- SaveImage – 图片保存节点
- SaveVideo – 视频保存节点
- SaveAudio – 音频保存节点
- VHS_SaveVideo – VHS视频保存节点
- VHS_SaveAudio – VHS音频保存节点
手动标记输出：在任意节点标题中使用$output.变量名，例如$output.result

工具描述配置（可选但推荐）

添加一个标题为MCP的文本节点，在节点值字段中输入工具的详细描述。这会让LLM更好地理解和使用你的工具。

实用技巧与最佳实践

1. 参数验证

必填参数：标记为必填的参数（有!符号）必须提供
可选参数：标记为可选的参数必须在节点中设置默认值

2. 工作流命名

导出的文件名将作为工具名称，建议使用有意义的英文名称
例如：text_to_image.json比workflow1.json更清晰

3. 描述详细

在参数描述中提供详细说明，提升用户体验
例如：$width.width:图片宽度，范围256-1024，默认512

4. 导出格式

必须导出为API格式，不要导出UI格式
API格式只包含工作流数据，不含界面布局信息

常见问题解答（FAQ）

Q：Pixelle MCP和普通ComfyUI有什么区别？

A：ComfyUI是一个强大的可视化AI工作流工具，但本身不具备与LLM交互的能力。Pixelle MCP在ComfyUI基础上增加了MCP协议支持，让LLM能够理解和调用ComfyUI工作流，实现”工作流即工具”的体验，无需额外开发。

Q：我需要编程经验才能使用Pixelle MCP吗？

A：不需要！Pixelle MCP的核心优势就是零代码开发。你只需在ComfyUI中设计工作流，按照规范标记参数，系统会自动将其转化为LLM可调用的工具。当然，如果你有编程经验，可以进一步定制和扩展系统。

Q：如何确保我的工作流能被正确识别为MCP Tool？

A：关键在于正确使用参数定义语法和导出为API格式。确保：

在需要参数化的节点标题中使用$参数名.字段名!语法
导出为API格式（不是UI格式）
将文件放在mcp-server/data/custom_workflows/目录
重启服务或刷新页面

Q：Pixelle MCP支持哪些LLM？

A：项目配置中支持OpenAI和Ollama模型。你可以在config.yml中配置相应的API密钥或服务地址。理论上，只要支持MCP协议的LLM客户端都可以与Pixelle MCP集成。

Q：我的工作流包含多个输出，如何处理？

A：对于包含多个输出的场景，建议使用手动标记输出的方式。在每个需要作为输出的节点标题中添加$output.变量名，例如$output.image和$output.metadata。这样LLM就能识别并处理多个输出结果。

Q：如何参与Pixelle MCP社区？

A：项目提供了多种参与方式：

微信交流群：扫描README中的二维码加入
Discord社区：同样通过README中的二维码加入
你也可以通过Issues提交问题或功能建议，或通过Pull Request贡献代码

Q：为什么我的工作流导入后无法正常工作？

A：常见原因包括：

未正确导出为API格式（必须是API格式）
参数标记不正确（检查语法是否符合$参数名.字段名!）
ComfyUI中缺少必要的插件或模型
配置文件中ComfyUI服务地址不正确

建议先在ComfyUI中单独测试工作流，确认能正常运行后再导入Pixelle MCP。

为什么Pixelle MCP值得关注？

在AI技术快速发展的今天，工具的易用性和互操作性变得越来越重要。Pixelle MCP通过将ComfyUI工作流与MCP协议结合，解决了AI应用开发中的几个关键痛点：

降低使用门槛：让非程序员也能创建和使用复杂的AI工作流
提高开发效率：零代码集成工作流，大幅缩短开发周期
促进生态融合：连接LLM与多模态AI工具，创造新的应用场景
增强工作流复用：一次创建工作流，可在多种场景中调用

更重要的是，作为一个开源项目，Pixelle MCP鼓励社区共建，不断丰富工作流库和功能。无论你是AI开发者、内容创作者还是技术爱好者，都能在这个生态中找到自己的位置。

结语

Pixelle MCP代表了AI工具发展的一个重要方向：让复杂的技术变得简单可用，让不同的AI能力能够无缝协作。通过”工作流即工具”的理念，它打破了传统AI应用开发的壁垒，为更多人打开了AI创作的大门。

如果你正在寻找一个既能发挥ComfyUI强大能力，又能与LLM无缝协作的解决方案，Pixelle MCP绝对值得一试。从简单的图片处理到复杂的多模态工作流，它都能帮你轻松实现。

现在，不妨按照文中的步骤尝试安装和使用Pixelle MCP，亲身体验AI工作流的便捷与强大。记住，真正的技术价值不在于它有多复杂，而在于它能帮助人们解决什么问题、创造什么价值。

如何零代码搭建AI工作流？Pixelle MCP让ComfyUI与LLM强强联手！