Pixelle MCP:让AI工作流变得简单而强大

你是否曾经想过,如何让复杂的AI模型和工作流变得像搭积木一样简单?在AI快速发展的今天,很多开发者和创作者都被各种复杂的工具链所困扰。今天,我想和你分享一个真正能解决这个问题的开源项目——Pixelle MCP,一个全模态融合智能体框架,它让LLM与ComfyUI强强联合,创造出前所未有的可能性。

什么是Pixelle MCP?

简单来说,Pixelle MCP是一个基于MCP协议的AIGC方案,它最大的特点是能够零代码将ComfyUI工作流无缝转化为MCP Tool,让大语言模型(LLM)与ComfyUI协同工作。这意味着,即使你不是编程高手,也能轻松创建和使用各种AI工作流。

想象一下,你只需设计好ComfyUI工作流,系统就能自动将其转化为LLM可以理解和调用的工具,无需编写任何额外代码。这就是Pixelle MCP带来的革命性体验。

Pixelle MCP工作流程

为什么你需要了解Pixelle MCP?

在当前的AI生态中,我们面临着几个关键挑战:

  1. 工具割裂:文本、图像、声音、视频等不同模态的AI工具往往各自为政
  2. 使用门槛高:即使有了ComfyUI这样的可视化工具,与LLM集成仍然需要大量开发工作
  3. 工作流复用困难:创建好的工作流难以在不同场景中灵活应用

Pixelle MCP正是为了解决这些问题而生。它实现了TISV(Text、Image、Sound/Speech、Video)全模态的互转和生成,让不同类型的AI能力可以无缝协作。

项目架构:三个核心组件

Pixelle MCP由三个主要部分组成,每个部分都有其独特功能:

组件 作用 优势
mcp-base 基础服务,提供文件存储和共用服务能力 为整个系统提供稳定可靠的基础支撑
mcp-client MCP客户端,基于Chainlit构建的Web界面 提供直观易用的用户交互体验
mcp-server MCP服务端,提供各种AIGC工具和服务 作为核心引擎,连接LLM与ComfyUI工作流

这种模块化设计让Pixelle MCP具备了极高的灵活性——你可以单独部署Server端仅提供MCP Server,或单独部署Client端仅提供MCP Client,也可以联合部署,完全根据你的需求定制。

Pixelle MCP架构图

五大核心功能:为什么它如此特别

1. 全模态支持:打破AI应用的边界

Pixelle MCP支持TISV(Text、Image、Sound/Speech、Video)全模态的互转和生成。这意味着:

  • 你可以将文字描述转换为图像(文生图)
  • 将图像转换为视频(图生视频)
  • 甚至可以将文本转换为语音,再将语音转换为视频

这种全模态支持让创意工作不再受限于单一媒介,为内容创作者打开了全新的可能性。

2. 零代码开发:工作流即工具

这是Pixelle MCP最具革命性的特点。传统的AI工作流集成需要大量编码工作,而Pixelle MCP实现了”Workflow即MCP Tool”的方案:

  1. 在ComfyUI中设计你的工作流
  2. 按照特定规范标记参数
  3. 导出为API格式
  4. 系统自动将其转化为LLM可调用的工具

无需编写任何额外代码,就能让LLM理解和使用你的工作流。这大大降低了AI应用开发的门槛。

3. ComfyUI生态无缝集成

Pixelle MCP的Server端底层基于ComfyUI实现,这意味着你可以直接利用ComfyUI庞大的插件生态和工作流库。无论你是使用Stable Diffusion、Wan2.1还是Flux模型,都能在Pixelle MCP中轻松集成。

ComfyUI工作流示例

4. 灵活的部署方式

Pixelle MCP支持多种部署方式,适应不同的使用场景:

  • 独立Server部署:仅需启动mcp-server,为其他系统提供AI能力
  • 独立Client部署:仅需启动mcp-client,连接已有的MCP Server
  • 完整系统部署:同时部署Client和Server,获得完整体验

这种灵活性使Pixelle MCP既适合个人开发者,也适合企业级应用。

5. 统一配置管理

项目采用YAML配置方案,一个配置文件就能管理所有服务。这大大简化了系统配置和维护工作,避免了传统多组件系统中常见的配置混乱问题。

如何开始使用Pixelle MCP?

第一步:安装与配置

1. 克隆源码

git clone https://github.com/AIDC-AI/Pixelle-MCP.git
cd Pixelle-MCP

2. 配置服务

复制并编辑配置文件:

cp config.yml.example config.yml

配置文件包含三个主要部分:基础服务、MCP服务端和MCP客户端。确保完成以下检查:

✅ 已复制config.yml.exampleconfig.yml
✅ 已配置ComfyUI服务地址(确保ComfyUI正在运行)
✅ 已配置至少一个LLM模型(OpenAI或Ollama)
✅ 端口号未被其他服务占用(9001, 9002, 9003)

第二步:添加MCP Tool(可选但推荐)

虽然可以跳过此步骤,但添加MCP Tool将极大扩展你的AI能力。我们默认提供了一套热门工作流:

cp -r mcp-server/workflows/* mcp-server/data/custom_workflows/

重要提示:在拷贝之前,建议先将工作流拖进你的ComfyUI画布试运行,确保后续调用过程中能够顺利执行。

第三步:启动服务

有三种启动方式可选:

1. Docker方式启动(推荐)

docker compose up -d

2. 一键脚本启动

Linux/macOS用户:

# 前台运行
./run.sh

# 或后台运行
./run.sh start --daemon

Windows用户:直接双击根目录下的run.bat脚本

3. 手动启动服务

需要先安装uv环境。

启动基础服务(mcp-base)

cd mcp-base
uv sync
uv run main.py

启动服务端(mcp-server)

cd mcp-server
uv sync
uv run main.py

启动客户端(mcp-client)

cd mcp-client
uv sync
uv run main.py

第四步:访问服务

启动完成后,各服务地址如下:

  • 客户端:🌐 http://localhost:9003 (Chainlit Web UI,默认用户名密码均为dev)
  • 服务端:🗄️ http://localhost:9002/sse (MCP Server)
  • 基础服务:🔧 http://localhost:9001/docs (文件存储和基础API)

如何添加自己的MCP Tool?

添加最简单的MCP Tool:图片高斯模糊

  1. 在ComfyUI中搭建一个实现图片高斯模糊的工作流
  2. LoadImage节点的title改为$image.image!(表示这是一个必填参数)
  3. 导出为API格式文件,并重命名为i_blur.json
  4. 将文件复制到mcp-server/data/custom_workflows/目录
  5. 刷新页面,发送任意图片,即可实现基于LLM的高斯模糊处理

添加复杂MCP Tool:文本生成图像

对于更复杂的工作流,如使用Flux Turbo模型的文本生成图像:

  1. 按照相同步骤创建工作流
  2. 在需要参数化的节点标题中使用特殊语法
  3. 导出为API格式
  4. 复制到工作流目录

关键区别在于工作流本身的复杂度,添加MCP Tool的步骤完全相同。

ComfyUI工作流自定义规范详解

参数定义:如何让LLM理解你的工作流

在ComfyUI中,通过在节点标题中使用特殊语法来定义参数:

$<参数名>.<字段名>[!][:<描述信息>]

例如:

  • $image.image!:输入图片URL → 创建名为image的必填参数
  • $width.width:图片宽度,默认512 → 创建名为width的可选参数

系统会根据节点字段的当前值自动推断参数类型:

  • 整数值(512, 1024)→ int类型
  • 浮点数值(1.5, 3.14)→ float类型
  • 布尔值(true, false)→ bool类型
  • 字符串值 → str类型(默认类型)

输出定义:如何让系统知道结果在哪里

有两种方式定义输出:

  1. 自动识别输出节点:系统会自动识别常见的输出节点,如:

    • SaveImage – 图片保存节点
    • SaveVideo – 视频保存节点
    • SaveAudio – 音频保存节点
    • VHS_SaveVideo – VHS视频保存节点
    • VHS_SaveAudio – VHS音频保存节点
  2. 手动标记输出:在任意节点标题中使用$output.变量名,例如$output.result

工具描述配置(可选但推荐)

添加一个标题为MCP的文本节点,在节点值字段中输入工具的详细描述。这会让LLM更好地理解和使用你的工具。

实用技巧与最佳实践

1. 参数验证

  • 必填参数:标记为必填的参数(有!符号)必须提供
  • 可选参数:标记为可选的参数必须在节点中设置默认值

2. 工作流命名

  • 导出的文件名将作为工具名称,建议使用有意义的英文名称
  • 例如:text_to_image.jsonworkflow1.json更清晰

3. 描述详细

  • 在参数描述中提供详细说明,提升用户体验
  • 例如:$width.width:图片宽度,范围256-1024,默认512

4. 导出格式

  • 必须导出为API格式,不要导出UI格式
  • API格式只包含工作流数据,不含界面布局信息

常见问题解答(FAQ)

Q:Pixelle MCP和普通ComfyUI有什么区别?

A:ComfyUI是一个强大的可视化AI工作流工具,但本身不具备与LLM交互的能力。Pixelle MCP在ComfyUI基础上增加了MCP协议支持,让LLM能够理解和调用ComfyUI工作流,实现”工作流即工具”的体验,无需额外开发。

Q:我需要编程经验才能使用Pixelle MCP吗?

A:不需要!Pixelle MCP的核心优势就是零代码开发。你只需在ComfyUI中设计工作流,按照规范标记参数,系统会自动将其转化为LLM可调用的工具。当然,如果你有编程经验,可以进一步定制和扩展系统。

Q:如何确保我的工作流能被正确识别为MCP Tool?

A:关键在于正确使用参数定义语法和导出为API格式。确保:

  1. 在需要参数化的节点标题中使用$参数名.字段名!语法
  2. 导出为API格式(不是UI格式)
  3. 将文件放在mcp-server/data/custom_workflows/目录
  4. 重启服务或刷新页面

Q:Pixelle MCP支持哪些LLM?

A:项目配置中支持OpenAI和Ollama模型。你可以在config.yml中配置相应的API密钥或服务地址。理论上,只要支持MCP协议的LLM客户端都可以与Pixelle MCP集成。

Q:我的工作流包含多个输出,如何处理?

A:对于包含多个输出的场景,建议使用手动标记输出的方式。在每个需要作为输出的节点标题中添加$output.变量名,例如$output.image$output.metadata。这样LLM就能识别并处理多个输出结果。

Q:如何参与Pixelle MCP社区?

A:项目提供了多种参与方式:

  • 微信交流群:扫描README中的二维码加入
  • Discord社区:同样通过README中的二维码加入
  • 你也可以通过Issues提交问题或功能建议,或通过Pull Request贡献代码

Q:为什么我的工作流导入后无法正常工作?

A:常见原因包括:

  1. 未正确导出为API格式(必须是API格式)
  2. 参数标记不正确(检查语法是否符合$参数名.字段名!
  3. ComfyUI中缺少必要的插件或模型
  4. 配置文件中ComfyUI服务地址不正确

建议先在ComfyUI中单独测试工作流,确认能正常运行后再导入Pixelle MCP。

为什么Pixelle MCP值得关注?

在AI技术快速发展的今天,工具的易用性和互操作性变得越来越重要。Pixelle MCP通过将ComfyUI工作流与MCP协议结合,解决了AI应用开发中的几个关键痛点:

  1. 降低使用门槛:让非程序员也能创建和使用复杂的AI工作流
  2. 提高开发效率:零代码集成工作流,大幅缩短开发周期
  3. 促进生态融合:连接LLM与多模态AI工具,创造新的应用场景
  4. 增强工作流复用:一次创建工作流,可在多种场景中调用

更重要的是,作为一个开源项目,Pixelle MCP鼓励社区共建,不断丰富工作流库和功能。无论你是AI开发者、内容创作者还是技术爱好者,都能在这个生态中找到自己的位置。

结语

Pixelle MCP代表了AI工具发展的一个重要方向:让复杂的技术变得简单可用,让不同的AI能力能够无缝协作。通过”工作流即工具”的理念,它打破了传统AI应用开发的壁垒,为更多人打开了AI创作的大门。

如果你正在寻找一个既能发挥ComfyUI强大能力,又能与LLM无缝协作的解决方案,Pixelle MCP绝对值得一试。从简单的图片处理到复杂的多模态工作流,它都能帮你轻松实现。

现在,不妨按照文中的步骤尝试安装和使用Pixelle MCP,亲身体验AI工作流的便捷与强大。记住,真正的技术价值不在于它有多复杂,而在于它能帮助人们解决什么问题、创造什么价值。