Pixelle MCP:让AI工作流变得简单而强大
你是否曾经想过,如何让复杂的AI模型和工作流变得像搭积木一样简单?在AI快速发展的今天,很多开发者和创作者都被各种复杂的工具链所困扰。今天,我想和你分享一个真正能解决这个问题的开源项目——Pixelle MCP,一个全模态融合智能体框架,它让LLM与ComfyUI强强联合,创造出前所未有的可能性。
什么是Pixelle MCP?
简单来说,Pixelle MCP是一个基于MCP协议的AIGC方案,它最大的特点是能够零代码将ComfyUI工作流无缝转化为MCP Tool,让大语言模型(LLM)与ComfyUI协同工作。这意味着,即使你不是编程高手,也能轻松创建和使用各种AI工作流。
想象一下,你只需设计好ComfyUI工作流,系统就能自动将其转化为LLM可以理解和调用的工具,无需编写任何额外代码。这就是Pixelle MCP带来的革命性体验。
为什么你需要了解Pixelle MCP?
在当前的AI生态中,我们面临着几个关键挑战:
-
工具割裂:文本、图像、声音、视频等不同模态的AI工具往往各自为政 -
使用门槛高:即使有了ComfyUI这样的可视化工具,与LLM集成仍然需要大量开发工作 -
工作流复用困难:创建好的工作流难以在不同场景中灵活应用
Pixelle MCP正是为了解决这些问题而生。它实现了TISV(Text、Image、Sound/Speech、Video)全模态的互转和生成,让不同类型的AI能力可以无缝协作。
项目架构:三个核心组件
Pixelle MCP由三个主要部分组成,每个部分都有其独特功能:
组件 | 作用 | 优势 |
---|---|---|
mcp-base | 基础服务,提供文件存储和共用服务能力 | 为整个系统提供稳定可靠的基础支撑 |
mcp-client | MCP客户端,基于Chainlit构建的Web界面 | 提供直观易用的用户交互体验 |
mcp-server | MCP服务端,提供各种AIGC工具和服务 | 作为核心引擎,连接LLM与ComfyUI工作流 |
这种模块化设计让Pixelle MCP具备了极高的灵活性——你可以单独部署Server端仅提供MCP Server,或单独部署Client端仅提供MCP Client,也可以联合部署,完全根据你的需求定制。
五大核心功能:为什么它如此特别
1. 全模态支持:打破AI应用的边界
Pixelle MCP支持TISV(Text、Image、Sound/Speech、Video)全模态的互转和生成。这意味着:
-
你可以将文字描述转换为图像(文生图) -
将图像转换为视频(图生视频) -
甚至可以将文本转换为语音,再将语音转换为视频
这种全模态支持让创意工作不再受限于单一媒介,为内容创作者打开了全新的可能性。
2. 零代码开发:工作流即工具
这是Pixelle MCP最具革命性的特点。传统的AI工作流集成需要大量编码工作,而Pixelle MCP实现了”Workflow即MCP Tool”的方案:
-
在ComfyUI中设计你的工作流 -
按照特定规范标记参数 -
导出为API格式 -
系统自动将其转化为LLM可调用的工具
无需编写任何额外代码,就能让LLM理解和使用你的工作流。这大大降低了AI应用开发的门槛。
3. ComfyUI生态无缝集成
Pixelle MCP的Server端底层基于ComfyUI实现,这意味着你可以直接利用ComfyUI庞大的插件生态和工作流库。无论你是使用Stable Diffusion、Wan2.1还是Flux模型,都能在Pixelle MCP中轻松集成。
4. 灵活的部署方式
Pixelle MCP支持多种部署方式,适应不同的使用场景:
-
独立Server部署:仅需启动mcp-server,为其他系统提供AI能力 -
独立Client部署:仅需启动mcp-client,连接已有的MCP Server -
完整系统部署:同时部署Client和Server,获得完整体验
这种灵活性使Pixelle MCP既适合个人开发者,也适合企业级应用。
5. 统一配置管理
项目采用YAML配置方案,一个配置文件就能管理所有服务。这大大简化了系统配置和维护工作,避免了传统多组件系统中常见的配置混乱问题。
如何开始使用Pixelle MCP?
第一步:安装与配置
1. 克隆源码
git clone https://github.com/AIDC-AI/Pixelle-MCP.git
cd Pixelle-MCP
2. 配置服务
复制并编辑配置文件:
cp config.yml.example config.yml
配置文件包含三个主要部分:基础服务、MCP服务端和MCP客户端。确保完成以下检查:
✅ 已复制config.yml.example
为config.yml
✅ 已配置ComfyUI服务地址(确保ComfyUI正在运行)
✅ 已配置至少一个LLM模型(OpenAI或Ollama)
✅ 端口号未被其他服务占用(9001, 9002, 9003)
第二步:添加MCP Tool(可选但推荐)
虽然可以跳过此步骤,但添加MCP Tool将极大扩展你的AI能力。我们默认提供了一套热门工作流:
cp -r mcp-server/workflows/* mcp-server/data/custom_workflows/
重要提示:在拷贝之前,建议先将工作流拖进你的ComfyUI画布试运行,确保后续调用过程中能够顺利执行。
第三步:启动服务
有三种启动方式可选:
1. Docker方式启动(推荐)
docker compose up -d
2. 一键脚本启动
Linux/macOS用户:
# 前台运行
./run.sh
# 或后台运行
./run.sh start --daemon
Windows用户:直接双击根目录下的run.bat
脚本
3. 手动启动服务
需要先安装uv环境。
启动基础服务(mcp-base):
cd mcp-base
uv sync
uv run main.py
启动服务端(mcp-server):
cd mcp-server
uv sync
uv run main.py
启动客户端(mcp-client):
cd mcp-client
uv sync
uv run main.py
第四步:访问服务
启动完成后,各服务地址如下:
-
客户端:🌐 http://localhost:9003 (Chainlit Web UI,默认用户名密码均为 dev
) -
服务端:🗄️ http://localhost:9002/sse (MCP Server) -
基础服务:🔧 http://localhost:9001/docs (文件存储和基础API)
如何添加自己的MCP Tool?
添加最简单的MCP Tool:图片高斯模糊
-
在ComfyUI中搭建一个实现图片高斯模糊的工作流 -
将 LoadImage
节点的title改为$image.image!
(表示这是一个必填参数) -
导出为API格式文件,并重命名为 i_blur.json
-
将文件复制到 mcp-server/data/custom_workflows/
目录 -
刷新页面,发送任意图片,即可实现基于LLM的高斯模糊处理
添加复杂MCP Tool:文本生成图像
对于更复杂的工作流,如使用Flux Turbo模型的文本生成图像:
-
按照相同步骤创建工作流 -
在需要参数化的节点标题中使用特殊语法 -
导出为API格式 -
复制到工作流目录
关键区别在于工作流本身的复杂度,添加MCP Tool的步骤完全相同。
ComfyUI工作流自定义规范详解
参数定义:如何让LLM理解你的工作流
在ComfyUI中,通过在节点标题中使用特殊语法来定义参数:
$<参数名>.<字段名>[!][:<描述信息>]
例如:
-
$image.image!:输入图片URL
→ 创建名为image
的必填参数 -
$width.width:图片宽度,默认512
→ 创建名为width
的可选参数
系统会根据节点字段的当前值自动推断参数类型:
-
整数值(512, 1024)→ int类型 -
浮点数值(1.5, 3.14)→ float类型 -
布尔值(true, false)→ bool类型 -
字符串值 → str类型(默认类型)
输出定义:如何让系统知道结果在哪里
有两种方式定义输出:
-
自动识别输出节点:系统会自动识别常见的输出节点,如:
-
SaveImage
– 图片保存节点 -
SaveVideo
– 视频保存节点 -
SaveAudio
– 音频保存节点 -
VHS_SaveVideo
– VHS视频保存节点 -
VHS_SaveAudio
– VHS音频保存节点
-
-
手动标记输出:在任意节点标题中使用
$output.变量名
,例如$output.result
工具描述配置(可选但推荐)
添加一个标题为MCP
的文本节点,在节点值字段中输入工具的详细描述。这会让LLM更好地理解和使用你的工具。
实用技巧与最佳实践
1. 参数验证
-
必填参数:标记为必填的参数(有!符号)必须提供 -
可选参数:标记为可选的参数必须在节点中设置默认值
2. 工作流命名
-
导出的文件名将作为工具名称,建议使用有意义的英文名称 -
例如: text_to_image.json
比workflow1.json
更清晰
3. 描述详细
-
在参数描述中提供详细说明,提升用户体验 -
例如: $width.width:图片宽度,范围256-1024,默认512
4. 导出格式
-
必须导出为API格式,不要导出UI格式 -
API格式只包含工作流数据,不含界面布局信息
常见问题解答(FAQ)
Q:Pixelle MCP和普通ComfyUI有什么区别?
A:ComfyUI是一个强大的可视化AI工作流工具,但本身不具备与LLM交互的能力。Pixelle MCP在ComfyUI基础上增加了MCP协议支持,让LLM能够理解和调用ComfyUI工作流,实现”工作流即工具”的体验,无需额外开发。
Q:我需要编程经验才能使用Pixelle MCP吗?
A:不需要!Pixelle MCP的核心优势就是零代码开发。你只需在ComfyUI中设计工作流,按照规范标记参数,系统会自动将其转化为LLM可调用的工具。当然,如果你有编程经验,可以进一步定制和扩展系统。
Q:如何确保我的工作流能被正确识别为MCP Tool?
A:关键在于正确使用参数定义语法和导出为API格式。确保:
-
在需要参数化的节点标题中使用 $参数名.字段名!
语法 -
导出为API格式(不是UI格式) -
将文件放在 mcp-server/data/custom_workflows/
目录 -
重启服务或刷新页面
Q:Pixelle MCP支持哪些LLM?
A:项目配置中支持OpenAI和Ollama模型。你可以在config.yml
中配置相应的API密钥或服务地址。理论上,只要支持MCP协议的LLM客户端都可以与Pixelle MCP集成。
Q:我的工作流包含多个输出,如何处理?
A:对于包含多个输出的场景,建议使用手动标记输出的方式。在每个需要作为输出的节点标题中添加$output.变量名
,例如$output.image
和$output.metadata
。这样LLM就能识别并处理多个输出结果。
Q:如何参与Pixelle MCP社区?
A:项目提供了多种参与方式:
-
微信交流群:扫描README中的二维码加入 -
Discord社区:同样通过README中的二维码加入 -
你也可以通过Issues提交问题或功能建议,或通过Pull Request贡献代码
Q:为什么我的工作流导入后无法正常工作?
A:常见原因包括:
-
未正确导出为API格式(必须是API格式) -
参数标记不正确(检查语法是否符合 $参数名.字段名!
) -
ComfyUI中缺少必要的插件或模型 -
配置文件中ComfyUI服务地址不正确
建议先在ComfyUI中单独测试工作流,确认能正常运行后再导入Pixelle MCP。
为什么Pixelle MCP值得关注?
在AI技术快速发展的今天,工具的易用性和互操作性变得越来越重要。Pixelle MCP通过将ComfyUI工作流与MCP协议结合,解决了AI应用开发中的几个关键痛点:
-
降低使用门槛:让非程序员也能创建和使用复杂的AI工作流 -
提高开发效率:零代码集成工作流,大幅缩短开发周期 -
促进生态融合:连接LLM与多模态AI工具,创造新的应用场景 -
增强工作流复用:一次创建工作流,可在多种场景中调用
更重要的是,作为一个开源项目,Pixelle MCP鼓励社区共建,不断丰富工作流库和功能。无论你是AI开发者、内容创作者还是技术爱好者,都能在这个生态中找到自己的位置。
结语
Pixelle MCP代表了AI工具发展的一个重要方向:让复杂的技术变得简单可用,让不同的AI能力能够无缝协作。通过”工作流即工具”的理念,它打破了传统AI应用开发的壁垒,为更多人打开了AI创作的大门。
如果你正在寻找一个既能发挥ComfyUI强大能力,又能与LLM无缝协作的解决方案,Pixelle MCP绝对值得一试。从简单的图片处理到复杂的多模态工作流,它都能帮你轻松实现。
现在,不妨按照文中的步骤尝试安装和使用Pixelle MCP,亲身体验AI工作流的便捷与强大。记住,真正的技术价值不在于它有多复杂,而在于它能帮助人们解决什么问题、创造什么价值。