vLLM CLI：高效管理大语言模型服务的命令行工具

如果你经常需要部署、管理大语言模型，可能会遇到这些问题：不知道如何快速启动模型服务、多模型切换时配置繁琐、不清楚服务器运行状态……今天要介绍的vLLM CLI，就是为解决这些问题而生的工具。它基于vLLM框架，提供了交互式和命令行两种使用模式，能帮你轻松搞定模型服务的部署、监控和管理。

什么是vLLM CLI？

vLLM CLI是一款专为大语言模型服务设计的命令行工具，核心功能是让开发者通过简单操作就能启动、管理vLLM服务器。无论你是想在终端里通过菜单直观操作，还是用命令行脚本实现自动化部署，它都能满足需求。

简单来说，它就像一个“大语言模型服务管家”——能自动发现本地模型、支持直接加载HuggingFace Hub的远程模型、保存常用配置作为“ profiles ”、实时监控服务器状态，甚至能在启动失败时帮你查看日志排查问题。

vLLM CLI有哪些核心功能？

如果你正在考虑是否要用它，先看看这些功能是否符合你的需求：

1. 两种使用模式，兼顾灵活与效率

交互式模式：打开后会显示菜单界面，通过键盘导航就能完成模型选择、配置调整、启动服务等操作，适合新手或需要可视化操作的场景。
命令行模式：直接输入命令就能完成任务，比如vllm-cli serve 模型名一键启动服务，适合写脚本自动化部署，或熟悉命令行的用户。

2. 轻松管理模型，本地远程都能⽤

自动扫描本地模型：会帮你找到电脑里已下载的模型，包括HuggingFace缓存目录和你自己配置的文件夹。
直接用远程模型：不需要提前下载，输入HuggingFace Hub的模型名，就能直接加载使用。
支持LoRA适配器：可以选择一个基础模型，再搭配多个LoRA适配器启动服务，灵活调整模型效果（如图1）。

3. 配置文件帮你省时间

内置了4种常用配置文件（profiles），也支持自定义：

标准模式（standard）：默认配置，适合大多数模型和硬件。
MoE优化模式（moe_optimized）：针对混合专家模型（如Qwen）开启专家并行，提升效率。
高吞吐量模式（high_throughput）：最大化请求处理能力，适合需要高并发的场景。
低内存模式（low_memory）：通过FP8量化等设置减少内存占用，适合显存较小的设备。

你也可以保存自己的常用配置，下次直接调用，不用重复调整参数。

4. 实时监控服务器状态

启动服务后，能看到实时的GPU利用率、服务器状态和日志流（如图2），不用再手动查进程、看日志文件。

5. 系统信息一键查看

想知道自己的设备能不能跑某个模型？输入vllm-cli info，就能看到GPU型号、显存、CUDA版本、支持的量化方式等信息（如图3），帮你判断模型兼容性。

6. 贴心的错误处理

如果服务器启动失败，它会自动提示查看日志，并提供日志查看选项（如图4），不用你手动找日志文件位置。

v0.2.2版本有什么新功能？

最新的v0.2.2版本主要更新了这些内容，值得关注：

支持模型清单（models_manifest.json）：可以用JSON文件自定义模型映射，更灵活地管理本地模型。
新增自定义模型部署指南：详细说明如何从自定义目录加载模型，新手也能看懂。
修复bug：解决了从自定义目录加载模型时的问题，优化了界面显示。

如何安装vLLM CLI？

安装前，先确认你的环境符合要求：

操作系统：Linux（目前仅支持Linux）
Python版本：3.11及以上
硬件：推荐带CUDA支持的NVIDIA GPU（暂时不支持AMD GPU，后续可能会增加）
已安装vLLM和PyTorch（需带CUDA支持）

方法1：从PyPI安装（推荐）

打开终端，输入以下命令：

pip install vllm-cli

方法2：从源码构建（适合开发者）

如果想体验最新代码，可按以下步骤操作：

克隆仓库：

git clone https://github.com/Chen-zexi/vllm-cli.git
cd vllm-cli

激活已安装vLLM的环境（重要，避免依赖冲突）。
安装依赖：

pip install -r requirements.txt
pip install hf-model-tool

以开发模式安装（修改代码后无需重新安装）：

pip install -e .

使用前需要知道的重要信息

模型兼容性问题

不同模型、硬件、vLLM版本可能会有兼容性问题，遇到启动失败时不用慌：

先看服务器日志：vLLM会在日志里详细说明错误原因，比如缺依赖、参数不兼容等。
查vLLM官方文档：访问https://docs.vllm.ai/，查看模型的具体要求。
注意模型需求：有些模型需要特定参数（如 quantization 方式）才能运行。

和hf-model-tool的关系

vLLM CLI用了hf-model-tool来管理本地模型，这是一个专门的模型管理工具，能帮你：

扫描HuggingFace缓存和自定义目录里的模型。
显示模型大小、类型、量化方式等信息。
和vLLM CLI共享配置：在hf-model-tool里设置的模型目录，vLLM CLI能直接识别，反之亦然。

如果需要管理模型，可以直接安装并使用它：

pip install --upgrade hf-model-tool  # 已包含在vLLM CLI中，可升级
hf-model-tool  # 启动模型管理工具

如何使用vLLM CLI？

1. 交互式模式：菜单导航，直观操作

输入以下命令启动交互式模式：

vllm-cli

启动后会看到欢迎界面，显示GPU状态和系统概览（如图5），然后可以通过键盘方向键导航菜单，完成各种操作。

常用操作流程：

选择模型：在菜单中进入“模型选择”，能看到本地模型和“HuggingFace Hub远程加载”选项（如图6），选一个即可。
配置服务：可以用内置配置文件，也能自定义参数（如量化方式、并行数等，如图7）。
快速启动：如果之前成功启动过服务，会自动保存配置，下次可以直接“快速启动”（如图8）。
监控服务：启动后能实时查看GPU利用率、日志等信息。

图6：模型选择界面 - 显示本地模型和远程加载选项
图7：自定义配置界面 - 分类显示vLLM参数和自定义选项
图8：快速启动界面 - 显示上次成功配置

2. 命令行模式：适合脚本和自动化

直接输入命令完成操作，常用命令如下：

功能	命令示例
启动模型服务（默认配置）	`vllm-cli serve 模型名`
用指定配置文件启动	`vllm-cli serve 模型名 --profile standard`
自定义参数启动	`vllm-cli serve 模型名 --quantization awq --tensor-parallel-size 2`
列出所有可用模型	`vllm-cli models`
查看系统信息	`vllm-cli info`
查看活跃服务器	`vllm-cli status`
停止指定端口的服务器	`vllm-cli stop --port 8000`

配置文件在哪里？如何自定义？

vLLM CLI的配置文件都存在用户目录下，路径是：

主配置：~/.config/vllm-cli/config.yaml
用户配置文件：~/.config/vllm-cli/user_profiles.json
缓存：~/.config/vllm-cli/cache.json

内置配置文件详解

4种内置配置文件的参数和适用场景如下：

配置文件名	核心参数	适用场景
standard	用vLLM默认设置	大多数模型和硬件，新手首选
moe_optimized	`"enable_expert_parallel": true`	混合专家模型（如Qwen）
high_throughput	最大模型长度8192、GPU内存利用率95%、启用分块预填充等	需要高并发处理请求
low_memory	最大模型长度4096、GPU内存利用率70%、禁用分块预填充、FP8量化	显存较小的设备（如消费级GPU）

如果这些配置不满足需求，可以在交互式模式的“自定义配置”中调整参数，或直接修改user_profiles.json添加自己的配置文件。

常见问题解答（FAQ）

1. 安装时提示“找不到vllm”怎么办？

vLLM CLI依赖vLLM，需要先安装vLLM。建议用以下命令安装带CUDA支持的vLLM：

pip install vllm[cu118]  # 根据你的CUDA版本选择，如cu121

2. 启动服务后，客户端连接不上怎么办？

先检查服务器是否真的启动：用vllm-cli status查看活跃服务器。如果没启动，查看日志（交互式模式会提示）；如果已启动，检查端口是否被占用，或防火墙是否阻止了连接。

3. 可以同时启动多个服务器吗？

可以，但需要指定不同的端口（默认8000），比如：

vllm-cli serve 模型1 --port 8000
vllm-cli serve 模型2 --port 8001

4. 如何添加自定义模型目录？

有两种方法：

在交互式模式中进入“模型目录管理”（如图9），添加目录。
用hf-model-tool添加：启动hf-model-tool，在设置中添加目录，vLLM CLI会自动识别。

5. 支持CPU运行吗？

vLLM主要优化GPU运行，虽然理论上可以用CPU，但性能会很差，不推荐。vLLM CLI也主要针对GPU环境设计。

6. 模型列表里看不到我的本地模型怎么办？

可能是模型目录没被扫描到。检查：

模型是否在HuggingFace默认缓存目录（通常是~/.cache/huggingface/hub）。
是否添加了自定义目录（参考问题4）。
模型格式是否正确（需符合HuggingFace格式）。

未来会支持哪些功能？

目前开发团队计划添加这些功能：

AMD GPU支持（基于ROCm），让没有NVIDIA GPU的用户也能使用。
支持更多本地模型格式，包括Oracle Cloud Infrastructure Registry、Ollama等格式。

如果你有其他需求，可以在项目GitHub仓库提交issue或PR参与贡献。

总结

vLLM CLI是一款能帮你简化大语言模型服务管理的工具，无论是新手想通过界面快速启动模型，还是开发者需要自动化部署，它都能提供便利。通过内置的配置文件、模型管理和监控功能，能减少重复操作，让你更专注于模型本身的应用。

如果你经常和大语言模型打交道，不妨试试vLLM CLI，可能会节省不少时间。安装方法和基础使用都很简单，按照文中的步骤操作，很快就能上手。

vLLM CLI重磅升级！一键部署大语言模型的终极指南