零门槛玩转 GLM-4.5V:从模型到桌面助手的完整实战笔记
“我有一台 Mac、一张图片,也想让 AI 看懂它,还能帮我做 PPT、录屏、聊天,应该怎么做?”
这篇文章把官方文档拆成一串可执行的步骤,并回答你可能遇到的 20 个常见问题。全部信息来自 GLM-V 开源仓库,不含任何外部扩展。
1. GLM-4.5V 是什么?
一句话版本:它是智谱最新开源的「视觉语言大模型」,能同时处理文字、图像、视频、PDF、PPT,并在 42 个公开基准测试里拿到同级别最佳成绩。
1.1 能力速查表
场景 | 它能做什么 | 示例 |
---|---|---|
图像 | 场景理解、物体定位、多图推理 | 上传 10 张旅游照片,让它写一份行程攻略 |
视频 | 分镜解析、事件识别 | 把会议录像拖进去,生成时间轴纪要 |
文档 | 研报信息提取、长文档问答 | 丢一份 60 页 PDF,直接问“第三季度毛利率是多少?” |
GUI 操作 | 识别屏幕图标、辅助办公自动化 | 截图后问“如何把 Excel 转换成柱状图?” |
思考模式 | 开启后先“自言自语”再给出答案,适合复杂问题 | 关闭则秒回,适合简单任务 |
2. 体验它的三种姿势
方式 | 优点 | 适合人群 |
---|---|---|
在线体验 | 打开浏览器就能用 | 想先看看效果 |
桌面助手 | 一键截图、录屏、聊天本地存 | Mac 用户(M1/M2/M3) |
本地部署 | 数据不出内网、可微调 | 开发者 & 企业 |
下面逐一拆解。
3. 最快 3 分钟:在线体验
-
打开 👉chat.z.ai。 -
直接上传图片 / PDF / 视频,或者粘贴文字。 -
右侧开关“思考模式”可开可关,自己对比效果。
FAQ
Q:为什么有时回答很慢?
A:思考模式开启时,模型会先内部推理,长问题可能 10–20 秒。
4. 小白 5 分钟:安装桌面助手(仅 macOS Apple Silicon)
4.1 下载 & 安装
-
进入 👉Hugging Face Space 下载 vlm-helper-1.0.6.dmg
。 -
双击挂载,把 vlm-helper.app
拖到 Applications。 -
关键一步:打开终端,执行 xattr -rd com.apple.quarantine /Applications/vlm-helper.app
这一步解除 macOS 的隔离标记,否则第一次打开会提示“无法验证开发者”。
4.2 界面速览
-
全局快捷键 -
截图:⌥⇧S(区域截图)、⌥⇧F(全屏截图) -
录屏:⌥⇧R(区域录制)、⌥⇧G(全屏录制)
-
-
浮动窗口:在任何应用上方置顶,聊天不遮挡主屏。 -
本地存储:聊天记录存在本地 SQLite,换电脑不跟随,隐私可控。
4.3 第一次对话
-
打开助手,点击左上角“新建对话”。 -
把一张 PNG 拖进去,输入“这张图有哪些颜色占比?” -
等待 3 秒,答案返回,右侧显示颜色占比条形图(纯文本描述)。
5. 开发者 30 分钟:本地部署
以下命令全部来自官方仓库,已在 Ubuntu 22.04 + A100 40G 测试通过。
如果你用昇腾 NPU,请看 👉Modelers 社区文档。
5.1 环境准备
# 基础依赖
pip install -r requirements.txt
# vLLM 最新预览版
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview
5.2 用 vLLM 起服务
vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'
解释:
-
--tensor-parallel-size 4
代表 4 卡并行,单卡可降到 1。 -
--allowed-local-media-path /
允许任意路径文件上传。 -
num_frames: -1
表示视频抽帧不限,显存不足可改成 16。
5.3 用 SGLang 起服务(可选)
python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0
加速提示:
-
追加 --attention-backend fa3 --mm-attention-backend fa3 --enable-torch-compile
可降低显存。 -
设环境变量 SGLANG_VLM_CACHE_SIZE_MB=1024
,减少视频推理时的重复计算。
5.4 调用示例(Python)
import requests, json
url = "http://localhost:8000/v1/chat/completions"
payload = {
"model": "glm-4.5v",
"messages": [
{"role": "user", "content": "What is in this image?"}],
"images": ["file:///absolute/path/to/demo.jpg"]
}
r = requests.post(url, json=payload, timeout=60)
print(r.json()["choices"][0]["message"]["content"])
6. 微调:让模型说“人话”
官方已对接 👉LLaMA-Factory。
你只需要把数据整理成 finetune.json
,格式如下:
[
{
"messages": [
{"role": "user", "content": "<image>描述这张 CT 片"},
{"role": "assistant", "content": "<think>观察左下角…</think><answer>左肺下叶见磨玻璃结节…</answer>"}
],
"images": ["ct/001.jpg"]
}
]
注意:
-
<think>
部分不会被记录到聊天历史,也不会进入微调。 -
GLM-4.5V 不需要 <answer>
标签,可删除。
然后按 LLaMA-Factory 常规流程 llamafactory-cli train
即可。
7. 常见疑问汇总(FAQ)
问题 | 官方答案 |
---|---|
Windows 能用桌面助手吗? | 目前仅支持 macOS Apple Silicon。 |
Intel Mac 怎么办? | 暂时无解,可用本地部署方案。 |
视频最大支持多长? | 取决于显存,A100 40G 实测 10 分钟 1080p 没问题。 |
纯文本问答效果如何? | 官方承认还有提升空间,建议优先多模态任务。 |
如何关闭思考模式? | 在请求里加 "chat_template_kwargs": {"enable_thinking": False} 。 |
输出 HTML 被转义? | 用仓库里的 inference/html_detector.py 套一层修复。 |
可以商用吗? | 遵循官方开源协议,具体看仓库 License。 |
8. 实战案例:用桌面助手做一份周报
-
周一到周四每天截图关键工作界面,保存为 PNG。 -
周五打开助手,新建对话,把 4 张图一次性拖进去。 -
输入:“根据这些截图写一份周报,分点列出每天完成的事项。” -
10 秒后得到 Markdown 格式文本,直接复制到企业微信。
9. 故障排查清单
现象 | 可能原因 | 解决 |
---|---|---|
打不开应用 | 忘记 xattr 命令 |
重新执行即可 |
显存 OOM | 视频帧数太多 | 把 --media-io-kwargs 的 num_frames 改小 |
返回 400 | 路径含中文空格 | 换成英文路径或 URL 编码 |
回答重复 | 思考模式超长 | 关闭思考模式或截断历史 |
10. 总结
-
如果你只想“先试试”:打开 👉chat.z.ai。 -
如果你用 Mac(M 系列):下载桌面助手,5 分钟装好就能截图聊天。 -
如果你要私有化:用 vLLM 或 SGLang,30 分钟起服务,再按 LLaMA-Factory 微调。
GLM-4.5V 把视觉、语言、文档、GUI 操作打包在一个模型里,官方又把调用方式做成了“下载即用”的桌面应用。对开发者,开源代码足够透明;对普通用户,门槛降到“拖文件 + 说话”。下一步,你可以把微调后的模型再挂回桌面助手,打造属于自己的“多模态 Copilot”。