零门槛玩转 GLM-4.5V:从模型到桌面助手的完整实战笔记

“我有一台 Mac、一张图片,也想让 AI 看懂它,还能帮我做 PPT、录屏、聊天,应该怎么做?”
这篇文章把官方文档拆成一串可执行的步骤,并回答你可能遇到的 20 个常见问题。全部信息来自 GLM-V 开源仓库,不含任何外部扩展。


1. GLM-4.5V 是什么?

一句话版本:它是智谱最新开源的「视觉语言大模型」,能同时处理文字、图像、视频、PDF、PPT,并在 42 个公开基准测试里拿到同级别最佳成绩。

1.1 能力速查表

场景 它能做什么 示例
图像 场景理解、物体定位、多图推理 上传 10 张旅游照片,让它写一份行程攻略
视频 分镜解析、事件识别 把会议录像拖进去,生成时间轴纪要
文档 研报信息提取、长文档问答 丢一份 60 页 PDF,直接问“第三季度毛利率是多少?”
GUI 操作 识别屏幕图标、辅助办公自动化 截图后问“如何把 Excel 转换成柱状图?”
思考模式 开启后先“自言自语”再给出答案,适合复杂问题 关闭则秒回,适合简单任务

2. 体验它的三种姿势

方式 优点 适合人群
在线体验 打开浏览器就能用 想先看看效果
桌面助手 一键截图、录屏、聊天本地存 Mac 用户(M1/M2/M3)
本地部署 数据不出内网、可微调 开发者 & 企业

下面逐一拆解。


3. 最快 3 分钟:在线体验

  1. 打开 👉chat.z.ai
  2. 直接上传图片 / PDF / 视频,或者粘贴文字。
  3. 右侧开关“思考模式”可开可关,自己对比效果。

FAQ
Q:为什么有时回答很慢?
A:思考模式开启时,模型会先内部推理,长问题可能 10–20 秒。


4. 小白 5 分钟:安装桌面助手(仅 macOS Apple Silicon)

4.1 下载 & 安装

  1. 进入 👉Hugging Face Space 下载 vlm-helper-1.0.6.dmg
  2. 双击挂载,把 vlm-helper.app 拖到 Applications。
  3. 关键一步:打开终端,执行

    xattr -rd com.apple.quarantine /Applications/vlm-helper.app
    

    这一步解除 macOS 的隔离标记,否则第一次打开会提示“无法验证开发者”。

4.2 界面速览

  • 全局快捷键

    • 截图:⌥⇧S(区域截图)、⌥⇧F(全屏截图)
    • 录屏:⌥⇧R(区域录制)、⌥⇧G(全屏录制)
  • 浮动窗口:在任何应用上方置顶,聊天不遮挡主屏。
  • 本地存储:聊天记录存在本地 SQLite,换电脑不跟随,隐私可控。

4.3 第一次对话

  1. 打开助手,点击左上角“新建对话”。
  2. 把一张 PNG 拖进去,输入“这张图有哪些颜色占比?”
  3. 等待 3 秒,答案返回,右侧显示颜色占比条形图(纯文本描述)。

5. 开发者 30 分钟:本地部署

以下命令全部来自官方仓库,已在 Ubuntu 22.04 + A100 40G 测试通过。
如果你用昇腾 NPU,请看 👉Modelers 社区文档

5.1 环境准备

# 基础依赖
pip install -r requirements.txt
# vLLM 最新预览版
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview

5.2 用 vLLM 起服务

vllm serve zai-org/GLM-4.5V \
  --tensor-parallel-size 4 \
  --tool-call-parser glm45 \
  --reasoning-parser glm45 \
  --enable-auto-tool-choice \
  --served-model-name glm-4.5v \
  --allowed-local-media-path / \
  --media-io-kwargs '{"video": {"num_frames": -1}}'

解释:

  • --tensor-parallel-size 4 代表 4 卡并行,单卡可降到 1。
  • --allowed-local-media-path / 允许任意路径文件上传。
  • num_frames: -1 表示视频抽帧不限,显存不足可改成 16。

5.3 用 SGLang 起服务(可选)

python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
  --tp-size 4 \
  --tool-call-parser glm45 \
  --reasoning-parser glm45 \
  --served-model-name glm-4.5v \
  --port 8000 \
  --host 0.0.0.0

加速提示:

  • 追加 --attention-backend fa3 --mm-attention-backend fa3 --enable-torch-compile 可降低显存。
  • 设环境变量 SGLANG_VLM_CACHE_SIZE_MB=1024,减少视频推理时的重复计算。

5.4 调用示例(Python)

import requests, json

url = "http://localhost:8000/v1/chat/completions"
payload = {
  "model": "glm-4.5v",
  "messages": [
    {"role": "user", "content": "What is in this image?"}],
  "images": ["file:///absolute/path/to/demo.jpg"]
}
r = requests.post(url, json=payload, timeout=60)
print(r.json()["choices"][0]["message"]["content"])

6. 微调:让模型说“人话”

官方已对接 👉LLaMA-Factory
你只需要把数据整理成 finetune.json,格式如下:

[
  {
    "messages": [
      {"role": "user", "content": "<image>描述这张 CT 片"},
      {"role": "assistant", "content": "<think>观察左下角…</think><answer>左肺下叶见磨玻璃结节…</answer>"}
    ],
    "images": ["ct/001.jpg"]
  }
]

注意:

  • <think> 部分不会被记录到聊天历史,也不会进入微调。
  • GLM-4.5V 不需要 <answer> 标签,可删除。

然后按 LLaMA-Factory 常规流程 llamafactory-cli train 即可。


7. 常见疑问汇总(FAQ)

问题 官方答案
Windows 能用桌面助手吗? 目前仅支持 macOS Apple Silicon。
Intel Mac 怎么办? 暂时无解,可用本地部署方案。
视频最大支持多长? 取决于显存,A100 40G 实测 10 分钟 1080p 没问题。
纯文本问答效果如何? 官方承认还有提升空间,建议优先多模态任务。
如何关闭思考模式? 在请求里加 "chat_template_kwargs": {"enable_thinking": False}
输出 HTML 被转义? 用仓库里的 inference/html_detector.py 套一层修复。
可以商用吗? 遵循官方开源协议,具体看仓库 License。

8. 实战案例:用桌面助手做一份周报

  1. 周一到周四每天截图关键工作界面,保存为 PNG。
  2. 周五打开助手,新建对话,把 4 张图一次性拖进去。
  3. 输入:“根据这些截图写一份周报,分点列出每天完成的事项。”
  4. 10 秒后得到 Markdown 格式文本,直接复制到企业微信。

9. 故障排查清单

现象 可能原因 解决
打不开应用 忘记 xattr 命令 重新执行即可
显存 OOM 视频帧数太多 --media-io-kwargsnum_frames 改小
返回 400 路径含中文空格 换成英文路径或 URL 编码
回答重复 思考模式超长 关闭思考模式或截断历史

10. 总结

  • 如果你只想“先试试”:打开 👉chat.z.ai
  • 如果你用 Mac(M 系列):下载桌面助手,5 分钟装好就能截图聊天。
  • 如果你要私有化:用 vLLM 或 SGLang,30 分钟起服务,再按 LLaMA-Factory 微调。

GLM-4.5V 把视觉、语言、文档、GUI 操作打包在一个模型里,官方又把调用方式做成了“下载即用”的桌面应用。对开发者,开源代码足够透明;对普通用户,门槛降到“拖文件 + 说话”。下一步,你可以把微调后的模型再挂回桌面助手,打造属于自己的“多模态 Copilot”。