站点图标 高效码农

MiMo-VL-7B震撼开源:7B参数吊打72B,你的本地视觉AI神器来了!

小米开源 MiMo-VL-7B 系列视觉大模型:一张图看懂它究竟强在哪

“我想让电脑像人一样看图说话,又希望它别太烧钱,最好还能装在自己服务器里。”
如果你有类似的念头,小米刚放出的 MiMo-VL-7B 系列模型或许正是答案。本文用问答形式,把 50 页技术报告拆成 20 分钟可读完的笔记,告诉你它为什么值得试、怎么试、试完了还能怎么改。


1. 先给结论:它到底强不强?

场景 分数 对比对象 备注
大学多学科图文题 MMMU 70.6 7B~72B 开源模型里第一 超过 Qwen2.5-VL-72B
视频理解 Video-MME 70.8 同样领先 2FPS 采样即可
GUI 自动操作 OSWorld-G 56.1 超过专用 UI-TARS 通用模型干专用活
数学推理 OlympiadBench 59.4 超过 72B 量级模型 仅 7B 参数

一句话总结:7B 参数做到了别人 70B+ 的事,还能本地部署。


2. 它由什么组成?三分钟速读架构

MiMo-VL-7B 只有三部分,拆开看很好理解:

  1. 视觉编码器
    直接拿 Qwen2.5-ViT,支持“原分辨率”输入,不压图、不裁边,细节保留完整。
  2. 投影器 MLP
    把图像特征翻译成语言模型能听懂的向量,随机初始化后再训练。
  3. 语言底座 MiMo-7B
    小米自研,36 层、4096 隐维度,主打推理,数学能力突出。
组件 层数 隐维度 备注
ViT 32 1280 支持 4096×28×28 像素
LLM 36 4096 中间层 11008,擅长推理

3. 训练分几步?一张流程图看懂

四阶段训练
阶段 目的 数据量 可训模块 关键数据类型
1 热身 让投影器学会“看图说话” 300B token 仅 MLP 图文对
2 对齐 让 ViT 和 LLM 同频 167B token ViT+MLP 交错图文
3 通用预训练 解锁 OCR、视频、GUI 等全技能 1.4T token 全体 OCR、视频、GUI、合成推理
4 长上下文 SFT 支持 32K token 长图长文 550B token 全体 长文档、长推理链

注:T 代表 1 万亿 token。


4. 数据怎么来的?公开+合成双保险

4.1 图文对

  • 先抓 10 亿级公开图说,去重后用大模型重新写描述,再人工筛一遍。
  • 解决原数据“一句话带过”的粗糙问题,提升细节密度。

4.2 OCR 与定位

  • 普通印刷文字 + 手写、扭曲、模糊场景全覆盖。
  • 每张图给出文字框坐标,模型一次学会“认字+指出在哪”。

4.3 视频

  • 2FPS 抽帧,重写成带时间戳的“事件级”描述。
  • 额外加入“视频摘要”数据,教模型总结剧情、风格、镜头语言。

4.4 GUI 操作

  • 开源手机、网页、桌面截图 100 万张起步。
  • 自研合成引擎:
    • 元素定位:点击“设置”按钮在哪?
    • 指令跟随:把“夜间模式”打开,模型先找按钮再输出动作。

4.5 合成推理链

  • 从公开题库抽题 → 用大模型生成带步骤的解答 → 再让更强模型做“老师批改” → 只留满分答案。
  • 直接灌入预训练,而非传统“先训再微调”,省时间还避免遗忘。

5. 后训练黑科技:MORL 混合强化学习

预训练结束后再上一道“硬菜”——MORL(Mixed On-policy Reinforcement Learning)。

5.1 同时优化四大目标

目标 奖励来源 例子
可验证推理 规则脚本 数学题自动判分
人类偏好 奖励模型 用户点“赞/踩”数据
视觉定位 GIoU 预测框 vs 真框
计数任务 绝对差 图片里有几只猫?

5.2 架构亮点

  • 完全 On-policy:每一步都用最新模型采样,避免“旧数据污染”。
  • Reward-as-a-Service:奖励函数拆成微服务,毫秒级响应,训练不掉速。
  • 无 KL 正则:省掉传统 PPO 的 KL 惩罚,训练更稳。

6. 实战效果如何?逐场景拆解

6.1 通用视觉问答

  • MMMU(大学级多学科):70.6,刷新 7B 档记录。
  • DocVQA(文档问答):95.7,几乎追平 GPT-4o。

6.2 数学推理

数据集 MiMo-VL-7B-RL 72B Qwen2.5-VL 提升
OlympiadBench 59.4 37.2 +22.2
AIME24 67.5 16.7 +50.8

一句话:小模型也能做竞赛题。

6.3 GUI 自动操作

  • ScreenSpot-Pro(高分辨率桌面):41.9 → 领先第二名 12.9 分。
  • OSWorld-G(真实操作系统环境):56.1,超过专门做 UI 的 UI-TARS。

6.4 用户体验

内部 VLM Arena 评分:1131.2,领先前版本 37 分,逼近 Claude 3.7。


7. 安装与推理:一条命令跑起来

环境:Python≥3.9,CUDA≥11.8,显存≈15 GB(7B 模型 int4 量化)

# 1. 拉代码
git clone https://github.com/XiaomiMiMo/MiMo-VL.git
cd MiMo-VL

# 2. 装依赖
pip install -r requirements.txt

# 3. 下载模型(以 RL 版为例)
huggingface-cli download XiaomiMiMo/MiMo-VL-7B-RL-2508 --local-dir ./models/MiMo-VL-7B-RL-2508

# 4. Gradio 体验
python demo/app.py --model_path ./models/MiMo-VL-7B-RL-2508 --port 7860

浏览器打开 http://localhost:7860 即可上传图片或视频提问。


8. 如何“关掉大脑”直接回答?

日常场景有时不需要模型一步步推理,只需结果。官方给出开关:

模式 触发方式 成功率
思考模式 默认 100 %
非思考模式 在问题末尾加 /no_think 99.84 %

示例:
输入:这张发票税额多少? /no_think
输出:直接给出数字,不展示推理链。


9. FAQ:你可能关心的 10 个问题

Q1:7B 模型跑不动怎么办?
A:官方已放出 int4 量化版,单张 4090 即可推理,速度≈20 token/s。

Q2:商用要不要授权?
A:Apache-2.0 许可证,可商用,但需保留版权说明。

Q3:支持中文吗?
A:训练语料中英双语 1:1,中文 OCR、GUI、数学题全部覆盖。

Q4:能不能微调?
A:SFT 版本就是用来二次训练的,官方已给出 LoRA 脚本。

Q5:视频最长支持多久?
A:技术报告里 256 帧上限,约 2 分钟 2FPS,实际可动态抽帧。

Q6:和 GPT-4o 差多远?
A:在 7B 量级里领先,但综合仍落后 GPT-4o 约 5~10 分,胜在可本地化。

Q7:推理链会不会泄露隐私?
A:本地部署无云端回传,推理链只在本地显示。

Q8:能否批量处理 PDF?
A:已集成 PyMuPDF,脚本示例见 examples/batch_pdf.py

Q9:GUI 任务需要额外数据吗?
A:零样本即可,但官方也给出 1 万条合成 GUI 指令供增量训练。

Q10:会出 13B/34B 吗?
A:技术报告未提,社区已发起投票,可关注 GitHub Discussion。


10. 写在最后

MiMo-VL-7B 系列把“小参数、高性能、可本地”三件事同时做到了。
如果你需要一台能看懂图片、视频、界面,还能做数学题的服务器模型,它几乎是现阶段的“开源最优解”。
代码、权重、评估脚本已全部放出,剩下的就是你的场景和想象力。


引用
Xiaomi LLM-Core-Team. “MiMo-VL Technical Report.” arXiv:2506.03569, June 2025.
项目地址:https://github.com/XiaomiMiMo/MiMo-VL

退出移动版