小米开源 MiMo-VL-7B 系列视觉大模型：一张图看懂它究竟强在哪

“我想让电脑像人一样看图说话，又希望它别太烧钱，最好还能装在自己服务器里。”
如果你有类似的念头，小米刚放出的 MiMo-VL-7B 系列模型或许正是答案。本文用问答形式，把 50 页技术报告拆成 20 分钟可读完的笔记，告诉你它为什么值得试、怎么试、试完了还能怎么改。

1. 先给结论：它到底强不强？

场景	分数	对比对象	备注
大学多学科图文题 MMMU	70.6	7B~72B 开源模型里第一	超过 Qwen2.5-VL-72B
视频理解 Video-MME	70.8	同样领先	2FPS 采样即可
GUI 自动操作 OSWorld-G	56.1	超过专用 UI-TARS	通用模型干专用活
数学推理 OlympiadBench	59.4	超过 72B 量级模型	仅 7B 参数

一句话总结：7B 参数做到了别人 70B+ 的事，还能本地部署。

2. 它由什么组成？三分钟速读架构

MiMo-VL-7B 只有三部分，拆开看很好理解：

视觉编码器
直接拿 Qwen2.5-ViT，支持“原分辨率”输入，不压图、不裁边，细节保留完整。
投影器 MLP
把图像特征翻译成语言模型能听懂的向量，随机初始化后再训练。
语言底座 MiMo-7B
小米自研，36 层、4096 隐维度，主打推理，数学能力突出。

组件	层数	隐维度	备注
ViT	32	1280	支持 4096×28×28 像素
LLM	36	4096	中间层 11008，擅长推理

3. 训练分几步？一张流程图看懂

阶段	目的	数据量	可训模块	关键数据类型
1 热身	让投影器学会“看图说话”	300B token	仅 MLP	图文对
2 对齐	让 ViT 和 LLM 同频	167B token	ViT+MLP	交错图文
3 通用预训练	解锁 OCR、视频、GUI 等全技能	1.4T token	全体	OCR、视频、GUI、合成推理
4 长上下文 SFT	支持 32K token 长图长文	550B token	全体	长文档、长推理链

注：T 代表 1 万亿 token。

4. 数据怎么来的？公开+合成双保险

4.1 图文对

先抓 10 亿级公开图说，去重后用大模型重新写描述，再人工筛一遍。
解决原数据“一句话带过”的粗糙问题，提升细节密度。

4.2 OCR 与定位

普通印刷文字 + 手写、扭曲、模糊场景全覆盖。
每张图给出文字框坐标，模型一次学会“认字+指出在哪”。

4.3 视频

2FPS 抽帧，重写成带时间戳的“事件级”描述。
额外加入“视频摘要”数据，教模型总结剧情、风格、镜头语言。

4.4 GUI 操作

开源手机、网页、桌面截图 100 万张起步。
自研合成引擎：
- 元素定位：点击“设置”按钮在哪？
- 指令跟随：把“夜间模式”打开，模型先找按钮再输出动作。

4.5 合成推理链

从公开题库抽题 → 用大模型生成带步骤的解答 → 再让更强模型做“老师批改” → 只留满分答案。
直接灌入预训练，而非传统“先训再微调”，省时间还避免遗忘。

5. 后训练黑科技：MORL 混合强化学习

预训练结束后再上一道“硬菜”——MORL（Mixed On-policy Reinforcement Learning）。

5.1 同时优化四大目标

目标	奖励来源	例子
可验证推理	规则脚本	数学题自动判分
人类偏好	奖励模型	用户点“赞/踩”数据
视觉定位	GIoU	预测框 vs 真框
计数任务	绝对差	图片里有几只猫？

5.2 架构亮点

完全 On-policy：每一步都用最新模型采样，避免“旧数据污染”。
Reward-as-a-Service：奖励函数拆成微服务，毫秒级响应，训练不掉速。
无 KL 正则：省掉传统 PPO 的 KL 惩罚，训练更稳。

6. 实战效果如何？逐场景拆解

6.1 通用视觉问答

MMMU（大学级多学科）：70.6，刷新 7B 档记录。
DocVQA（文档问答）：95.7，几乎追平 GPT-4o。

6.2 数学推理

数据集	MiMo-VL-7B-RL	72B Qwen2.5-VL	提升
OlympiadBench	59.4	37.2	+22.2
AIME24	67.5	16.7	+50.8

一句话：小模型也能做竞赛题。

6.3 GUI 自动操作

ScreenSpot-Pro（高分辨率桌面）：41.9 → 领先第二名 12.9 分。
OSWorld-G（真实操作系统环境）：56.1，超过专门做 UI 的 UI-TARS。

6.4 用户体验

内部 VLM Arena 评分：1131.2，领先前版本 37 分，逼近 Claude 3.7。

7. 安装与推理：一条命令跑起来

环境：Python≥3.9，CUDA≥11.8，显存≈15 GB（7B 模型 int4 量化）

# 1. 拉代码
git clone https://github.com/XiaomiMiMo/MiMo-VL.git
cd MiMo-VL

# 2. 装依赖
pip install -r requirements.txt

# 3. 下载模型（以 RL 版为例）
huggingface-cli download XiaomiMiMo/MiMo-VL-7B-RL-2508 --local-dir ./models/MiMo-VL-7B-RL-2508

# 4. Gradio 体验
python demo/app.py --model_path ./models/MiMo-VL-7B-RL-2508 --port 7860

浏览器打开 http://localhost:7860 即可上传图片或视频提问。

8. 如何“关掉大脑”直接回答？

日常场景有时不需要模型一步步推理，只需结果。官方给出开关：

模式	触发方式	成功率
思考模式	默认	100 %
非思考模式	在问题末尾加 `/no_think`	99.84 %

示例：
输入：这张发票税额多少？ /no_think
输出：直接给出数字，不展示推理链。

9. FAQ：你可能关心的 10 个问题

Q1：7B 模型跑不动怎么办？
A：官方已放出 int4 量化版，单张 4090 即可推理，速度≈20 token/s。

Q2：商用要不要授权？
A：Apache-2.0 许可证，可商用，但需保留版权说明。

Q3：支持中文吗？
A：训练语料中英双语 1:1，中文 OCR、GUI、数学题全部覆盖。

Q4：能不能微调？
A：SFT 版本就是用来二次训练的，官方已给出 LoRA 脚本。

Q5：视频最长支持多久？
A：技术报告里 256 帧上限，约 2 分钟 2FPS，实际可动态抽帧。

Q6：和 GPT-4o 差多远？
A：在 7B 量级里领先，但综合仍落后 GPT-4o 约 5~10 分，胜在可本地化。

Q7：推理链会不会泄露隐私？
A：本地部署无云端回传，推理链只在本地显示。

Q8：能否批量处理 PDF？
A：已集成 PyMuPDF，脚本示例见 examples/batch_pdf.py。

Q9：GUI 任务需要额外数据吗？
A：零样本即可，但官方也给出 1 万条合成 GUI 指令供增量训练。

Q10：会出 13B/34B 吗？
A：技术报告未提，社区已发起投票，可关注 GitHub Discussion。

10. 写在最后

MiMo-VL-7B 系列把“小参数、高性能、可本地”三件事同时做到了。
如果你需要一台能看懂图片、视频、界面，还能做数学题的服务器模型，它几乎是现阶段的“开源最优解”。
代码、权重、评估脚本已全部放出，剩下的就是你的场景和想象力。

引用
Xiaomi LLM-Core-Team. “MiMo-VL Technical Report.” arXiv:2506.03569, June 2025.
项目地址：https://github.com/XiaomiMiMo/MiMo-VL

MiMo-VL-7B震撼开源：7B参数吊打72B，你的本地视觉AI神器来了！