小米开源 MiMo-VL-7B 系列视觉大模型:一张图看懂它究竟强在哪
“我想让电脑像人一样看图说话,又希望它别太烧钱,最好还能装在自己服务器里。”
如果你有类似的念头,小米刚放出的 MiMo-VL-7B 系列模型或许正是答案。本文用问答形式,把 50 页技术报告拆成 20 分钟可读完的笔记,告诉你它为什么值得试、怎么试、试完了还能怎么改。
1. 先给结论:它到底强不强?
场景 | 分数 | 对比对象 | 备注 |
---|---|---|---|
大学多学科图文题 MMMU | 70.6 | 7B~72B 开源模型里第一 | 超过 Qwen2.5-VL-72B |
视频理解 Video-MME | 70.8 | 同样领先 | 2FPS 采样即可 |
GUI 自动操作 OSWorld-G | 56.1 | 超过专用 UI-TARS | 通用模型干专用活 |
数学推理 OlympiadBench | 59.4 | 超过 72B 量级模型 | 仅 7B 参数 |
一句话总结:7B 参数做到了别人 70B+ 的事,还能本地部署。
2. 它由什么组成?三分钟速读架构
MiMo-VL-7B 只有三部分,拆开看很好理解:
-
视觉编码器
直接拿 Qwen2.5-ViT,支持“原分辨率”输入,不压图、不裁边,细节保留完整。 -
投影器 MLP
把图像特征翻译成语言模型能听懂的向量,随机初始化后再训练。 -
语言底座 MiMo-7B
小米自研,36 层、4096 隐维度,主打推理,数学能力突出。
组件 | 层数 | 隐维度 | 备注 |
---|---|---|---|
ViT | 32 | 1280 | 支持 4096×28×28 像素 |
LLM | 36 | 4096 | 中间层 11008,擅长推理 |
3. 训练分几步?一张流程图看懂

阶段 | 目的 | 数据量 | 可训模块 | 关键数据类型 |
---|---|---|---|---|
1 热身 | 让投影器学会“看图说话” | 300B token | 仅 MLP | 图文对 |
2 对齐 | 让 ViT 和 LLM 同频 | 167B token | ViT+MLP | 交错图文 |
3 通用预训练 | 解锁 OCR、视频、GUI 等全技能 | 1.4T token | 全体 | OCR、视频、GUI、合成推理 |
4 长上下文 SFT | 支持 32K token 长图长文 | 550B token | 全体 | 长文档、长推理链 |
注:T 代表 1 万亿 token。
4. 数据怎么来的?公开+合成双保险
4.1 图文对
-
先抓 10 亿级公开图说,去重后用大模型重新写描述,再人工筛一遍。 -
解决原数据“一句话带过”的粗糙问题,提升细节密度。
4.2 OCR 与定位
-
普通印刷文字 + 手写、扭曲、模糊场景全覆盖。 -
每张图给出文字框坐标,模型一次学会“认字+指出在哪”。
4.3 视频
-
2FPS 抽帧,重写成带时间戳的“事件级”描述。 -
额外加入“视频摘要”数据,教模型总结剧情、风格、镜头语言。
4.4 GUI 操作
-
开源手机、网页、桌面截图 100 万张起步。 -
自研合成引擎: -
元素定位:点击“设置”按钮在哪? -
指令跟随:把“夜间模式”打开,模型先找按钮再输出动作。
-
4.5 合成推理链
-
从公开题库抽题 → 用大模型生成带步骤的解答 → 再让更强模型做“老师批改” → 只留满分答案。 -
直接灌入预训练,而非传统“先训再微调”,省时间还避免遗忘。
5. 后训练黑科技:MORL 混合强化学习
预训练结束后再上一道“硬菜”——MORL(Mixed On-policy Reinforcement Learning)。
5.1 同时优化四大目标
目标 | 奖励来源 | 例子 |
---|---|---|
可验证推理 | 规则脚本 | 数学题自动判分 |
人类偏好 | 奖励模型 | 用户点“赞/踩”数据 |
视觉定位 | GIoU | 预测框 vs 真框 |
计数任务 | 绝对差 | 图片里有几只猫? |
5.2 架构亮点
-
完全 On-policy:每一步都用最新模型采样,避免“旧数据污染”。 -
Reward-as-a-Service:奖励函数拆成微服务,毫秒级响应,训练不掉速。 -
无 KL 正则:省掉传统 PPO 的 KL 惩罚,训练更稳。
6. 实战效果如何?逐场景拆解
6.1 通用视觉问答
-
MMMU(大学级多学科):70.6,刷新 7B 档记录。 -
DocVQA(文档问答):95.7,几乎追平 GPT-4o。
6.2 数学推理
数据集 | MiMo-VL-7B-RL | 72B Qwen2.5-VL | 提升 |
---|---|---|---|
OlympiadBench | 59.4 | 37.2 | +22.2 |
AIME24 | 67.5 | 16.7 | +50.8 |
一句话:小模型也能做竞赛题。
6.3 GUI 自动操作
-
ScreenSpot-Pro(高分辨率桌面):41.9 → 领先第二名 12.9 分。 -
OSWorld-G(真实操作系统环境):56.1,超过专门做 UI 的 UI-TARS。
6.4 用户体验
内部 VLM Arena 评分:1131.2,领先前版本 37 分,逼近 Claude 3.7。
7. 安装与推理:一条命令跑起来
环境:Python≥3.9,CUDA≥11.8,显存≈15 GB(7B 模型 int4 量化)
# 1. 拉代码
git clone https://github.com/XiaomiMiMo/MiMo-VL.git
cd MiMo-VL
# 2. 装依赖
pip install -r requirements.txt
# 3. 下载模型(以 RL 版为例)
huggingface-cli download XiaomiMiMo/MiMo-VL-7B-RL-2508 --local-dir ./models/MiMo-VL-7B-RL-2508
# 4. Gradio 体验
python demo/app.py --model_path ./models/MiMo-VL-7B-RL-2508 --port 7860
浏览器打开 http://localhost:7860
即可上传图片或视频提问。
8. 如何“关掉大脑”直接回答?
日常场景有时不需要模型一步步推理,只需结果。官方给出开关:
模式 | 触发方式 | 成功率 |
---|---|---|
思考模式 | 默认 | 100 % |
非思考模式 | 在问题末尾加 /no_think |
99.84 % |
示例:
输入:这张发票税额多少? /no_think
输出:直接给出数字,不展示推理链。
9. FAQ:你可能关心的 10 个问题
Q1:7B 模型跑不动怎么办?
A:官方已放出 int4 量化版,单张 4090 即可推理,速度≈20 token/s。
Q2:商用要不要授权?
A:Apache-2.0 许可证,可商用,但需保留版权说明。
Q3:支持中文吗?
A:训练语料中英双语 1:1,中文 OCR、GUI、数学题全部覆盖。
Q4:能不能微调?
A:SFT 版本就是用来二次训练的,官方已给出 LoRA 脚本。
Q5:视频最长支持多久?
A:技术报告里 256 帧上限,约 2 分钟 2FPS,实际可动态抽帧。
Q6:和 GPT-4o 差多远?
A:在 7B 量级里领先,但综合仍落后 GPT-4o 约 5~10 分,胜在可本地化。
Q7:推理链会不会泄露隐私?
A:本地部署无云端回传,推理链只在本地显示。
Q8:能否批量处理 PDF?
A:已集成 PyMuPDF,脚本示例见 examples/batch_pdf.py
。
Q9:GUI 任务需要额外数据吗?
A:零样本即可,但官方也给出 1 万条合成 GUI 指令供增量训练。
Q10:会出 13B/34B 吗?
A:技术报告未提,社区已发起投票,可关注 GitHub Discussion。
10. 写在最后
MiMo-VL-7B 系列把“小参数、高性能、可本地”三件事同时做到了。
如果你需要一台能看懂图片、视频、界面,还能做数学题的服务器模型,它几乎是现阶段的“开源最优解”。
代码、权重、评估脚本已全部放出,剩下的就是你的场景和想象力。
引用
Xiaomi LLM-Core-Team. “MiMo-VL Technical Report.” arXiv:2506.03569, June 2025.
项目地址:https://github.com/XiaomiMiMo/MiMo-VL