把 256 K 超长视频塞进“小”模型:Qwen3-VL 技术报告完全导读
适合谁读:
做 CV/NLP 的研究生、工程师,想快速判断 Qwen3-VL 能不能直接拿来用 产品经理/技术决策者,想知道“256 K 上下文”“思考模式”“MoE”到底对业务意味着什么 任何对“看得懂图、读得懂书、算得出题”的大模型感兴趣的人
目录
-
一句话总结:Qwen3-VL 做了什么? -
模型全家福:2 B~235 B 总有一款适合你 -
三大架构升级:MRoPE、DeepStack、时间戳 -
训练流水线四连跳:对齐→预训练→长上下文→超长上下文 -
数据配方大曝光:从 39 种语言 OCR 到 3D grounding -
后训练三板斧:SFT → 蒸馏 → 强化学习 -
Thinking 模式:让模型“边想边写” -
实战结果:50+ 基准测试一次看懂 -
部署与推理:vLLM/SGLang 怎么选? -
常见问题(FAQ) -
结论与展望
1. 一句话总结:Qwen3-VL 做了什么?
Qwen3-VL 把“视觉+语言”的上下文窗口一口气拉到 256 K token(≈ 2 小时视频或 500 页 PDF),同时保留纯文本能力。
它用 DeepStack 把 ViT 多层特征塞进大模型,用 Interleaved-MRoPE 解决长视频位置编码失衡,再用 文本时间戳 让视频帧对齐到秒级。
最终效果:在 50 多个基准里,235 B-MoE 版本 与 Gemini-2.5-Pro、GPT-5 同档竞技,8 B 小模型 就能打平上一代 72 B。
2. 模型全家福:2 B~235 B 总有一款适合你
| 系列 | 参数量(总/激活) | 定位 | 上下文 | 典型场景 |
|---|---|---|---|---|
| Dense | 2 B / 2 B | 端侧、手机 | 256 K | 离线 OCR、快速截图问答 |
| Dense | 4 B / 4 B | 笔记本 | 256 K | 论文图表+公式推理 |
| Dense | 8 B / 8 B | 单卡 A10 | 256 K | 长文档、1 小时视频摘要 |
| Dense | 32 B / 32 B | 单卡 A100 | 256 K | 专业图表、多图 VQA |
| MoE | 30 B-A3B / 3 B* | 低延迟服务 | 256 K | 网页助手、GUI 代理 |
| MoE | 235 B-A22B / 22 B* | 旗舰 | 256 K | 科研、教育、复杂决策 |
*MoE 的“激活”指每个 token 实际调用的参数量,显存占用≈激活量。
3. 三大架构升级:MRoPE、DeepStack、时间戳
3.1 Interleaved-MRoPE:让长视频不再“首尾失联”
老问题
传统 MRoPE 把 embedding 切成 t/h/w 三段,低频全给时间、高频全给空间,导致 30 分钟后的帧位置编码稀疏,模型“忘记”前面发生了什么。
新做法
把 t、h、w 均匀交错到全部频率带,任何长度都能保持平滑分布。
结果:Needle-in-a-Haystack 实验,120 分钟视频插针,准确率 99.5 %。
3.2 DeepStack:把 ViT 的“中层语义”塞进 LLM
原理
ViT 的浅层是边缘/纹理,深层是语义/目标。DeepStack 把第 6、12、18 层特征分别投影后,直接残差加到 LLM 前 3 层,不增加上下文长度。
收益
InfoVQA、DocVQA 平均提升 1.3 %,小模型尤其明显。
3.3 文本时间戳:让“第 3 秒”变成可搜索的 token
旧方案
用绝对帧号当 position id,长视频 id 值爆炸,训练还要固定 fps,数据成本高。
新方案
每帧前插一个 文本 token:<3.0 s> 或 00:02:30,模型直接看懂时间。
副作用:只增加 <1 % token,却支持 秒级定位与跨帧推理。
4. 训练流水线四连跳:对齐→预训练→长上下文→超长上下文
| 阶段 | 目标 | 可训练模块 | 长度 | 数据量 | 关键配方 |
|---|---|---|---|---|---|
| S0 对齐 | 视觉-语言对齐 | 仅 MLP merger | 8 K | 67 B | 高质图文对+OCR |
| S1 预训练 | 全能力解锁 | 全部 | 8 K | ~1 T | 图文交错、STEM、视频 |
| S2 长上下文 | 长文档/视频 | 全部 | 32 K | ~1 T | 50 % 长文本+50 % 长视频 |
| S3 超长适配 | 256 K 实战 | 全部 | 262 K | 100 B | 整本教材、2 小时视频 |
小技巧:
-
用 平方根采样平衡图文比例,防止多模态“淹没”纯文本能力。 -
每阶段都保留 10 % 纯文本数据,确保 MMLU 不掉点。
5. 数据配方大曝光:从 39 种语言 OCR 到 3D grounding
5.1 图像与图文交错
-
图像:自研 Qwen2.5-VL-32B 重标 8 亿图文对,去重、聚类补稀疏概念。 -
书籍:把连续页面拼成 256 K token,保证“页-图-表”顺序一致。
5.2 世界知识 & OCR
-
39 种语言:含越南语、阿拉伯语、印地语等,70 %+ 可用线定义为 >70 % 字符准确率。 -
30 M 真实样本 + 30 M 合成样本,覆盖菜单、发票、手写体。
5.3 3D & 空间关系
-
单张图片估计 9-DoF 3D 框,统一虚拟相机坐标系。 -
空间关系数据集:相对描述“杯子在笔记本左侧”,训练模型答“如何拿到书”这类动作规划问题。
5.4 STEM 推理
-
6 M 几何图:自动渲染交点、重心、切线,再让模型描述。 -
60 M K12-大学题库:含中英双语、逐步解答、LaTeX 公式。
5.5 视频
-
短到长 caption:先给 8 s 片段写摘要,再拼成 2 小时故事。 -
时空 grounding:对象+动作+人物三元组,<“00:01:20”, “搅拌”, “手”>。
6. 后训练三板斧:SFT → 蒸馏 → 强化学习
6.1 监督微调(SFT)
-
120 万条人工+合成,1/3 纯文本 + 2/3 多模态,先 32 K 再 256 K 两阶段。 -
双格式:非思考模型直接给答案;思考模型强制 <think>标签写推理。
6.2 强到弱蒸馏
-
教师:235 B-MoE;学生:2 B/4 B/8 B。 -
Off-policy:直接用教师答案教;On-policy:学生自己写,再对比 KL 散度。 -
小模型 AIME-25 提升 20 分,成本降到 1/10。
6.3 强化学习
-
推理 RL:数学、OCR、 grounding 等可验证任务,用 SAPO 算法。 -
通用 RL:多任务混合,奖励=“遵循指令”+“人类偏好”。 -
纠错样本:故意给“反直觉计数”题,让模型忘记错误先验。
7. Thinking 模式:让模型“边想边写”
如何开启
在 prompt 里加一句“请逐步思考并给出详细过程”,模型会自动输出 <think>…</think> 段落,再给出最终答案。
代价与收益
-
延迟增加 30 %~50 %,但 AIME-25 从 74.7 → 89.7。 -
视频任务同样有效:VideoMMMU 提升 5.3 分。
8. 实战结果:50+ 基准测试一次看懂
8.1 旗舰模型(235 B-MoE)亮点
| 任务 | 分数 | 对标 |
|---|---|---|
| MMMU | 84.2 | Gemini-2.5-Pro 81.7 |
| MathVision | 74.6 | GPT-5 70.9 |
| DocVQA | 97.1 | 人类 97.5 |
| HallusionBench | 66.7 | 领先 Gemini 3 分 |
| Needle-120 min | 99.5 % | 业界最长视频插针 |
8.2 小模型(8 B)亮点
-
MathVista 81.4,打平上一代 72 B。 -
OCRBench 881 分,超越 Gemini-2.5-Flash。 -
端侧 RTF<1(A10 单卡 2048 token/s),可直接部署在笔记本。
9. 部署与推理:vLLM/SGLang 怎么选?
| 后端 | 优势 | 适用 |
|---|---|---|
| vLLM | 吞吐高、PagedAttention 省显存 | 批量 OCR、视频摘要 |
| SGLang | 结构化生成友好、易写业务逻辑 | GUI 代理、函数调用 |
实测
235 B-MoE 在 8×A100 上,vLLM 可达 1200 token/s;SGLang 在复杂 JSON 场景延迟降低 25 %。
10. 常见问题(FAQ)
Q1:256 K 上下文到底能塞多少东西?
A:≈ 500 页 A4 扫描件,或 2 小时 1 fps 视频,或 200 张 800×1200 图片混排。
Q2:小模型需要多少显存?
A:2 B 半精度 4 GB,8 B 半精度 16 GB,30 B-A3B MoE 激活 3 B 仅需 8 GB。
Q3:Thinking 模式能关吗?
A:可以。去掉“逐步思考”提示词,模型直接输出答案,延迟下降 30 %。
Q4:商用授权?
A:全系列 Apache 2.0,可商用,需保留 License 与免责声明。
Q5:能生成图片吗?
A:本版仅支持“看懂”,不具备文生图功能。团队正在研发统一生成-理解架构。
11. 结论与展望
Qwen3-VL 用 256 K 上下文 + DeepStack + 文本时间戳 把“看、读、算”三件事一次性做长、做准、做轻。
对于科研,它是会翻书、会看实验视频的助手;对于开发者,它是能解析 UI、能读多语言发票的代理基座;对于端侧用户,8 B 小模型就能在笔记本跑 2 小时视频问答。
下一步,团队将开放图文联合生成与实时机器人控制,让模型不止“看懂世界”,还能“改造世界”。
如果你正在找一条不牺牲文本能力、又能把视觉上下文拉到百万 token 的工程路径,Qwen3-VL 已经给出了完整且可复现的答卷。

