把 256 K 超长视频塞进“小”模型：Qwen3-VL 技术报告完全导读

适合谁读：

做 CV/NLP 的研究生、工程师，想快速判断 Qwen3-VL 能不能直接拿来用

产品经理/技术决策者，想知道“256 K 上下文”“思考模式”“MoE”到底对业务意味着什么

任何对“看得懂图、读得懂书、算得出题”的大模型感兴趣的人

一句话总结：Qwen3-VL 做了什么？
模型全家福：2 B～235 B 总有一款适合你
三大架构升级：MRoPE、DeepStack、时间戳
训练流水线四连跳：对齐→预训练→长上下文→超长上下文
数据配方大曝光：从 39 种语言 OCR 到 3D grounding
后训练三板斧：SFT → 蒸馏 → 强化学习
Thinking 模式：让模型“边想边写”
实战结果：50+ 基准测试一次看懂
部署与推理：vLLM/SGLang 怎么选？
常见问题（FAQ）
结论与展望

1. 一句话总结：Qwen3-VL 做了什么？

Qwen3-VL 把“视觉+语言”的上下文窗口一口气拉到 256 K token（≈ 2 小时视频或 500 页 PDF），同时保留纯文本能力。
它用 DeepStack 把 ViT 多层特征塞进大模型，用 Interleaved-MRoPE 解决长视频位置编码失衡，再用 文本时间戳 让视频帧对齐到秒级。
最终效果：在 50 多个基准里，235 B-MoE 版本 与 Gemini-2.5-Pro、GPT-5 同档竞技，8 B 小模型 就能打平上一代 72 B。

2. 模型全家福：2 B～235 B 总有一款适合你

系列	参数量(总/激活)	定位	上下文	典型场景
Dense	2 B / 2 B	端侧、手机	256 K	离线 OCR、快速截图问答
Dense	4 B / 4 B	笔记本	256 K	论文图表+公式推理
Dense	8 B / 8 B	单卡 A10	256 K	长文档、1 小时视频摘要
Dense	32 B / 32 B	单卡 A100	256 K	专业图表、多图 VQA
MoE	30 B-A3B / 3 B*	低延迟服务	256 K	网页助手、GUI 代理
MoE	235 B-A22B / 22 B*	旗舰	256 K	科研、教育、复杂决策

*MoE 的“激活”指每个 token 实际调用的参数量，显存占用≈激活量。

3. 三大架构升级：MRoPE、DeepStack、时间戳

3.1 Interleaved-MRoPE：让长视频不再“首尾失联”

老问题
传统 MRoPE 把 embedding 切成 t/h/w 三段，低频全给时间、高频全给空间，导致 30 分钟后的帧位置编码稀疏，模型“忘记”前面发生了什么。

新做法
把 t、h、w 均匀交错到全部频率带，任何长度都能保持平滑分布。
结果：Needle-in-a-Haystack 实验，120 分钟视频插针，准确率 99.5 %。

3.2 DeepStack：把 ViT 的“中层语义”塞进 LLM

原理
ViT 的浅层是边缘/纹理，深层是语义/目标。DeepStack 把第 6、12、18 层特征分别投影后，直接残差加到 LLM 前 3 层，不增加上下文长度。

收益
InfoVQA、DocVQA 平均提升 1.3 %，小模型尤其明显。

3.3 文本时间戳：让“第 3 秒”变成可搜索的 token

旧方案
用绝对帧号当 position id，长视频 id 值爆炸，训练还要固定 fps，数据成本高。

新方案
每帧前插一个 文本 token：<3.0 s> 或 00:02:30，模型直接看懂时间。
副作用：只增加 <1 % token，却支持 秒级定位与跨帧推理。

4. 训练流水线四连跳：对齐→预训练→长上下文→超长上下文

阶段	目标	可训练模块	长度	数据量	关键配方
S0 对齐	视觉-语言对齐	仅 MLP merger	8 K	67 B	高质图文对+OCR
S1 预训练	全能力解锁	全部	8 K	~1 T	图文交错、STEM、视频
S2 长上下文	长文档/视频	全部	32 K	~1 T	50 % 长文本+50 % 长视频
S3 超长适配	256 K 实战	全部	262 K	100 B	整本教材、2 小时视频

小技巧：

用 平方根采样平衡图文比例，防止多模态“淹没”纯文本能力。
每阶段都保留 10 % 纯文本数据，确保 MMLU 不掉点。

5. 数据配方大曝光：从 39 种语言 OCR 到 3D grounding

5.1 图像与图文交错

图像：自研 Qwen2.5-VL-32B 重标 8 亿图文对，去重、聚类补稀疏概念。
书籍：把连续页面拼成 256 K token，保证“页-图-表”顺序一致。

5.2 世界知识 & OCR

39 种语言：含越南语、阿拉伯语、印地语等，70 %+ 可用线定义为 >70 % 字符准确率。
30 M 真实样本 + 30 M 合成样本，覆盖菜单、发票、手写体。

5.3 3D & 空间关系

单张图片估计 9-DoF 3D 框，统一虚拟相机坐标系。
空间关系数据集：相对描述“杯子在笔记本左侧”，训练模型答“如何拿到书”这类动作规划问题。

5.4 STEM 推理

6 M 几何图：自动渲染交点、重心、切线，再让模型描述。
60 M K12-大学题库：含中英双语、逐步解答、LaTeX 公式。

5.5 视频

短到长 caption：先给 8 s 片段写摘要，再拼成 2 小时故事。
时空 grounding：对象+动作+人物三元组，<“00:01:20”, “搅拌”, “手”>。

6. 后训练三板斧：SFT → 蒸馏 → 强化学习

6.1 监督微调（SFT）

120 万条人工+合成，1/3 纯文本 + 2/3 多模态，先 32 K 再 256 K 两阶段。
双格式：非思考模型直接给答案；思考模型强制 <think> 标签写推理。

6.2 强到弱蒸馏

教师：235 B-MoE；学生：2 B/4 B/8 B。
Off-policy：直接用教师答案教；On-policy：学生自己写，再对比 KL 散度。
小模型 AIME-25 提升 20 分，成本降到 1/10。

6.3 强化学习

推理 RL：数学、OCR、 grounding 等可验证任务，用 SAPO 算法。
通用 RL：多任务混合，奖励=“遵循指令”+“人类偏好”。
纠错样本：故意给“反直觉计数”题，让模型忘记错误先验。

7. Thinking 模式：让模型“边想边写”

如何开启
在 prompt 里加一句“请逐步思考并给出详细过程”，模型会自动输出 <think>…</think> 段落，再给出最终答案。

代价与收益

延迟增加 30 %～50 %，但 AIME-25 从 74.7 → 89.7。
视频任务同样有效：VideoMMMU 提升 5.3 分。

8. 实战结果：50+ 基准测试一次看懂

8.1 旗舰模型（235 B-MoE）亮点

任务	分数	对标
MMMU	84.2	Gemini-2.5-Pro 81.7
MathVision	74.6	GPT-5 70.9
DocVQA	97.1	人类 97.5
HallusionBench	66.7	领先 Gemini 3 分
Needle-120 min	99.5 %	业界最长视频插针

8.2 小模型（8 B）亮点

MathVista 81.4，打平上一代 72 B。
OCRBench 881 分，超越 Gemini-2.5-Flash。
端侧 RTF<1（A10 单卡 2048 token/s），可直接部署在笔记本。

9. 部署与推理：vLLM/SGLang 怎么选？

后端	优势	适用
vLLM	吞吐高、PagedAttention 省显存	批量 OCR、视频摘要
SGLang	结构化生成友好、易写业务逻辑	GUI 代理、函数调用

实测
235 B-MoE 在 8×A100 上，vLLM 可达 1200 token/s；SGLang 在复杂 JSON 场景延迟降低 25 %。

10. 常见问题（FAQ）

Q1：256 K 上下文到底能塞多少东西？
A：≈ 500 页 A4 扫描件，或 2 小时 1 fps 视频，或 200 张 800×1200 图片混排。

Q2：小模型需要多少显存？
A：2 B 半精度 4 GB，8 B 半精度 16 GB，30 B-A3B MoE 激活 3 B 仅需 8 GB。

Q3：Thinking 模式能关吗？
A：可以。去掉“逐步思考”提示词，模型直接输出答案，延迟下降 30 %。

Q4：商用授权？
A：全系列 Apache 2.0，可商用，需保留 License 与免责声明。

Q5：能生成图片吗？
A：本版仅支持“看懂”，不具备文生图功能。团队正在研发统一生成-理解架构。

11. 结论与展望

Qwen3-VL 用 256 K 上下文 + DeepStack + 文本时间戳 把“看、读、算”三件事一次性做长、做准、做轻。
对于科研，它是会翻书、会看实验视频的助手；对于开发者，它是能解析 UI、能读多语言发票的代理基座；对于端侧用户，8 B 小模型就能在笔记本跑 2 小时视频问答。

下一步，团队将开放图文联合生成与实时机器人控制，让模型不止“看懂世界”，还能“改造世界”。
如果你正在找一条不牺牲文本能力、又能把视觉上下文拉到百万 token 的工程路径，Qwen3-VL 已经给出了完整且可复现的答卷。

Qwen3-VL 256K超长视频压缩技术：如何把2小时影像塞进小模型？

把 256 K 超长视频塞进“小”模型：Qwen3-VL 技术报告完全导读

目录

1. 一句话总结：Qwen3-VL 做了什么？

2. 模型全家福：2 B～235 B 总有一款适合你

3. 三大架构升级：MRoPE、DeepStack、时间戳

3.1 Interleaved-MRoPE：让长视频不再“首尾失联”

3.2 DeepStack：把 ViT 的“中层语义”塞进 LLM

3.3 文本时间戳：让“第 3 秒”变成可搜索的 token

4. 训练流水线四连跳：对齐→预训练→长上下文→超长上下文

5. 数据配方大曝光：从 39 种语言 OCR 到 3D grounding

5.1 图像与图文交错

5.2 世界知识 & OCR

5.3 3D & 空间关系

5.4 STEM 推理

5.5 视频

6. 后训练三板斧：SFT → 蒸馏 → 强化学习

6.1 监督微调（SFT）

6.2 强到弱蒸馏

6.3 强化学习

7. Thinking 模式：让模型“边想边写”

8. 实战结果：50+ 基准测试一次看懂

8.1 旗舰模型（235 B-MoE）亮点

8.2 小模型（8 B）亮点

9. 部署与推理：vLLM/SGLang 怎么选？

10. 常见问题（FAQ）

11. 结论与展望

Qwen3-VL 256K超长视频压缩技术：如何把2小时影像塞进小模型？

把 256 K 超长视频塞进“小”模型：Qwen3-VL 技术报告完全导读

目录

1. 一句话总结：Qwen3-VL 做了什么？

2. 模型全家福：2 B～235 B 总有一款适合你

3. 三大架构升级：MRoPE、DeepStack、时间戳

3.1 Interleaved-MRoPE：让长视频不再“首尾失联”

3.2 DeepStack：把 ViT 的“中层语义”塞进 LLM

3.3 文本时间戳：让“第 3 秒”变成可搜索的 token

4. 训练流水线四连跳：对齐→预训练→长上下文→超长上下文

5. 数据配方大曝光：从 39 种语言 OCR 到 3D grounding

5.1 图像与图文交错

5.2 世界知识 & OCR

5.3 3D & 空间关系

5.4 STEM 推理

5.5 视频

6. 后训练三板斧：SFT → 蒸馏 → 强化学习

6.1 监督微调（SFT）

6.2 强到弱蒸馏

6.3 强化学习

7. Thinking 模式：让模型“边想边写”

8. 实战结果：50+ 基准测试一次看懂

8.1 旗舰模型（235 B-MoE）亮点

8.2 小模型（8 B）亮点

9. 部署与推理：vLLM/SGLang 怎么选？

10. 常见问题（FAQ）

11. 结论与展望

相关文章