Dream-VL 与 Dream-VLA:基于离散扩散语言模型的视觉-语言与视觉-语言-动作统一框架

Snippet(50–80字):
Dream-VL 在 12M 多模态数据上采用离散扩散训练,针对长程视觉规划与并行动作生成展现出明显优势;Dream-VLA 在 970k 机器人体操轨迹上预训练,在 LIBERO 与 SimplerEnv 基准上分别取得 97.2%、71.4% 与 60.5% 的关键指标。


目录

  • 简介

  • 核心设计与动机:为何采用离散扩散(dLLM)

  • Dream-VL:训练数据、能力与可验证评测

    • 数据与训练范式(确切指标)
    • 高层次规划:ViPlan 基准说明与实例
    • 低层次动作规划:速度与鲁棒性量化比较
  • Dream-VLA:机器人预训练、数据规模与下游表现

    • 预训练数据规模与来源
    • 动作分块(action chunking)与解码机制的比较优势
    • 下游微调与损失选择对结果的定量影响
  • 架构选择与工程要点(可量化的结论)

  • 应用示例与演示摘要

  • How-To:按步骤理解与复现关键实验(基于文件内容)

  • FAQ(预测读者问题并直接回答)

  • 结论:可验证结论与开放项


简介

本文基于提供的项目文档与博客内容,对 Dream-VL 与 Dream-VLA 的方法、数据、定量结果与工程要点进行系统整理与可读化呈现。所有论述严格来源于用户提供的文件内容,不引入外部信息。目标读者为具有专科及以上学历的技术读者,文中以明确的量化指标替代模糊描述,便于读者对能力边界与复现要求形成准确判断。


核心设计与动机:为何采用离散扩散(dLLM)

文档明确指出:相较于自回归(AR)范式,**离散扩散大语言模型(dLLM)**在以下三点提供定量或可验证的优势(文中以能力点而非宏观形容词表述):

  1. 双向注意力(bidirectional attention):支持视觉与文本特征的更丰富信息融合(文档将其列为潜在优势之一)。
  2. 文本规划能力(text planning):dLLM 的迭代去噪过程天然鼓励全局一致性,有利于生成与预定义目标对齐的全局计划。
  3. 并行解码(native parallel generation):支持动作分块(action chunking)与并行预测,从而在低级动作预测场景中提高推理效率与抗误差累积能力。

这些设计动机直接映射到后续在视觉规划(ViPlan)与机器人动作基准(LIBERO、SimplerEnv)上的具体、量化实验结果。


Dream-VL:训练数据、能力与可验证评测

数据与训练范式(确切指标)

  • 基础模型:以 Dream 7B 为基底进行扩展训练。
  • 训练数据规模:使用 open 12M 条多模态数据(来源标注为 MAmmoTH-VL 数据集);训练目标使用与 Dream 7B 相同的离散扩散损失(discrete diffusion loss)
  • 开放模型与代码发布:Dream-VL 模型标识为 Dream-org/Dream-VL-7B,代码库在 DreamLM/Dream-VLX(项目文档中给出链接)。

在标准基准与视觉规划上的表现(量化结果与对比)

  • 在常规模型对比中,Dream-VL 在扩散类 VLM 中取得state-of-the-art(文中用语)。与同数据、同量级的自回归基线(例如 MAmmoTH-VL-7B)相比,Dream-VL 在大多数情形下表现更好(文中给出受控比较结论)。
  • 针对视觉规划(ViPlan)基准,Dream-VL 在 BlockWorlds 与 Household 两个域(包含简单/中等/困难三级)展现更强的长程规划能力。文中通过图表展示了高层规划评测的优劣比较(具体数值以原文图示为准)。

ViPlan:任务格式与示例(可复现输入/输出)

  • 两种评测模式:Grounding(图像问答,输出“Yes”或“No”)与 Planning(生成 JSON 格式的动作序列)。
  • Planning 模式的输出格式(严格格式):
{
  "plan": [
    {"action": "<action_name>", "parameters": { ... }},
    ...
  ]
}
  • 示例任务:BlockWorlds 中目标为将指定颜色的方块移动到目标列,输入包含环境描述、可用动作 moveblock(block, column)、既往执行历史(包含成功/失败信息)以及当前图像。Dream-VL 在该类型任务中能够生成结构化、符号化的动作序列(文档给出示例 JSON plan)。

低层次动作规划:并行化与速度量化

  • 在低层次动作(robotic manipulation)任务上,Dream-VL 与 Qwen2.5-VL 的比较显示:

    • Qwen2.5-VL 在标准视觉-语言基准上总体更强(文档叙述),但在低层动作随 chunk size 增大时性能显著下降(原因归结为自回归解码带来的误差累积)。
    • Dream-VL 随 chunk size 增大保持鲁棒性;并且只需 单次扩散步骤(one diffusion step) 即可达到具有竞争力的性能,从而在推理速度上实现 约 27× 的加速(相对于自回归生成)。
  • 文档还指出低层动作 token 的信息密度较低与顺序约束特性,使其非常适合并行解码,这直接解释了 Dream-VL 在该场景的效率优势。


Dream-VLA:机器人预训练、数据规模与下游表现

预训练规模与数据来源(确切数字)

  • 机器人预训练数据量:970,000(970k) 条机器人操纵轨迹,来源为 Open-X Embodiment 数据集(文档陈述)。
  • 预训练损失:仍采用与 Dream-VL 相同的离散扩散损失进行大规模机器人预训练(文中明确)。

在标准机器人基准上的定量表现

  • Dream-VLA 在若干基准上的关键结果(文中列出):

    • LIBERO(平均)97.2%(文献给出“97.2% average on LIBERO”)。
    • SimplerEnv – Bridge71.4%
    • SimplerEnv – Fractal60.5%
  • 文档指出这些数值在同类公开结果中位列前列,并且在多个微调目标(finetuning objectives)下均优于代表性 AR 基线(例如 OpenVLA-OFT、π0 等)。

动作分块(action chunking)与损失选择

  • 并行解码内生支持:作为扩散基底的 Dream-VLA 无需对模型结构进行额外修改即可支持动作分块,而 AR-基底通常需要在结构(如 attention mask)或额外 action expert 上做改动以支持分块。文档强调这一点可减少训练/部署阶段的结构性不一致与性能损失。
  • 下游微调损失选择影响:尽管预训练采用离散扩散损失,但在下游 SFT(supervised fine-tuning)阶段使用连续损失(例如 L1 回归或 flow matching)常常在微调时取得更低的 loss,尤其当目标动作本质为连续量时。文档因此给出实证结论:在微调阶段,可以视动作表示连续性选择连续损失以获得更好下游表现

架构选择与工程要点(可量化结论)

  • 保持统一模型架构(从 LLM 阶段至 VLA 阶段)能够减少阶段间结构差异导致的性能损失(文档为该实践提供了经验性论据)。
  • 在低层动作推理中,采用离散扩散并行解码可在 单步扩散 情形下实现 27× 推理速度提升(相对于自回归)且维持或提升任务成功率。
  • 机器人预训练量级(970k 条轨迹)对下游性能有可测的提升,且在不同微调目标下展示出更快的收敛与更低的最终 loss(文档中以图表与文字说明)。

应用示例与演示摘要(文档提供的可验证示例)

  • 模拟环境(LIBERO Franka)指令示例:例如“Pick up the book and place it in the back compartment” 等自然语言任务,Dream-VLA 在此类指令集上有真实示例与视频演示(文档引用若干指令)。
  • 真实机器人(PiPER)示例:包括“Pick up the apple / avocado / banana / bear”等任务片段的真实世界演示(文档包含视频或视频占位标识)。
  • 这些示例用于直观验证 Dream-VLA 在实际物理交互任务中的可操作性与泛化能力(以文档演示为依据)。

(在项目仓库与博客中也提供了模型与代码的下载/引用标识,便于复现与验证。)


How-To(基于文件内容的逐步说明,便于理解与复现关键实验)

注意:以下步骤严格基于文档中披露的信息;细节参数(超参、训练时长等)若未在文档中列出则不在此处臆断。

  1. 准备基础模型

    • 以 Dream 7B 作为基础模型权重(文档表述基础为 Dream 7B)。
  2. 收集训练数据

    • Vision-language 基线训练:使用 MAmmoTH-VL(开放 12M 条多模态样本)。
    • 机器人预训练:使用 Open-X Embodiment 数据集中的 970k 条轨迹。
  3. 训练目标

    • 在两种阶段(VL 与 VLA)均采用 离散扩散损失(discrete diffusion loss) 进行预训练。
  4. 评估基准

    • 高层规划:使用 ViPlan(BlockWorlds、Household),以零样本(zero-shot)或受控对比评估计划正确性(输出 JSON plan)。
    • 低层动作:在 LIBEROSimplerEnv(Bridge、Fractal) 上进行评估,记录成功率与速度(推理步数)指标。
  5. 微调策略(根据任务选择损失)

    • 若下游动作为连续值:尝试 L1 回归或 flow matching 等连续损失以更好拟合连续动作;文档指出此策略在微调时可实现更低 loss。
  6. 推理与动作分块

    • 在需要并行生成的低层动作场景中,启用动作分块(action chunking);Dream-VLA/-VL 在扩散框架下原生支持并行解码,无需改动模型结构。

FAQ(读者常问问题与直接回答)

Q1:Dream-VL 与自回归 VLM 的主要区别是什么?
A1:核心差异在于生成范式:Dream-VL 使用离散扩散迭代去噪,支持双向注意力与并行解码;自回归模型按序列逐步生成。文档指出在长程视觉规划与并行动作生成场景中,离散扩散模型在全局一致性与抗误差累积方面具有优势。

Q2:训练所用的数据规模是多少?
A2:视觉语言训练使用 12M 条多模态样本(MAmmoTH-VL);机器人预训练使用 970k 条轨迹(Open-X Embodiment)。

Q3:在机器人任务上有什么量化结果?
A3:Dream-VLA 在文档给出的基准上报告:LIBERO 平均 97.2%,SimplerEnv-Bridge 71.4%,SimplerEnv-Fractal 60.5%

Q4:并行解码带来的速度增益是多少?
A4:在低层动作场景,Dream-VL 在仅用单次扩散步骤的设置下获得约 27× 的速度提升(与自回归生成相比),同时保持竞争力的任务成功率。

Q5:预训练后下游微调是否必须用离散扩散损失?
A5:不是必须。文档指出尽管预训练采用离散扩散损失,但在下游微调中采用连续损失(如 L1 或 flow matching)往往能取得更低的微调 loss,特别是当动作本质为连续量时。


结论:可验证结论与开放项

基于提供文档的所有陈述,可得出以下可验证结论(仅限文档所列):

  • Dream-VL 在离散扩散范式上能与自回归基线在标准视觉语言基准上取得可比甚至更优的表现,且在视觉规划任务上显示出更强的长程规划能力。
  • Dream-VL 在低层动作场景中凭借并行解码实现显著的推理加速(约 27×),并在 chunk size 扩大时保持鲁棒性,而自回归模型在此情形下性能退化显著。
  • Dream-VLA 经机器人大规模预训练(970k 轨迹)后,在 LIBERO 与 SimplerEnv 等基准上取得文档中列出的高分(97.2%、71.4%、60.5%),并在多种微调目标下优于代表性 AR 基线。
  • 技术实现与代码、模型权重已在项目页面与 HuggingFace、GitHub 中公开(文内提供标识)。

开放项(文档中声明仍有改进空间):文档结尾明确指出尽管已有优良结果,但仍存在大量改进空间,团队将代码与模型开源以促进社区进一步研究。


(完)