通过反事实视频生成减少多模态大语言模型在视频理解中的幻觉

你有没有想过,为什么多模态大语言模型在处理视频时有时会给出听起来合理但实际上与视频内容不符的答案?比如,一个视频里明明有个物体突然消失了,模型却坚持说它还在那里,因为它更相信日常常识而不是眼睛看到的画面。这就是所谓的“视觉不接地幻觉”。今天,我们来聊聊一个新的方法,它通过生成特殊的反事实视频来帮助模型更好地理解视频,避免这些幻觉。

想象一下,你在看一个视频,里面有个礼物盒在架子上,但突然它就消失了——这不符合常识,但视频就是这样拍的。一般的模型可能会忽略这个异常,直接根据语言习惯回答“礼物还在架子上”。但如果我们能训练模型注意这些反常之处,它的表现会怎么样?这就是这项研究的核心:用一种叫DualityForge的框架来创建这样的视频,并用它们训练模型。

多模态大语言模型在视频理解中的挑战

先来谈谈问题本身。多模态大语言模型(MLLMs)在视频理解上取得了很大进步,但它们有一个弱点:过度依赖语言先验。这意味着模型更倾向于用从文本中学到的常识来推理,而不是真正看视频里的视觉证据。尤其在处理反事实视频时——那些违反常识的视频,比如物体违反物理定律——模型容易产生幻觉。

为什么会这样?因为训练数据中,文本的数量和多样性远超视频,导致模型在视频任务上容易走捷径。举个例子,在一个视频里,一个女孩把礼物放在架子上然后走开,但如果视频被编辑成礼物突然消失,模型可能还是会说“礼物还在”,因为语言先验告诉它礼物不会无缘无故消失。

这项研究指出,这种幻觉源于数据不平衡。要解决它,需要用反事实数据来增强模型的视觉感知。但创建这样的数据很麻烦:视频编辑成本高,标注QA数据又依赖模型本身,形成循环。

DualityForge:一个可控的反事实视频生成框架

那么,怎么解决呢?研究者提出了DualityForge,一个基于扩散模型的可控视频编辑框架。它能把真实视频转成反事实场景,同时自动生成配对的QA数据,用于对比训练。

简单说,这个框架用扩散模型来编辑视频,比如让一个物体在视频中途消失,模拟违反常识的事件。更酷的是,它在编辑过程中嵌入结构化上下文,比如事件类型和时间位置。这让模型更容易理解这些反事实现象,从而生成高质量的QA对。

方法概述图片

如上图所示,框架包括几个管道:

  • 视觉异常管道:用OpenCV在像素级编辑视频。一个多模态模型选定要编辑的对象,生成掩码,然后用基于VACE的编辑方法处理,最后用多个顶尖模型多数投票验证。

  • 语义异常管道:多模态模型提出违反常识的建议,FLUX-Kontext编辑帧,再用多个模型验证,VACE插值生成最终视频。

  • 常识异常管道:类似,但聚焦于违反常识的编辑。

这个过程自然产生配对数据:原视频 vs. 编辑视频。对于相同的QA问题,模型需要给出不同的答案,这迫使它关注视觉证据,而不是语言先验。

DualityVidQA:专为减少幻觉设计的大规模数据集

基于DualityForge,研究者构建了DualityVidQA,一个大规模视频理解数据集。它包括104K个监督微调样本和40K个强化学习样本,总共144K个训练样本,涉及81K个独特视频,总时长约100小时。

数据集的特点是成对视频和对比QA:每个对包括一个真实视频和一个反事实视频,问题相同,但答案不同。这帮助模型学会区分视觉证据。

为了评估,研究者还创建了DualityVidQA-Test,一个有600个手动精选配对样本的基准,分成四个细粒度反事实类别。

DNA-Train:两阶段训练体制

光有数据不够,还需要合适的训练方法。研究者提出了Duality-Normalized Advantage Training (DNA-Train),一个两阶段体制:监督微调(SFT)后接强化学习(RL)。

  • SFT阶段:用真实和反事实视频的混合数据集训练,让模型检测异常而不牺牲真实视频性能。

  • RL阶段:用成对对比任务强化能力。在RL中,对每个真实-反事实视频对的优势值应用ℓ1归一化,确保梯度更新稳定,避免偏向真实视频。

这种方法利用了数据的对比性质,让模型在优化中更平衡。

实验显示,在DualityVidQA-Test上,基于Qwen2.5-VL-7B的模型相对提升24.0%。在其他基准如EventHallusion、TempCompass、MVBench、TOMATO和TVBench上也有显著改善,证明了泛化能力。

相关工作回顾

在深入细节前,我们来看看这个领域的一些背景。

语言先验在MLLMs中的作用

MLLMs从大语言模型继承了强语言先验,这有时导致输出听起来合理但与视觉冲突。训练无关的方法如对比解码,通过对比原逻辑和辅助分布来减少影响,比如图像掩码或指令扰动。但这些方法增加推理成本,对视频任务不稳定。

训练相关方法构建专属数据集,比如修改视频字幕,但需要昂贵的提示和标注。相比,这个框架自动化且可扩展,特别适合视频。

视频理解数据集

现有数据集包括真实世界行动识别如Kinetics、ActivityNet,字幕如MSR-VTT、WebVid-10M。但标注成本高,规模有限。最近用VLM合成数据,如LLaVA-Hound用GPT-4生成QA。但这些基于真实视频,覆盖不了稀有事件或反事实场景。

视觉强化学习

最近研究将RL扩展到多模态,如Vision-RL用多模态CoT语料和GRPO。但大多数优化文本轨迹,而不是视觉证据,对反事实内容鲁棒性有限。这个方法强调视频理解需要区分视觉可信和反事实线索。

问题公式化

核心问题是MLLMs偏好语言先验而非视觉证据,导致幻觉。目标是创建描绘视觉显著反事实事件的大规模视频QA数据集。

每个视频描绘反事实事件,如物体消失。数据集包括成对视频,确保模型 grounding 在视觉中。

视频编辑管道详解

如图2所示,有三个管道:

视频编辑管道概述 // 注意:输入中提到Figure 2,但无URL,所以假设基于描述。

  1. 视觉异常:像素级编辑。选对象、生成掩码、编辑、验证。

  2. 语义异常:选违反常识、编辑帧、验证、插值。

  3. 常识异常:类似,焦点在常识违反。

这些管道确保编辑精确,并嵌入上下文用于QA生成。

实验结果分析

实验证明方法有效:

  • 在DualityVidQA-Test上,减少幻觉24%。

  • 在EventHallusion上改善。

  • 在通用基准如TempCompass(时间理解)、MVBench(多选择)、TOMATO、TVBench上获益。

这显示生成能提升理解。

如何使用这个方法?

如果你是研究者,想应用这个框架,这里是步骤:

  1. 设置DualityForge:安装扩散模型如扩散视频编辑工具。

  2. 生成视频:用管道编辑真实视频,嵌入上下文。

  3. 创建QA:用嵌入上下文自动生成QA对。

  4. 训练模型:用DNA-Train:先SFT混合数据,然后RL with ℓ1-normalized advantages。

代码和数据集即将开源。

FAQ:常见问题解答

多模态大语言模型的幻觉是什么?

幻觉是指模型输出与输入不符的内容。在视频中,它往往是因为忽略视觉,转而用语言常识。

反事实视频是什么?

就是违反常识的视频,比如物体突然消失或违反物理定律。通过编辑真实视频创建。

DualityForge如何工作?

它用扩散模型编辑视频,嵌入结构化上下文如事件类型,确保生成高质量反事实场景和QA。

DualityVidQA数据集有多大?

144K样本,81K视频,100小时时长。包括SFT和RL部分。

DNA-Train有什么特别?

两阶段:SFT混合真实/反事实,RL用成对ℓ1归一化优势,确保平衡学习。

这个方法能泛化吗?

是的,在多个基准上改善,不仅限于幻觉。

如何评估幻觉?

用DualityVidQA-Test,600个手动样本,分四类反事实。

为什么用对比训练?

迫使模型关注视觉差异,而不是语言先验。

视频编辑管道有哪些?

三个:视觉、语义、常识异常,各有步骤如选对象、编辑、验证。

结果改善多少?

相对基线24%在测试集,其他基准显著获益。

深入探讨:为什么这个方法有效

现在,我们来想想为什么这个方法能工作。传统训练让模型学到很多文本模式,但视频数据少,导致偏见。引入反事实视频,就像给模型“压力测试”,迫使它看清画面。

比如,在一个配对中,原视频:女孩放礼物走开。编辑视频:礼物消失。问题:“礼物发生了什么?”原答案:还在。编辑答案:消失了。模型必须学会区分。

在RL中,ℓ1归一化确保每个对的贡献平衡,避免模型忽略反事实。

潜在应用

这个方法不只减少幻觉,还提升整体视频理解。可用于视频QA、行动识别等。

例如,在TempCompass上,提升时间推理;在MVBench上,多选择准确率高。

挑战与解决方案

挑战:生成高质量反事实难。解决方案:嵌入上下文,自动化QA。

另一个挑战:训练不稳定。解决方案:DNA-Train的归一化。

总结

通过DualityForge和DualityVidQA,用反事实视频训练MLLMs,能显著减少幻觉,提升理解。DNA-Train确保有效优化。这提醒我们,生成数据能反过来改善感知。

如果你对视频AI感兴趣,这个方法值得一试。代码开源后,可以自己实验。