笔记引导的多模态大模型推理:用知识笔记与视觉笔记提升视觉问答能力

本文介绍华南师范大学团队在CVPR 2025提出的创新框架NoteMR,通过双笔记机制解决知识型视觉问答中的噪声干扰与视觉幻觉问题,在OK-VQA和A-OKVQA数据集上实现最高5.31%的性能突破。

多模态人工智能概念图
(图片来源:Unsplash,图示多模态AI处理图文信息的过程)

一、知识型视觉问答的挑战

知识型视觉问答(KB-VQA) 要求模型结合图像内容与外部知识进行推理。例如看到棒球比赛图片问“球员击球后绕垒跑叫什么?”,正确答案“本垒打”需要体育知识支撑。当前主流方法存在两大瓶颈:

问题1:知识噪声干扰推理

  • 显性知识检索缺陷:从谷歌搜索/Wikidata获取的知识包含冗余或错误信息(如检索到“偷垒”而非“本垒打”)
  • 隐性知识利用不足:多模态大模型(MLLM)虽存储正确知识,但仅38%概率能准确调用(论文图1a实验证明)

问题2:视觉幻觉现象

因视觉编码器对细粒度特征感知不足(如交通灯颜色识别错误):

# 典型错误案例(论文图1b)
输入:绿灯图片 + 问题“信号灯指示司机做什么?”
模型输出:“停车”  # 正确答案应为“通行”

二、NoteMR框架设计原理

NoteMR创新性地引入双笔记机制——知识笔记过滤知识噪声,视觉笔记增强细粒度感知。整个流程分为三阶段:

NoteMR框架示意图
(框架类比:知识笔记如学习重点摘要,视觉笔记如教科书插图标注)

阶段1:知识笔记生成(知识提纯)

graph LR
A[原始图像] --> B(知识检索器)
C[问题文本] --> B
B --> D[Top-k知识段落]
D + A --> E[MLLM知识过滤器]
E --> F[知识笔记]
  • 关键技术

    1. 使用PREFLMR检索器从Google Search/Wikidata获取Top-5相关段落
    2. 冻结参数的MLLM(如LLaVA-NeXT-8B)接收图像+检索知识组合输入
    3. 生成浓缩笔记(示例):

      “棒球运动中,击球员将球击出外场围栏后,可缓慢绕行各垒回到本垒得分,此行为称为本垒打(Home Run)”

阶段2:视觉笔记生成(焦点增强)

# 基于GradCAM的视觉聚焦算法(论文公式6-9)
def generate_visual_notes(image, knowledge_note):
    patches = split_image(image, patch_size=16)  # 分割为576个区块
    attention_map = cross_modal_attention(knowledge_note, patches)
    mask = threshold_filter(attention_map, λ=0.6)  # 保留高关注区域
    return image * mask  # 生成视觉笔记
  • 效果对比

    • 原始图像:完整交通灯场景
    • 视觉笔记:聚焦绿灯区域(热力图中红色部分)

阶段3:双笔记协同推理

输入组合 = 原始图像 + 问题 + 知识笔记 + 视觉笔记
↓
MLLM生成3个候选答案 → 二次筛选最终输出

三、突破性实验成果

3.1 OK-VQA数据集表现

方法 基础模型 准确率(%)
LLaVA-NeXT-8B 62.2
SKP (SOTA基线) Vicuna-7b 63.3
NoteMR(本文) LLaVA-NeXT-8B 70.0

✔️ 相对提升5.31%:证明小参数模型(8B)通过NoteMR可超越13B模型性能

3.2 A-OKVQA数据集表现

任务类型 最佳基线 NoteMR 提升幅度
直接回答(DA) 65.3% 68.7% +3.4%
多项选择(MC) 76.4% 88.1% +11.7%

3.3 消融实验验证

配置 准确率 关键结论
仅图像+问题 (默认) 62.2% 基线性能
+原始检索知识 65.3% +3.1%
+知识笔记 68.8% 知识过滤贡献+3.5%
+知识笔记+视觉笔记 69.6% 视觉聚焦贡献+0.8%
+候选答案筛选 70.0% 最终方案

四、典型案例解析

案例1:知识笔记纠错(论文图4)

  • 问题: “沙发填充物是什么材质?”
  • 原始检索知识

    “…有人给沙发垫加填充物(batting)…” # 包含误导词”batting”(棒球术语)

  • 知识笔记输出

    “聚氨酯泡沫(Polyurethane foam)常用于家具填充,具有高弹性特性” # 过滤噪声并补充专业知识

  • 结果: 模型答案从“棒球垫”纠正为“泡沫”

案例2:视觉笔记防幻觉(论文图5)

  • 问题: “信号灯指示司机做什么?”
  • 未用视觉笔记: 误判为“停车”(忽略绿灯)
  • 视觉笔记: 聚焦绿色信号区域
  • 纠正结果: 正确输出“通行”

五、技术优势与价值

核心创新点

  1. 知识蒸馏器
    显性知识 → 引导MLLM调用隐性知识 → 生成去噪知识笔记

  2. 视觉聚焦器
    图文注意力机制 → 提取λ>0.6高关联区域 → 生成抗幻觉视觉笔记

工程实践价值

  • 计算效率: 单卡A6000(43GB显存)可部署
  • 适配性: 在LLaVA/Qwen2-VL等主流MLLM上验证有效
  • 开源进展: 代码已公开(论文未提及具体链接)

六、应用前景展望

该方法可扩展至:

  • 医疗影像诊断(结合医学知识库)
  • 工业质检(设备手册知识+缺陷视觉定位)
  • 自动驾驶(交规知识+实时场景理解)

正如论文结语所述:“NoteMR使模型像备考学生一样,通过双笔记精准聚焦‘考点’,实现可靠推理”。


相关资源

  • 论文原文:[Fang et al. CVPR 2025 Open Access]
  • 数据集:OK-VQA (14K样本) / A-OKVQA (25K样本)
  • 基础模型:LLaVA-NeXT-7B/8B (HuggingFace可获取)