笔记引导的多模态大模型推理:用知识笔记与视觉笔记提升视觉问答能力
本文介绍华南师范大学团队在CVPR 2025提出的创新框架NoteMR,通过双笔记机制解决知识型视觉问答中的噪声干扰与视觉幻觉问题,在OK-VQA和A-OKVQA数据集上实现最高5.31%的性能突破。
(图片来源:Unsplash,图示多模态AI处理图文信息的过程)
一、知识型视觉问答的挑战
知识型视觉问答(KB-VQA) 要求模型结合图像内容与外部知识进行推理。例如看到棒球比赛图片问“球员击球后绕垒跑叫什么?”,正确答案“本垒打”需要体育知识支撑。当前主流方法存在两大瓶颈:
问题1:知识噪声干扰推理
-
显性知识检索缺陷:从谷歌搜索/Wikidata获取的知识包含冗余或错误信息(如检索到“偷垒”而非“本垒打”) -
隐性知识利用不足:多模态大模型(MLLM)虽存储正确知识,但仅38%概率能准确调用(论文图1a实验证明)
问题2:视觉幻觉现象
因视觉编码器对细粒度特征感知不足(如交通灯颜色识别错误):
# 典型错误案例(论文图1b)
输入:绿灯图片 + 问题“信号灯指示司机做什么?”
模型输出:“停车” # 正确答案应为“通行”
二、NoteMR框架设计原理
NoteMR创新性地引入双笔记机制——知识笔记过滤知识噪声,视觉笔记增强细粒度感知。整个流程分为三阶段:
(框架类比:知识笔记如学习重点摘要,视觉笔记如教科书插图标注)
阶段1:知识笔记生成(知识提纯)
graph LR
A[原始图像] --> B(知识检索器)
C[问题文本] --> B
B --> D[Top-k知识段落]
D + A --> E[MLLM知识过滤器]
E --> F[知识笔记]
-
关键技术: -
使用PREFLMR检索器从Google Search/Wikidata获取Top-5相关段落 -
冻结参数的MLLM(如LLaVA-NeXT-8B)接收图像+检索知识组合输入 -
生成浓缩笔记(示例): “棒球运动中,击球员将球击出外场围栏后,可缓慢绕行各垒回到本垒得分,此行为称为本垒打(Home Run)”
-
阶段2:视觉笔记生成(焦点增强)
# 基于GradCAM的视觉聚焦算法(论文公式6-9)
def generate_visual_notes(image, knowledge_note):
patches = split_image(image, patch_size=16) # 分割为576个区块
attention_map = cross_modal_attention(knowledge_note, patches)
mask = threshold_filter(attention_map, λ=0.6) # 保留高关注区域
return image * mask # 生成视觉笔记
-
效果对比: -
原始图像:完整交通灯场景 -
视觉笔记:聚焦绿灯区域(热力图中红色部分)
-
阶段3:双笔记协同推理
输入组合 = 原始图像 + 问题 + 知识笔记 + 视觉笔记
↓
MLLM生成3个候选答案 → 二次筛选最终输出
三、突破性实验成果
3.1 OK-VQA数据集表现
方法 | 基础模型 | 准确率(%) |
---|---|---|
LLaVA-NeXT-8B | – | 62.2 |
SKP (SOTA基线) | Vicuna-7b | 63.3 |
NoteMR(本文) | LLaVA-NeXT-8B | 70.0 |
✔️ 相对提升5.31%:证明小参数模型(8B)通过NoteMR可超越13B模型性能
3.2 A-OKVQA数据集表现
任务类型 | 最佳基线 | NoteMR | 提升幅度 |
---|---|---|---|
直接回答(DA) | 65.3% | 68.7% | +3.4% |
多项选择(MC) | 76.4% | 88.1% | +11.7% |
3.3 消融实验验证
配置 | 准确率 | 关键结论 |
---|---|---|
仅图像+问题 (默认) | 62.2% | 基线性能 |
+原始检索知识 | 65.3% | +3.1% |
+知识笔记 | 68.8% | 知识过滤贡献+3.5% |
+知识笔记+视觉笔记 | 69.6% | 视觉聚焦贡献+0.8% |
+候选答案筛选 | 70.0% | 最终方案 |
四、典型案例解析
案例1:知识笔记纠错(论文图4)
-
问题: “沙发填充物是什么材质?” -
原始检索知识: “…有人给沙发垫加填充物(batting)…” # 包含误导词”batting”(棒球术语)
-
知识笔记输出: “聚氨酯泡沫(Polyurethane foam)常用于家具填充,具有高弹性特性” # 过滤噪声并补充专业知识
-
结果: 模型答案从“棒球垫”纠正为“泡沫”
案例2:视觉笔记防幻觉(论文图5)
-
问题: “信号灯指示司机做什么?” -
未用视觉笔记: 误判为“停车”(忽略绿灯) -
视觉笔记: 聚焦绿色信号区域 -
纠正结果: 正确输出“通行”
五、技术优势与价值
核心创新点
-
知识蒸馏器
显性知识 → 引导MLLM调用隐性知识 → 生成去噪知识笔记 -
视觉聚焦器
图文注意力机制 → 提取λ>0.6高关联区域 → 生成抗幻觉视觉笔记
工程实践价值
-
计算效率: 单卡A6000(43GB显存)可部署 -
适配性: 在LLaVA/Qwen2-VL等主流MLLM上验证有效 -
开源进展: 代码已公开(论文未提及具体链接)
六、应用前景展望
该方法可扩展至:
-
医疗影像诊断(结合医学知识库) -
工业质检(设备手册知识+缺陷视觉定位) -
自动驾驶(交规知识+实时场景理解)
正如论文结语所述:“NoteMR使模型像备考学生一样,通过双笔记精准聚焦‘考点’,实现可靠推理”。
相关资源:
-
论文原文:[Fang et al. CVPR 2025 Open Access] -
数据集:OK-VQA (14K样本) / A-OKVQA (25K样本) -
基础模型:LLaVA-NeXT-7B/8B (HuggingFace可获取)