MMDocRAG:突破多模态文档问答的检索增强生成新基准
当文档问答遇上多模态挑战
在当今信息爆炸的时代,文档视觉问答(DocVQA) 技术面临着双重挑战:一方面需要处理包含文本、图像、表格的多页长文档,另一方面还需实现跨模态的深度推理。传统基于文本的检索增强生成方法(DocRAG)往往忽略关键的视觉信息,导致回答质量受限。更关键的是,整个领域缺乏评估多模态证据整合能力的标准化测试基准。

MMDocRAG 解决方案:构建多模态问答新基准
来自国际研究团队的 MMDocRAG 框架 提供了突破性解决方案。这个全面基准包含 4,055 个专家标注的问答对,其核心创新在于:
-
多页跨模态证据链:每个问题都关联多页文档中的图文证据 -
创新评估指标:专门评估多模态引用选择能力 -
混合答案生成:支持文本与视觉元素的组合回答 -
大规模实验验证:测试了 60 个语言/视觉模型和 14 个检索系统
[关键发现]
- 闭源视觉语言模型比纯文本模型有显著优势
- 开源模型在多模态处理上仍有明显差距
- 精细图像描述能极大提升微调后大模型表现
实战指南:如何使用 MMDocRAG 数据集
第一步:获取数据资源
下载核心图像素材库:
wget https://huggingface.co/datasets/MMDocIR/MMDocRAG/blob/main/images.zip
unzip images.zip -d ./dataset/
模型推理的两种方式
方法1:API 调用(适合快速验证)
准备API密钥:
执行推理命令:
python inference_api.py qwen3-32b --setting 20 --mode pure-text --no-enable-thinking
参数说明:
-
--setting
:引用数量(15/20) -
--mode
:输入模式(pure-text/multimodal) -
--no-enable-thinking
:禁用Qwen3的思维链
方法2:本地模型推理(适合深度定制)
环境配置:
Python 3.9
PyTorch 2.1.2+cu121
ms-swift 工具包
下载模型权重:
# 示例:下载Qwen2.5-7B模型
git lfs install
git clone https://huggingface.co/Qwen/Qwen2.5-7B-Instruct ./checkpoint/
执行本地推理:
python inference_checkpoint.py Qwen2.5-7B-Instruct --setting 20 --lora Qwen2.5-7B-Instruct_lora
模型微调实战
使用LoRA技术高效微调:
python train_swift_qwen.py Qwen2.5-7B-Instruct --setting 20
微调后权重将保存在 Qwen2.5-7B-Instruct_lora
目录
科学评估:多维度性能测评体系
1. AI评分官机制(LLM-as-Judge)
python eval_llm_judge.py response/qwen3-4b_pure-text_response_quotes20.jsonl --setting 20
生成包含详细质量评分的JSONL文件
2. 全指标评估
综合计算四大核心指标:
python eval_all.py \
--path_response response/qwen3-4b_response.jsonl \
--path_judge evaluation/judge_scores.jsonl \
--setting 20
评估维度:
-
引用选择F1值 -
BLEU文本相似度 -
ROUGE-L摘要质量 -
LLM-as-Judge综合评分
重要发现:多模态处理的现状与突破
通过对30个开源模型、25个闭源模型和5个微调模型的系统测试,团队揭示了关键结论:
-
闭源模型优势明显:
-
Gemini 2.5 Pro/Flash 在多模态理解领先 -
Claude 3.5 Sonnet 在复杂推理突出 -
GPT-4o 保持综合性能最优
-
-
开源模型的突破点:
{ "Qwen2.5-72B-Inst-Fine-tuning": "微调后F1提升37%", "InternVL3-78B": "视觉理解接近闭源模型", "Llama4-Mave-17Bx128E": "长文档处理效率最佳" }
-
视觉描述的倍增效应:
-
添加详细图像描述使Qwen2.5系列指标平均提升52% -
LLaMA3-70B的ROUGE-L值从0.48跃升至0.71
-
复现研究结果全指南
项目提供完整的可复现路径:
# 示例:复现Qwen3-4B在纯文本模式的结果
python eval_all.py --model qwen3-4b --setting 20 --mode pure-text
支持复现的模型标识对照表:
{
"顶级闭源模型": ["Gemini-2.5-Pro", "GPT-4o", "Claude-3.5-Sonnet"],
"优秀开源模型": ["Qwen3-32B", "Llama3.3-70B-Inst", "InternVL3-78B"],
"微调典范": [
"Qwen2.5-72B-Inst-Fine-tuning",
"Deepseek-R1-Distill-Llama-70B"
]
}
学术引用与许可规范
@misc{dong2025mmdocrag,
title={Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering},
author={Dong, Kuicai and Chang, Yujing and Huang, Shijie and Wang, Yasheng and Tang, Ruiming and Liu, Yong},
year={2025},
eprint={2505.16470},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
许可声明:
本数据集仅供研究使用,需遵守OpenAI使用政策
资源索引
-
📖 论文全文 -
🏠 项目主页 -
🤗 HuggingFace数据集 -
👉 GitHub代码库
“
研究启示:MMDocRAG 不仅是一个测试基准,更为多模态文档问答系统的发展指明了方向——融合视觉语义理解、优化证据选择机制、提升跨页推理能力,将是下一代智能文档处理系统的核心突破点。