站点图标 高效码农

大型多模态推理模型:从感知到规划的演变

引言

在人工智能领域,大型多模态推理模型(LMRMs)正逐渐成为一项极具前景的技术。这些模型能够整合文本、图像、音频和视频等多种模态,以支持复杂的推理能力,目标是实现全面的感知、精准的理解和深度的推理。本文将深入探讨大型多模态推理模型的发展历程、关键技术、数据集与基准测试,以及面临的挑战和未来发展方向。

大型多模态推理模型的四个发展阶段

第一阶段:感知驱动的推理——开发特定任务的推理模块

在早期,多模态推理主要依赖于为特定任务设计的模块,推理过程隐式地嵌入在表示、对齐和融合阶段中。例如,2016 年的神经模块网络(NMN)能够动态组装任务特定的模块,用于视觉 – 文本推理。同年,HieCoAtt 通过层次化的跨模态注意力对齐问题语义和图像区域。这些模型主要采用监督学习的方式进行训练。

随后,基于视觉 – 语言模型的模块化推理逐渐兴起。2019 年的 ViLBERT 通过双流变换器和跨模态注意力对齐视觉 – 文本特征。LXMERT 则通过在多种任务上的双流预训练增强了跨模态推理能力。这些模型通常采用预训练加微调的方式进行训练。

第二阶段:以语言为中心的短推理——系统 1 推理

随着大规模多模态预训练模型的出现,模型开始展现出一定的推理能力,但这些推理往往较浅,主要依赖于隐式相关性而非明确的逻辑过程。为解决这一问题,多模态链式思考(MCoT)应运而生。通过引入中间推理步骤,MCoT 提高了跨模态对齐、知识整合和上下文定位的能力。

在这一阶段,主要存在三种范式:基于提示的 MCoT、具有预定义模式的结构化推理,以及利用轻量级外部模块的工具增强推理。例如,Cantor 模型通过感知和决策两个阶段解耦感知和推理过程。TextCoT 则先总结视觉上下文,然后生成基于链式思考的响应。

第三阶段:以语言为中心的长推理——系统 2 思考和规划

为处理更复杂的多模态任务,研究者们开始开发类似系统 2 的推理方式,这种推理是深思熟虑的、组合式的,并由明确的规划引导。通过延长推理链、将其植根于多模态输入,并使用监督或强化信号进行训练,这些模型开始展现出长距离推理和适应性的问题分解能力。

在这一阶段,跨模态推理成为关键。例如,IdealGPT 使用 GPT 迭代分解和解决视觉推理任务。AssistGPT 则通过外部工具(如 GPT4、OCR 和定位工具)进行规划、执行和检查。此外,MM-O1 和 MM-R1 等模型也在这一阶段崭露头角,它们通过蒙特卡洛树搜索(MCTS)等算法,结合视觉和语言模态,实现了更复杂的推理任务。

向原生多模态推理模型迈进

尽管大型多模态推理模型在长链推理方面展现出潜力,但其以语言为中心的架构限制了其在现实场景中的有效性。具体来说,它们在处理和推理交织的多样化数据类型方面的能力有限,且在实时、迭代地与动态环境交互方面有待提升。

为解决这些问题,研究者们提出了原生多模态推理模型(N-LMRMs)的概念。这些模型能够处理更广泛的数据类型,并在动态环境中进行交互式推理。例如,R1-Searcher、Search-o1 和 DeepResearcher 等模型通过强化学习(RL)增强了语言模型的搜索能力,适用于多跳问答和数学任务。Magma 模型则在 820K 空间 – 语言标记数据上进行预训练,能够处理多模态理解和空间推理任务。

数据集与基准测试

多模态推理模型的发展离不开丰富的数据集和基准测试。这些资源为模型的训练和评估提供了基础。

多模态理解

多模态理解包括视觉中心理解和音频中心理解。例如,VQA、GQA 和 DocVQA 等基准测试用于评估模型在视觉问答任务中的表现。而 ALIGN、LTIP 和 YFCC100M 等数据集则为模型提供了大量的视觉 – 文本对。

多模态生成

多模态生成涉及跨模态生成和联合多模态生成。GenEval 和 T2I-CompBench++ 等基准测试用于评估模型在图像生成任务中的表现。MS-COCO 和 Flickr30k 等数据集则为模型提供了丰富的图像和文本数据。

多模态推理

多模态推理包括通用视觉推理和领域特定推理。NaturalBench 和 VCR 等基准测试用于评估模型在视觉常识推理任务中的表现。VCR 和 TDIUC 等数据集则为模型提供了复杂的视觉推理场景。

多模态规划

多模态规划涉及 GUI 导航和具身及模拟环境中的规划。例如,WebArena 和 Mind2Web 等基准测试用于评估模型在网页导航任务中的表现。AMEX 和 RiCo 等数据集则为模型提供了丰富的交互式环境。

挑战与未来发展方向

尽管大型多模态推理模型取得了显著进展,但仍面临诸多挑战。例如,如何实现真正的视觉中心长推理,如何进行交互式多模态推理等。未来的发展方向包括构建能够主动与环境交互的多模态智能体,整合任何模态的语义,以及在复杂、开放世界场景中解决模糊性问题。

结论

综上所述,大型多模态推理模型的发展历程体现了从感知驱动的模块化推理到以语言为中心的短推理,再到以语言为中心的长推理的演变。尽管取得了显著进展,但仍有许多挑战需要克服。通过构建能够实现多模态智能体推理和全面语义整合的原生多模态大型模型,有望弥合孤立任务性能与通用现实问题解决之间的差距,推动人工智能技术迈向新的高度。

退出移动版