多模态学习归档 | 高效码农

5个月前高效码农

当多模态遇上闪电猫：深入解读美团 LongCat-Flash-Omni 核心问题：一款能同时理解文字、图像、音频、视频，并实现实时交互的模型，究竟是怎样被构建出来的？美团的 LongCat-Flas …

5个月前高效码农

告别“一句话”时代：把 GUI 指令变成会思考的“多面手”——UI-Ins 实战全记录 “ 核心问题：为什么同一张界面截图，换一句人话描述，模型就能暴涨 76% 准确率？本文用一次完整实验复盘，带你亲 …

9个月前高效码农

AI如何像人类一样主动搜索？MMSearch-R1让多模态模型学会”按需查资料” 数据可视化引言：当AI遇到”知识盲区” 想象你正在使用智能助手查询某 …

9个月前高效码农

突破视觉问答的认知边界：知识与视觉笔记如何增强多模态大模型推理能力引言：视觉问答的认知挑战在当今信息爆炸的时代，视觉问答（VQA）系统需要像人类一样理解图像内容并回答复杂问题。然而，现有的多模态大 …

9个月前高效码农

笔记引导的多模态大模型推理：用知识笔记与视觉笔记提升视觉问答能力本文介绍华南师范大学团队在CVPR 2025提出的创新框架NoteMR，通过双笔记机制解决知识型视觉问答中的噪声干扰与视觉幻觉问题，在 …

10个月前高效码农

Meta提出Multi-SpatialMLLM：多模态大语言模型的多帧空间理解新突破引言：从单帧到多帧的空间理解进化近年来，多模态大语言模型（MLLMs）在图像描述、视觉问答等任务中展现了强大能力 …