多模态模型归档 | 高效码农

3个月前高效码农

Video-R4：像人类一样“反复咀嚼”视频，让文本密集问答不再漏看关键帧核心问题：如何让大模型在文本繁多、画面一闪而过的视频里，像人一样“暂停—放大—重读”，不再漏掉关键信息？本文欲回答的核心问 …

4个月前高效码农

引言：AI“耳朵”的进化——从Audio Flamingo到Audio Flamingo 3 2025年10月，NVIDIA发布Audio Flamingo 3（AF3），一款支持10分钟音频理解的7 …

7个月前高效码农

MiniCPM-V 4.5：手机可运行的GPT-4o级多模态模型——全面解析与实用指南如果你正在寻找一款既能在手机上流畅运行，又具备GPT-4o级别视觉语言能力的多模态模型，那么面壁最新推出的Min …

10个月前高效码农

探索MMaDA：统一多模态扩散模型的技术突破与实践指南一、什么是MMaDA？ MMaDA（Multimodal Large Diffusion Language Models）是新一代多模态基础模型 …