Qwen3-VL 256K超长视频压缩技术:如何把2小时影像塞进小模型?

1个月前 高效码农

把 256 K 超长视频塞进“小”模型:Qwen3-VL 技术报告完全导读 适合谁读: 做 CV/NLP 的研究生、工程师,想快速判断 Qwen3-VL 能不能直接拿来用 产品经理/技术决策者,想知道 …

Uni-MoE-2.0-Omni:全球首个全开源多模态MoE模型,听懂看懂还会画画

1个月前 高效码农

Uni-MoE-2.0-Omni:用一套 MoE 模型同时听懂、看懂、说话、画画,还开源了全部代码 核心问题:有没有一种“全开源、一站式”的大模型,能同时处理文本、图像、音频、视频,并且把“理解”与“ …