多模态技术归档 | 高效码农

4个月前高效码农

把 256 K 超长视频塞进“小”模型：Qwen3-VL 技术报告完全导读适合谁读：做 CV/NLP 的研究生、工程师，想快速判断 Qwen3-VL 能不能直接拿来用产品经理/技术决策者，想知道 …

4个月前高效码农

Uni-MoE-2.0-Omni：用一套 MoE 模型同时听懂、看懂、说话、画画，还开源了全部代码核心问题：有没有一种“全开源、一站式”的大模型，能同时处理文本、图像、音频、视频，并且把“理解”与“ …