计算机视觉归档 | 第2页共6页

RL驱动的3D生成革命：从“能生成”到“会思考”的范式跃迁

3个月前高效码农

当强化学习遇见3D生成：我们为何需要一场从”能生成”到”会思考”的范式革命核心问题：为什么现有的文本到3D生成模型在复杂场景下总是”差一口 …

UniUGP终结自动驾驶长尾困境！看懂、想到、开出，一套方案搞定罕见场景“翻车”

3个月前高效码农

让长尾场景不再“翻车”——UniUGP 如何一次性把“看懂、想到、开出”做成闭环核心问题：自动驾驶在罕见场景里为何总掉链子？UniUGP 用一套“理解-生成-规划”统一框架，把大模型的语言推理、世界 …

AI如何生成连贯的电影级镜头？揭秘OneStory自适应记忆黑科技！

3个月前高效码农

OneStory：如何用AI生成连贯的多镜头故事视频？摘要 OneStory通过自适应记忆机制，解决了传统视频生成模型在跨镜头叙事连贯性上的难题。该模型在文本和图像条件下均实现58.74%的角色一致 …

PaCo-RL：如何用成对强化学习解决AI作图的视觉一致性难题？

3个月前高效码农

PaCo-RL：通过成对奖励建模推进一致图像生成的强化学习摘要 PaCo-RL是一种创新的强化学习框架，专为一致图像生成而设计，解决了在多个图像中保持身份、风格和逻辑一致性的核心挑战。该框架集成了P …

吊打7B！EMMA：华为诺亚只用4B参数，重写多模态大模型游戏规则

3个月前高效码农

EMMA：可能是2025年最聪明的统一多模态模型（只用4B参数） 2025年，多模态大模型的竞争已经彻底白热化。几乎每周都有新模型宣称自己“统一了理解与生成”，但真正做到又快又强、还能同时搞定图像编辑 …

GLM-4.6V多模态AI：开启视觉感知到可执行动作的新纪元

3个月前高效码农

GLM-4.6V：开启多模态AI的视觉推理新纪元在人工智能飞速发展的今天，能够同时理解图像和文本的“多模态”模型，正逐渐成为技术演进的核心方向。今天，我们要深入探讨的，是近期在开源社区引发广泛关注的 …

视频差异描述(ViDiC)揭秘！AI如何理解动态场景中的相似与差异

3个月前高效码农

视频差异描述：探索动态场景中的相似与不同本篇文章欲回答的核心问题：视频差异描述任务是什么，它如何帮助我们更好地理解视频编辑和多模态模型的能力？视频差异描述（ViDiC）任务要求模型生成自然语言描述 …

OneThinker：颠覆视觉AI的统一模型如何实现10项全能？

3个月前高效码农

OneThinker：一个模型，理解图像与视频的世界你是否想象过，存在一个“全能”的AI，既能解答复杂的数学图表题，又能为视频中的物体进行精准追踪和分割？过去，我们需要为图像问答、视频分析、物体定位 …

ViBT桥接变换器：比传统扩散模型快4倍的条件生成新范式

3个月前高效码农

ViBT：大规模视觉桥接变换器，重新定义条件生成本文要回答的核心问题：ViBT 到底是什么？它为什么能在图像编辑、视频风格迁移、视频上色、帧插值等任务上，既保持高质量，又比传统扩散模型快 4 倍？ …

STARFlow完整实战指南：3B图像到7B视频的Normalizing Flow生成革命

3个月前高效码农

STARFlow 家族全景拆解：从 3B 图像到 7B 视频，一套可执行的开源方案核心问题：苹果最新开源的 STARFlow 与 STARFlow-V 到底能做什么？值不值得立刻上手？一句话回答： …

Video-R4：像人类一样反复咀嚼视频，彻底解决文本密集视频漏看难题

3个月前高效码农

Video-R4：像人类一样“反复咀嚼”视频，让文本密集问答不再漏看关键帧核心问题：如何让大模型在文本繁多、画面一闪而过的视频里，像人一样“暂停—放大—重读”，不再漏掉关键信息？本文欲回答的核心问 …

Qwen3-VL 256K超长视频压缩技术：如何把2小时影像塞进小模型？

3个月前高效码农

把 256 K 超长视频塞进“小”模型：Qwen3-VL 技术报告完全导读适合谁读：做 CV/NLP 的研究生、工程师，想快速判断 Qwen3-VL 能不能直接拿来用产品经理/技术决策者，想知道 …

Monet揭秘：AI如何在潜在视觉空间实现推理革命？

3个月前高效码农

Monet：在多模态潜在视觉空间中的推理革命在人工智能领域，让机器“看懂”图像并像人类一样进行推理一直是一个核心挑战。近年来，随着多模态大语言模型的崛起，研究者们开始探索如何将视觉信息更有效地融入推 …

6B参数模型8步生成大片？深度解析Z-Image-Turbo如何颠覆AI图像生成

3个月前高效码农

核心问题：为什么只有 6B 参数的 Z-Image-Turbo，在 8 次网络前向（NFE）内就能媲美甚至超越 20B+ 级别的大模型？一句话回答：它将“数据-架构-训练-推理”全链路重新设计，把“ …

1B参数小模型如何横扫OCR六大赛道？HunyuanOCR全栈技术解密

4个月前高效码农

把 1 B 参数的“小”模型炼成 OCR 六边形战士：HunyuanOCR 全栈解析与实战笔记 “ 核心问题：只有 1 B 参数的 HunyuanOCR，为什么能在文字检测、文档解析、信息抽取、字幕提 …

SAM 3与SAM 3D革命性突破：从图像分割到三维重建的终极指南

4个月前高效码农

SAM 3 与 SAM 3D：下一代图像理解与三维重建的实践指南理解图像中的物体、分辨细节、跟踪视频里的动作，以及从单张照片重建具有深度和形状的三维物体，是计算机视觉长期以来的核心目标。随着视觉模型 …

Depth Anything 3：单ViT架构如何用任意照片重建厘米级3D模型？

4个月前高效码农

Depth Anything 3：用任意视角图片“拼”出 3D 世界核心问题：有没有一种极简架构，能把单张图、视频或多视角照片一次性变成一致、可量度的 3D 几何？Depth Anything 3 …

ERNIE-4.5-VL-28B-A3B-Thinking：轻量级多模态AI模型的性能与应用

4个月前高效码农

ERNIE-4.5-VL-28B-A3B-Thinking：多模态AI领域的突破性进展在人工智能快速发展的今天，多模态模型已经成为连接视觉与语言理解的重要桥梁。百度最新推出的ERNIE …

Cambrian-S：当视频AI开始”预判”世界，空间超感知离我们还有多远？

4个月前高效码农

核心问题：为什么顶级多模态模型在”数椅子”这件事上会惨败？如果你让GPT-4o或Gemini-2.5看一段120分钟的房屋巡视视频，然后问”视频里一共出现了多少把 …

美团5600亿参数神兽！LongCat-Flash-Omni如何实现全模态实时交互？

4个月前高效码农

当多模态遇上闪电猫：深入解读美团 LongCat-Flash-Omni 核心问题：一款能同时理解文字、图像、音频、视频，并实现实时交互的模型，究竟是怎样被构建出来的？美团的 LongCat-Flas …