HY-World 1.5革命性深度解析:如何用开源框架实现24FPS的实时交互世界建模?

7天前 高效码农

HY-World 1.5(也称为WorldPlay)是一个开源的实时交互世界建模系统,能够以24 FPS的速度生成具有长期几何一致性的流式视频。它通过双重动作表示、重构上下文记忆、WorldCompa …

Depth Anything 3:单ViT架构如何用任意照片重建厘米级3D模型?

1个月前 高效码农

Depth Anything 3:用任意视角图片“拼”出 3D 世界 核心问题:有没有一种极简架构,能把单张图、视频或多视角照片一次性变成一致、可量度的 3D 几何?Depth Anything 3 …

NVIDIA ViPE开源工具:颠覆视频转3D几何数据的技术突破

3个月前 高效码农

你是否曾经好奇过,机器人或增强现实系统是如何从简单的视频中理解 3D 世界的布局?这是一个复杂的问题,尤其是在视频拍摄时伴随着晃动摄像头或移动物体的情况下。NVIDIA 研究团队开发的 ViPE(视频 …

SupeRANSAC如何实现计算机视觉鲁棒估计的革命性突破?

6个月前 高效码农

SupeRANSAC:计算机视觉中的鲁棒估计新标杆 在计算机视觉的世界里,有一个问题始终困扰着研究者和工程师:如何从充满噪声和错误的数据中,准确地找出一幅图像和另一幅图像之间的关系,或者一个物体在空间 …