MIM4D:面向自动驾驶的多视角视频掩码建模方法解析 引言:自动驾驶为何需要更好的视觉表示学习? 在自动驾驶系统中,摄像头捕捉的多视角视频数据是感知环境的核心信息来源。然而,现有方法面临两大挑战: 依 …