SAM 3 与 SAM 3D:下一代图像理解与三维重建的实践指南

理解图像中的物体、分辨细节、跟踪视频里的动作,以及从单张照片重建具有深度和形状的三维物体,是计算机视觉长期以来的核心目标。随着视觉模型不断进化,图像分割、目标检测、视频跟踪与 3D 重建逐渐从各自独立的方向走向融合。

Meta 发布的 Segment Anything Model 3(SAM 3)SAM 3D,正是这种融合的最新代表。
这两个模型覆盖了从二维视觉理解到物体与人体三维形态重建的完整链路,为研究者、开发者和创作者带来了一个统一、灵活、贴近真实世界的视觉工具集。

这篇文章将基于两篇官方文件内容,系统讲解:

  • SAM 3 的能力与底层做法
  • SAM 3D Objects 如何从单张图像重建三维物体
  • SAM 3D Body 如何从单图估计完整人体形状与姿态
  • 数据引擎和训练方法如何降低标注难度
  • 这些能力怎样被用于产品与研究场景
  • 限制和未来方向

文章采用自然、直接、面向理解的写法,用尽可能贴近实际工作的问题方式来组织内容,并包含 FAQ 模块帮助你快速定位答案。


目录

  1. 为什么 SAM 3 和 SAM 3D 值得关注

  2. SAM 3:统一的二维视觉理解系统

    • 功能与特性
    • Promptable concept segmentation
    • 多种提示方式
    • 与大语言模型协作
    • 模型架构
    • 数据引擎与大规模标注
    • 真实应用场景
  3. SAM 3D:从图像到三维的跃迁

    • SAM 3D Objects:三维物体重建
    • SAM 3D Body:三维人体重建
    • 数据与训练体系
    • 性能表现
    • 真实应用
  4. 模型局限性

  5. HowTo:如何开始使用这些模型

  6. FAQ:常见问题与解答

  7. 总结:SAM 3 与 SAM 3D 的意义


为什么 SAM 3 和 SAM 3D 值得关注

传统视觉模型往往专注在单一任务,例如:

  • 目标检测
  • 语义分割
  • 实例跟踪
  • 三维重建
  • 姿态估计

研究者和工程师通常需要将多个模型串联,处理输入输出格式不一致的问题,也要不断面对模型泛化性不足、标签集有限、难以适配真实复杂场景等限制。

SAM 3 与 SAM 3D 提供的是另一种方向:

一个统一模型,能处理不同视觉任务,并让非专业用户也可以动手实验。

更重要的是,它们构建了一个从 2D 到 3D 的连续能力带:

  • SAM 3:理解图像、视频中的物体
  • SAM 3D Objects:从图像重建三维物体
  • SAM 3D Body:重建具有姿态、形状的三维人体
  • Playground:人人都能上传图片进行操作

这一整套体系让“拍一张照片 → 理解物体 → 获取三维形状”变得越来越接近常规工作流程。


SAM 3:统一的二维视觉理解系统

SAM 3 的目标是让用户可以用不同方式描述“我想找到什么”,并让模型找出所有符合描述的物体。这种方式可以是文字、例图、标注框、点,甚至是已有的掩码。

这对许多日常任务非常实用,比如:

  • 找出图里所有的“蓝色杯子”
  • 标出视频中“走路的人,但不拿礼物盒的那几位”
  • 给定一个示例图像中的标志,让模型在另一张图里找到所有同类物体

从文件内容来看,SAM 3 的核心特性包括:


1. Promptable Concept Segmentation

这是 SAM 3 的核心能力:
让模型根据文字或示例图片,找到图像或视频中的所有相应物体。

文件中指出的关键点包括:

  • 支持开放词汇的短语(如“硬壳书”)
  • 支持示例图片作为提示
  • 更复杂的描述如“坐着但手里没有礼物的人”也可以借助 MLLM 得到结果
  • 在 SA-Co 测试集上,比现有模型提升 2 倍性能

为了支持这种开放概念的分割能力,Meta 创建了一个新的基准:SA-Co(Segment Anything with Concepts),用于测量模型在大词汇量下的检测与分割能力。


2. 多种提示方式

SAM 3 支持的提示种类包括:

  • 短语文本提示(开放词汇)
  • 示例图像
  • 传统视觉提示:框、点、掩码
  • 混合提示

这让模型适应不同的使用方式。例如:

  • 不知道如何描述物体?可以通过框选来给提示
  • 文本不好描述的稀有物体?可以用示例图片
  • 视频框选第一帧某个物体,其后的帧由 SAM 3 跟踪

3. 在多任务上统一表现

文件中强调 SAM 3 在多个任务上相比之前的 SAM 版本表现都有提升:

  • 交互式视觉分割
  • 文本提示分割
  • 视频跟踪
  • 提示式检测

同时在多个基准中表现领先:

  • LVIS 零样本
  • 对象计数(CountBench)
  • 与 Gemini 2.5 Pro、OWLv2、GLEE 等模型比较时获得明显优势

运行速度方面:

  • H200 GPU 上单图 30ms
  • 能实时处理约 5 个对象的视频跟踪

4. 与大语言模型协作:SAM 3 Agent

SAM 3 可以作为工具被 MLLM 调用。
例如当用户问一个概念性问题:

“图片中用来控制马的物体是什么?”

MLLM 会:

  1. 将问题拆解成若干名词短语(例如“缰绳”),
  2. 让 SAM 3 检测并返回掩码,
  3. 选择质量最佳的结果给用户。

这种协同方式让模型可以处理复杂推理场景,而 SAM 3 本身无需额外训练。

文件中指出:

  • 在 ReasonSeg、OmniLabel 等复杂自由文本任务上表现优于过往方法。

5. 大规模数据引擎:AI + 人类标注协作

高质量大规模分割数据集长期以来都非常难获得,因此 Meta 构建了一个新的数据引擎用于 SAM 3 的训练。

流程由三类角色组成:

  • SAM 3 与其他模型自动生成掩码和标签
  • 基于 Llama 3.2v 的自动标注器对候选结果进行验证和筛选
  • 人类标注者补充困难样本、修正错误掩码

文件中给出的关键数字:

  • 覆盖超 400 万独特概念
  • AI 标注器在部分任务上达到甚至超过人类准确度
  • 混合方式比纯人类标注提升超过 2 倍效率
  • 针对负样本(图像中不存在概念)速度提升 5 倍以上
  • 针对正样本提升 36% 速度

这一体系在训练过程中形成反馈循环,让数据量、数据质量和模型能力相互促进。


6. 模型架构简述

SAM 3 的架构基于文件内容包含以下组件:

  • 文本编码器 & 图像编码器:来自 Meta Perception Encoder
  • 检测器:基于 DETR
  • 视频追踪组件:来自 SAM 2 的 memory bank
  • 多个开源组件与数据集共同组成整体系统

设计难点在于“概念分割”和“实例跟踪”对特征的一致性要求不同,需要通过训练策略来避免任务冲突。


7. 真实应用:从创作者到科学研究

文件列出了多个真实使用场景:

  • Instagram Edits:创作者一键对视频中某人或某物添加特效
  • Meta AI 应用(Vibes / meta.ai):编辑 AI 生成的视频内容
  • Facebook Marketplace 的 View in Room:在家居类商品上应用
  • 野生动物监测(SA-FARI 数据集):标注 100+ 种动物
  • 海洋研究(FathomNet):水下影像的实例分割

在这些场景中,SAM 3 的开放词汇和高速运行让复杂的视觉编辑操作变为单步流程。


SAM 3D:从图像到三维的跃迁

如果说 SAM 3 聚焦的是“理解图像里的是什么”,SAM 3D 则回答“它们的三维形状是什么样的”。

从文件内容可知,SAM 3D 包含两个方向:

  • SAM 3D Objects:三维物体和场景重建
  • SAM 3D Body:人体三维形状与姿态估计

它们都来自同一个思路:
使用大规模真实世界图像数据,结合自动化的数据引擎,让模型能在复杂自然场景中推断三维结构,而不依赖实验室环境或纯合成素材。


SAM 3D Objects:单图三维物体重建

SAM 3D Objects 的作用:

从单张自然图像中重建物体的三维形状、纹理、姿态与场景布局。

文件中强调的关键突破包括:

1. 解决真实世界 3D 数据匮乏的问题

真实世界的 3D 标注极其困难,需要专业 3D 艺术家手动建模。
Meta 的解决方案是:

  • 让模型生成多个三维候选
  • 让标注者对质量进行评分、排序
  • 复杂案例交给专业艺术家处理

这种过程比“从零开始建模”更高效,文件中给出的规模是:

  • 标注 约 100 万张自然图片
  • 生成 约 314 万个模型参与训练

这在三维数据中是前所未有的规模。


2. 采用多阶段训练方式:预训练 + 对齐(post-training)

文件内容描述:

  • 在大量合成 3D 资产上预训练(类似 LLM 以大规模语料作为预训练)
  • 使用 data engine 标注的真实世界数据进行后训练对齐
  • 模型改进 → 数据更好 → 进一步提升模型(形成正循环)

这种方法让模型不再局限于单一干净背景,而能应对:

  • 遮挡
  • 间接视角
  • 小物体
  • 复杂场景

3. 性能表现

文件内容指出:

  • 人工偏好测试中,SAM 3D Objects 相比其它模型有至少 5:1 的胜率
  • 能在数秒内返回完整纹理三维模型
  • 支持自由控制相机视角
  • 支持重建完整场景的多物体布局
  • 能用于机器人等实时场景

SAM 3D Body:单图人体三维形态重建

SAM 3D Body 面向的是另一个难题:
从单张图像估计人体的三维形状、骨骼结构、姿态。

文件中的技术要点包括:

1. Promptable 的人体重建

用户可以通过:

  • 2D 关键点
  • 掩码
  • 其他提示方式

来引导模型具体输出哪部分人体特征。


2. 使用 Meta Momentum Human Rig(MHR)

文件强调 MHR 是一种新的开放格式:

  • 将骨骼结构与软组织形状分离
  • 更易解释
  • 用于模拟与重建

SAM 3D Body 直接预测 MHR 参数,从而得到三维人体。


3. 大规模数据与训练策略

文件中的关键信息:

  • 使用 约 80 万级别的高质量图像
  • 数据来自多摄像机捕捉系统、合成数据、网络多样图像
  • 使用自动数据引擎找到姿态稀有或遮挡严重的样本
  • 模型被训练来适应罕见场景、不同服装、不同角度
  • 采用多步 refinement 提升 2D-3D 贴合度

4. 性能表现

文件显示:

  • 在多个三维人体 benchmark 上明显领先
  • 支持交互式重建
  • 在复杂姿势、遮挡、多人体场景都有较强鲁棒性

与 SAM 3D Objects 结合,构成一个完整的“物体 + 人体”的三维理解体系。


模型局限性

文件中明确提到了一些限制,值得提前了解。

1. SAM 3 的限制

  • 在医学、科研等细粒度专业概念上零样本能力弱(如“血小板”)
  • 不支持长文本描述(如“最右边的第二本书”)
  • 视频中物体越多,推理成本线性上升
  • 对于高度相似的多物体场景,需要共享上下文才能进一步提升

2. SAM 3D Objects 的限制

  • 分辨率有限,导致复杂物体可能缺失细节
  • 未学习物体之间的物理关系(如接触和相互作用)
  • 无法一次预测多个物体,需要逐一处理

3. SAM 3D Body 的限制

  • 未考虑多人之间或人与物体的交互
  • 手部细节尚不及专用手势模型

这些限制为后续研究提供了明确的方向。


HowTo:如何开始使用这些模型

以下内容基于文件中的真实指引,不添加外部操作指南。

1. 打开 Segment Anything Playground

所有模型都可以在 Playground 上直接体验:

  • 上传图片或视频
  • 选择对象或人体
  • 提供文本或视觉提示
  • 进行分割、重建、编辑

无需编写代码。

2. 获取模型文件

文件中列出了可直接下载的资源:

  • SAM 3 模型文件
  • SAM 3D Objects 推理代码
  • SAM 3D Body 推理代码
  • MHR 模型
  • 评估数据集、训练数据(部分公开)

3. 使用模板进行快速编辑

Playground 提供多种模板,例如:

  • 打码(面部、车牌、屏幕)
  • 聚光灯效果
  • 物体高亮
  • 动作轨迹
  • 应用于第一人称视频(如 Aria Gen 2 眼镜)

这些模板既可以用于数据标注,也可以用于压力测试。


FAQ:常见问题与解答

以下问答完全基于文件内容整理。


SAM 3 能识别任何我输入的文字描述吗?

文件指出:
它擅长处理简短的开放词汇名词短语,例如“硬壳书”“红色条纹伞”。
长复杂描述目前不支持,需要借助 MLLM 组合使用。


我能用示例图片而不是文字进行提示吗?

可以。
SAM 3 支持 exemplar prompt,即使用示例图像中的物体作为提示。


SAM 3 的分割效果比以前的 SAM 好多少?

根据文件说明:
在 SA-Co 测试中,SAM 3 的效果比现有系统提升约 2 倍,并在旧版任务中达到或超过最先进模型。


SAM 3D 真的能从单张图像重建复杂物体吗?

文件给出的实验结果显示:

  • 人类偏好测试中胜率至少 5:1
  • 重建包括纹理、姿态
  • 支持多物体场景
  • 在自然场景中也能表现良好

人体重建在遮挡或奇怪姿势下是否有效?

文件明确指出:
SAM 3D Body 在大量稀有、遮挡样本上训练,因此对这些情况更稳健。


三维人体结果能跟踪手部吗?

文件说明:
虽然已有提升,但手部精度仍不如专门的手部模型。


可以用于机器人视觉吗?

文件中提到:
SAM 3D Objects 支持几秒内生成三维结果,适用于接近实时的机器人场景。


视频中对象很多,会不会变慢?

SAM 3 的视频推理成本会随对象数量线性增长。


可以自定义数据集进行微调吗?

文件中明确:
Meta 已提供微调方法,能让模型适配新概念和新领域。


总结:SAM 3 与 SAM 3D 的意义

从你提供的两份文件内容可以看出,SAM 3 与 SAM 3D 的发布不仅是模型能力的提升,更代表了一种新的视觉理解方法论。

它们共同构建了一个完整链路:

  1. 理解图像与视频中的对象(SAM 3)
  2. 在复杂场景中分割与跟踪对象(SAM 3)
  3. 从单图重建三维物体(SAM 3D Objects)
  4. 从单图重建三维人体(SAM 3D Body)
  5. 通过 Playground 让所有人参与实验与创作

这意味着许多以前必须由多模型协作才能完成的任务,如:

  • 给视频中某人物添加特效
  • 重建房间中多个物体的三维布局
  • 从照片中生成人体形状并进行编辑
  • 构建真实世界的三维数据集

现在可以由同一系列模型完成。

三维世界的理解一直被视为视觉领域的难题,SAM 3D 的方案展示了通过数据引擎、模型循环、合成与真实数据结合的方式,可以让模型从二维像素跨越到三维结构。

未来仍有许多方向需要探索,例如:

  • 更高分辨率三维重建
  • 多物体互动推理
  • 更长文本描述理解
  • 更快的视频推理
  • 在特定专业领域的精细化适配

但从文件内容来看,这一次发布已经形成一个统一、可扩展、真实世界可用的视觉理解体系。

对于研究者,这是一个新的基础工具。
对于工程师,这是一个高度灵活的视觉模块。
对于创作者,这是一个能够直接操作图像与三维物体的创作平台。

而对整个人工智能领域来说,SAM 3 和 SAM 3D 预示着“任何图像都可以被分割、理解、重建”的未来正在加速到来。