无需人工标注！多视角视频最佳视点选择的AI黑科技揭秘

高效码农

6 月前

什么是多视角视频的“最佳视点”选择？

在日常生活中，我们常通过“如何做”视频学习新技能：从蛋糕裱花到篮球上篮。随着任务复杂度增加，不同的拍摄视角对人类观察者的帮助会截然不同——

如果能让计算机自动在多视角视频中，每一时刻都选择最有信息量的那一视角，就能减轻人们在剪辑或实时观看时的认知负担。

然而，过去方法要么依赖行业经验和手工规则，要么需要昂贵的“最佳视点”人工标注，难以推广。本文提出了一种弱监督方法，仅利用视频对应的文本解说，即可自动学习“最佳视点”选择。

视角–文本匹配假设

如果从某个摄像机视角生成的描述（caption）能更准确地匹配该视频剪辑的全局解说（narration），则该视角很可能包含了对理解该动作最有价值的信息。
伪标签生成
- 利用多个预训练视频字幕模型（Video-Llama、VideoChat2 等）对每个视角分别生成字幕
- 用标准字幕评价指标（如 CIDEr）把它们与人类写的视角无关解说进行比对
- 将分数最高的视角集合视为“最佳视点”伪标签
视点选择模型训练
- 在没有任何人工视点标注的情况下，用上述伪标签监督训练一个视点分类器
- 为增强对视角差异的敏感度，额外训练一个相对相机位姿预测任务，让模型学习区分不同摄像头位置

经过这样的弱监督流程，模型在推理阶段仅需输入多视角原始视频，即可在每个时间段输出最值得观看的视角。

输入：一个多视角视频剪辑（Clip），有 $N$ 个同步摄像头视角
步骤：
1. 令每个字幕器 $k$（共 $K=3$）对每个视角 $i$ 生成字幕 $N^k_i$
2. 用 CIDEr 等指标将 $N^k_i$ 与该剪辑的全局解说 $N^*$ 逐一比对，得到分数并对视角进行排名
3. 不同字幕器各自选出最高分视角，再取它们的交集或并集作为最终的“最佳视点”伪标签集合 $\mathcal{B}$
为何有效？
- 多模型投票可抑制单一字幕器的噪声或偏差
- 解说 $N^*$ 是人为在观看所有视角后写下的整体描述，具有权威性

视点选择器由两部分构成，联合训练后可仅凭视频帧做出最佳视角预测。

视点分类损失

$$ L_W = \min_{B’ \in \mathcal{B}} \mathrm{CrossEntropy}(\tilde B, B’)
$$

若伪标签包含多个“同分”视角，挑选模型最容易拟合的一个来计算损失，有助训练稳定。
位姿预测损失

$$ L_P = \frac{1}{N^2}\sum_{i,j} \mathrm{CrossEntropy}(P(i,j),\,P^*(i,j))
$$
总损失

$$ L = L_W + \lambda\,L_P,\quad \lambda=0.5
$$

Ego-Exo4D
- 共 86 小时、多摄像头（1 视角头戴 + 4 固定外摄）
- 包含体育、烹饪、舞蹈、自行车维修等多种活动
- 648,665 对剪辑–解说对
LEMMA
- 20 小时、双视角（头戴 + 单外摄）、家庭日常活动
- 63,538 对剪辑–解说对

方法	CIDEr ↑	METEOR ↑	V-IoU ↑	N-IoU ↑	NC-IoU ↑
Ego-only	12.2	47.2	32.2	36.7	30.6
Random	11.5	45.9	30.4	36.6	31.0
手物检测置信度（H-O）	12.6	47.4	33.6	36.7	29.6
Snap angles	12.2	46.7	30.7	35.8	29.1
最长字幕	10.7	47.3	30.5	34.6	28.8
本方法 LANGVIEW	13.5	48.4	33.7	39.2	32.9

在两大数据集上均显著领先所有基线，充分证明了“语言弱监督 + 位姿正则”方案的有效性。

本文提出的 LANGVIEW 框架，通过对多视角视频中各视角生成的字幕与全局解说进行质量对比，自动生成“最佳视点”伪标签，并结合相机位姿预测，让模型在无人工标签的情况下取得了业内领先的视角选择效果。方法简单易推广，能为视频剪辑、智能摄像、教学展示等多种场景提供自动化支持。