什么是多视角视频的“最佳视点”选择?
在日常生活中,我们常通过“如何做”视频学习新技能:从蛋糕裱花到篮球上篮。随着任务复杂度增加,不同的拍摄视角对人类观察者的帮助会截然不同——
-
特写视角(如手部近景)有助于观察细微动作 -
远景视角(如全身或全景)有助于感受整体流程或展示最终效果
如果能让计算机自动在多视角视频中,每一时刻都选择最有信息量的那一视角,就能减轻人们在剪辑或实时观看时的认知负担。
然而,过去方法要么依赖行业经验和手工规则,要么需要昂贵的“最佳视点”人工标注,难以推广。本文提出了一种弱监督方法,仅利用视频对应的文本解说,即可自动学习“最佳视点”选择。
核心思路:用语言衡量视角质量
-
视角–文本匹配假设
如果从某个摄像机视角生成的描述(caption)能更准确地匹配该视频剪辑的全局解说(narration),则该视角很可能包含了对理解该动作最有价值的信息。
-
伪标签生成
-
利用多个预训练视频字幕模型(Video-Llama、VideoChat2 等)对每个视角分别生成字幕 -
用标准字幕评价指标(如 CIDEr)把它们与人类写的视角无关解说进行比对 -
将分数最高的视角集合视为“最佳视点”伪标签
-
-
视点选择模型训练
-
在没有任何人工视点标注的情况下,用上述伪标签监督训练一个视点分类器 -
为增强对视角差异的敏感度,额外训练一个相对相机位姿预测任务,让模型学习区分不同摄像头位置
-
经过这样的弱监督流程,模型在推理阶段仅需输入多视角原始视频,即可在每个时间段输出最值得观看的视角。
方法细节拆解
1. 最佳视点伪标签器(Pseudo-labeler)
-
输入:一个多视角视频剪辑(Clip),有 $N$ 个同步摄像头视角
-
步骤:
-
令每个字幕器 $k$(共 $K=3$)对每个视角 $i$ 生成字幕 $N^k_i$ -
用 CIDEr 等指标将 $N^k_i$ 与该剪辑的全局解说 $N^*$ 逐一比对,得到分数并对视角进行排名 -
不同字幕器各自选出最高分视角,再取它们的交集或并集作为最终的“最佳视点”伪标签集合 $\mathcal{B}$
-
-
为何有效?
-
多模型投票可抑制单一字幕器的噪声或偏差 -
解说 $N^*$ 是人为在观看所有视角后写下的整体描述,具有权威性
-
2. 视点选择器(Selector)
视点选择器由两部分构成,联合训练后可仅凭视频帧做出最佳视角预测。
2.1 视点分类器(View Classifier)
-
视觉编码:采用 TimeSformer 架构对各视角视频帧进行空间–时间编码,输出特征 $f_i$ -
特征投影:用小型投影头 $H_W$ 将 $f_i$ 映射至低维特征 $h_i$ -
分类头:把所有 $h_i$ 拼接后,经分类网络 $C_W$ 计算每个视角的得分并选出最高者 $\tilde B$
2.2 相机位姿预测器(Pose Predictor)
-
动机:简单分类或可能令模型忽视视角差异;加入位姿预测可让模型学到“哪个视角在几何上更靠前或更侧面”,增强区分度 -
实现:对每对视角 $(i,j)$,用投影头 $H_P$ 得到 $h^P_i,h^P_j$,再让 $C_P$ 预测离散化的相对旋转与位置类别 -
损失:位姿预测加权交叉熵,与视点分类损失共同优化
3. 联合训练目标
-
视点分类损失
$$ L_W = \min_{B’ \in \mathcal{B}} \mathrm{CrossEntropy}(\tilde B, B’)
$$若伪标签包含多个“同分”视角,挑选模型最容易拟合的一个来计算损失,有助训练稳定。
-
位姿预测损失
$$ L_P = \frac{1}{N^2}\sum_{i,j} \mathrm{CrossEntropy}(P(i,j),\,P^*(i,j))
$$ -
总损失
$$ L = L_W + \lambda\,L_P,\quad \lambda=0.5
$$
实验与评估
数据集
-
Ego-Exo4D
-
共 86 小时、多摄像头(1 视角头戴 + 4 固定外摄) -
包含体育、烹饪、舞蹈、自行车维修等多种活动 -
648,665 对剪辑–解说对
-
-
LEMMA
-
20 小时、双视角(头戴 + 单外摄)、家庭日常活动 -
63,538 对剪辑–解说对
-
对比方法
-
简单基线:始终选 ego 视角、随机选全景/仅外景 -
启发式:利用手部/物体检测置信度、人体骨骼可见度、前景像素数等指标挑选最高者 -
语言辅助(弱):只用字幕长度最长的视角 -
最新自动摄影:Snap angles(统计前景像素)
自动评价指标
-
字幕质量:对模型选出视角生成字幕后,与全局解说比对,得 CIDEr、METEOR -
动词/名词覆盖:Verb-IoU、Noun-IoU、Noun-chunk-IoU
人工主观评价
-
伪标签质量:让人评判伪标签选出的“最佳”vs“最差”视角哪个更易理解动作 -
视点预测:人对比本方法与最佳启发式基线选出的视角,选出更优一方
主要结果
方法 | CIDEr ↑ | METEOR ↑ | V-IoU ↑ | N-IoU ↑ | NC-IoU ↑ |
---|---|---|---|---|---|
Ego-only | 12.2 | 47.2 | 32.2 | 36.7 | 30.6 |
Random | 11.5 | 45.9 | 30.4 | 36.6 | 31.0 |
手物检测置信度(H-O) | 12.6 | 47.4 | 33.6 | 36.7 | 29.6 |
Snap angles | 12.2 | 46.7 | 30.7 | 35.8 | 29.1 |
最长字幕 | 10.7 | 47.3 | 30.5 | 34.6 | 28.8 |
本方法 LANGVIEW | 13.5 | 48.4 | 33.7 | 39.2 | 32.9 |
在两大数据集上均显著领先所有基线,充分证明了“语言弱监督 + 位姿正则”方案的有效性。
人工评价
-
伪标签优劣对比:~ 53% 的情况下,人更偏好伪标签选出的“最佳视角” -
本方法 vs 启发式:在与手物检测和骨骼可见度两种启发式对比时,本方法“胜率”均超 52%
方案优势与可推广性
-
无需人工视点标注:全程用现成解说文本生成伪标签,适合海量“如何做”视频 -
与现有字幕模型兼容:可插拔各种视频–语言预训练模型,不依赖单一厂商 -
位姿正则助保持视角敏感度:防止模型过度关注动作内容本身而忽视不同摄像机视角差异 -
通用多活动、多场景:体育竞技、手工操作、家庭日常均有显著提升
实践建议与落地思考
-
数据准备:需多视角同步视频及对应分段解说。若解说粗略,可先用 ASR 或字幕模型生成初步文本,再人工过滤。
-
模型选型:TimeSformer、Video-Llama/VideoChat2 均可作为基线,训练时要针对下游数据微调。
-
部署应用:可集成到后期剪辑工具中,自动标记或剪辑“最佳角度”;也可作为播放器的智能切换模块,动态切换视角。
-
扩展思路:
-
最佳视角预测提前:让摄像头在拍摄时动态聚焦最优位置 -
多任务融合:同时加入动作识别、手势分析等任务,提升切换鲁棒性
-
总结
本文提出的 LANGVIEW 框架,通过对多视角视频中各视角生成的字幕与全局解说进行质量对比,自动生成“最佳视点”伪标签,并结合相机位姿预测,让模型在无人工标签的情况下取得了业内领先的视角选择效果。方法简单易推广,能为视频剪辑、智能摄像、教学展示等多种场景提供自动化支持。