Vidi2:让视频理解更精准,让创作更智能

ByteDance 推出新一代多模态视频大模型,在时空定位与检索任务上全面超越 Gemini 和 GPT


引言:为什么我们需要更懂视频的 AI

视频已经成为互联网上最主要的内容形式。无论是短视频平台上的创意表达,还是专业领域的视频制作,人们对高质量视频内容的需求都在快速增长。然而,视频制作始终是一项技术门槛较高的工作——从海量素材中找到特定片段、精准定位某个物体的运动轨迹、理解复杂剧情中的角色关系,这些任务即使对专业编辑来说也耗时耗力。

这正是 Vidi2 想要解决的问题。作为 ByteDance 智能创作团队开发的第二代视频多模态大模型,Vidi2 不仅能”看懂”视频内容,还能精确地告诉你:某个物体在什么时候出现、出现在哪里、持续了多久。这种端到端的时空理解能力,正在为下一代智能视频创作工具奠定基础。

本文将带你深入了解 Vidi2 的核心能力、技术架构、性能表现以及实际应用场景,并提供完整的使用指南。


什么是 Vidi2?三个核心能力详解

Vidi2 是一个基于大语言模型架构的视频多模态理解系统。简单来说,它就像一位经验丰富的视频编辑,你只需用自然语言描述想找的片段或物体,它就能在视频中精确定位。根据官方技术报告,Vidi2 主要具备以下三大能力

1. 时空定位(Spatio-Temporal Grounding, STG):不只是”找到”,还要”框住”

时空定位是 Vidi2 最突出的创新。传统视频检索只能告诉你”第30秒到第45秒有人在打篮球”,而 Vidi2 能更进一步:在对应的时间段内,用边界框(bounding box)持续追踪篮球和运动员的位置

举个例子,如果你输入查询”从跪姿站起来的男人”,Vidi2 会返回:

  • 时间范围:01:01 到 01:03
  • 空间位置:每一秒对应一个边界框坐标,精确框出目标人物
// Vidi2 的实际输出示例
[
  {"timestamp":"00:01:01","box_2d":[0.462,0.391,0.537,0.657]},
  {"timestamp":"00:01:02","box_2d":[0.494,0.375,0.557,0.659]},
  {"timestamp":"00:01:03","box_2d":[0.494,0.281,0.569,0.660]}
]

这种能力在复杂场景中尤其重要。比如一段黑暗场景中有多个人的视频,Vidi2 能准确区分”哪个是目标人物”,并持续追踪其动作。这为自动多机位切换、智能重构图、角色理解等专业编辑场景打开了全新可能。

2. 时序检索(Temporal Retrieval, TR):长视频的精准导航

时序检索是 Vidi 系列模型的基础能力,Vidi2 在此之上实现了显著提升。面对从几十秒到几小时的视频,它能快速定位符合文本描述的所有时间片段。

Vidi2 的升级重点在于处理超长视频。在包含 1 小时以上视频的测试中,Vidi2 的表现远超同类系统。无论是查找”basketball statue”(篮球雕像)这样具体的物体,还是寻找”人物在海滩组装雕塑”这样的复杂动作,Vidi2 都能秒级响应。

3. 视频问答(Video QA):开放域的理解与推理

除了定位能力,Vidi2 还扩展了通用视频问答功能。面对关于视频内容的多项选择题,Vidi2 展现了扎实的多模态推理能力。在 LVBench、LongVideoBench 和 VideoMME 三个权威基准测试中,Vidi2 的性能与 Qwen2.5-VL-7B 等主流开源模型相当,验证了它作为视频理解基础模型的潜力。


技术内幕:Vidi2 是如何实现的

理解 Vidi2 的技术架构,能帮你更好地评估它是否适合你的应用场景。根据官方披露的信息,Vidi2 在模型设计、训练数据和任务适配三个层面进行了系统性升级。

多模态统一架构

Vidi2 延续了 Vidi 的多模态设计理念,能够同时处理文本、视觉和音频三种输入。关键技术点包括:

  • 统一编码接口:单张图片被视为1秒的无声视频,简化了处理流程
  • 自适应token压缩:针对不同长度的视频重新设计了压缩策略,在短视频细节保留和长视频效率之间取得更好平衡
  • 12B参数规模:官方报告中所有测试结果均基于120亿参数配置,在性能与效率间达到了实用级平衡

这种架构让 Vidi2 能真正”同步”理解不同模态的信息。例如,当查询包含”听到警报声后人物的反应”这类描述时,模型能联合分析音频事件和后续视觉变化。

数据驱动的能力进化

模型性能的提升离不开高质量训练数据。Vidi2 的训练策略可以概括为三个关键词:提升真实数据比例、合成数据辅助、任务专用数据增强

对于时空定位这一新能力,团队采用了两阶段数据构建策略

  1. 合成数据桥接:利用现有图像级空间定位数据集(如 COCO、RefCOCO),模拟生成视频级时空标注对。这解决了视频时空标注数据稀缺的痛点
  2. 真实数据精修:人工标注了大量真实视频数据,确保模型在实际场景中的鲁棒性。VUE-STG 基准测试中的1600个查询就是典型代表

从检索到定位的能力迁移

一个有趣的技术洞察是:时序检索训练中学到的时间感知能力,能有效迁移到视频问答任务。Vidi 初代模型验证了时序对齐训练对检索任务的有效性,而 Vidi2 进一步证明这种多模态对齐策略在开放域问答中同样适用。这意味着模型的不同能力模块并非孤立,而是形成了协同效应。


性能实测:Vidi2 有多强?

为了全面评估 Vidi2,团队构建了全新的评测体系,并在多个维度与业界顶尖系统对比。以下数据全部来自官方技术报告,测试环境标准化可复现。

VUE-STG:时空定位新基准

现有学术数据集(如 HC-STVG、VidSTG)存在明显局限:视频太短(通常<30秒)、查询太简单、标注有噪声。VUE-STG 的提出正是为了填补这一空白。

基准设计亮点

改进维度 传统数据集 VUE-STG 创新
视频时长 多数<1分钟 10秒到30分钟全覆盖,包含大量10-30分钟长视频
查询格式 完整句子为主 优化为名词短语,保留表达力的同时降低歧义
标注质量 半自动/众包 全人工精标,时间戳和边界框双重校验
评估指标 简单的IoU 支持多段时空片段的vIoU/tIoU/vIoU-Intersection体系

数据集规模

  • 982个公开视频,总计204.79小时
  • 1600个查询,涉及12,147个目标框
  • 覆盖超短(<1分钟)、短(1-10分钟)、中等(10-30分钟)三个时长段
  • 目标对象尺寸均衡分布:小(<10%画面)、中(10%-30%)、大(>30%)

核心指标定义

Vidi2 引入了**时空管(spatio-temporal tube)**概念,指目标对象在时间段内连续的空间位置变化。评估体系包括:

时序指标

  • tP(时序精确率):预测时间段与真实时间段的重叠程度
  • tR(时序召回率):真实时间段被预测覆盖的比例
  • tIoU(时序交并比):时间区间的标准IoU

时空指标

  • vP/vR(时空精确率/召回率):在时序基础上加入空间边界框的IoU计算
  • vIoU(时空交并比):核心排名指标,综合时空两个维度
  • vIoU-Int:仅在预测与真实重叠的时间段内计算IoU,反映定位精度

对比结果:全面领先

模型 vIoU(时空IoU) vIoU-Int tIoU(时序IoU)
Vidi2 32.57% 60.30% 53.19%
Gemini 3 Pro (Preview) 4.61% 16.59% 27.50%
GPT-5 5.47% 33.64% 16.40%
Qwen3-VL-32B 5.12% 18.47% 25.91%

关键发现

  1. 长视频优势明显:在10-30分钟视频段,Vidi2 的 vIoU 达到28.18%,而竞争对手均低于3.1%
  2. 小物体追踪精准:当目标占画面<10%时,Vidi2 的 vIoU(23.31%)远超 Gemini(2.33%)和 GPT-5(3.66%)
  3. 时序定位更稳定:在所有类别中,Vidi2 的 tIoU 保持在47-61%区间,而竞品在超长视频上暴跌至4.1%

VUE-TR-V2:时序检索升级版

作为 VUE-TR 的继任者,VUE-TR-V2 重点优化了数据分布:

  • 时长更均衡:从原版以短视频为主,升级为覆盖超短(<1分钟)到超长(>60分钟)的全谱系
  • 总时长提升:从107.87小时增加到310.72小时,增幅达188%
  • 查询更真实:引入大量用户风格的真实查询,涵盖关键词、短语、完整句子三种格式

时序检索性能对比

模型 总体tIoU 超长视频(>60分钟) 视觉+音频查询
Vidi2 48.75% 38.65% 46.81%
Gemini 3 Pro (Preview) 37.58% 21.19% 37.26%
GPT-5 17.15% 12.49% 17.85%

从ROC曲线可以看出,Vidi2 在阈值全范围内保持稳定领先。这意味着无论是松召回还是严匹配场景,Vidi2 都能提供可靠的编辑建议。

视频问答能力

在通用理解任务上,Vidi2 的定位是具备基础能力的视频大模型,而非专攻问答的竞品。测试结果显示:

  • LVBench:45.8%(对比 Qwen2.5-VL-7B 的45.3%)
  • LongVideoBench:57.1%(领先 Qwen2.5-VL-7B 的54.7%)
  • VideoMME:63.5%(略低于 Qwen2.5-VL-7B 的65.1%)

这表明 Vidi2 在保持检索定位核心优势的同时,并未牺牲通用理解能力,实现了能力广度与深度的平衡。


实战应用:Vidi2 能做什么?

基于强大的时空理解能力,Vidi2 正在催生下一代视频创作工具。以下是报告中展示的三个典型应用场景

场景一:AI 高光提取(Highlight Extraction)

上传一段长视频,Vidi2 能自动识别精彩片段并生成标题。例如,从一段办公室生活记录中,系统提取出:

  • “When You’re Trying to Be Quiet But…” (00:32-00:54)
  • “This Bunny’s Morning Routine is… Different” (02:10-02:45)

这些片段配有精炼的英文标题,可直接用于短视频发布。整个过程无需人工标注,真正实现了创作自动化

场景二:剧情级理解(Plot Understanding)

在电影或剧集编辑中,Vidi2 能分析角色关系和情节因果。技术报告中展示了这样一个案例:

输入查询:”牙医的财务问题是什么?她为什么雇佣 Bernice?”

Vidi2 推理过程

<think>
牙医存在税务欺诈行为,使用"未申报现金"购买资产。
动机:她需要 Bernice 非法取回被盗资产。因为一旦报警,
她自己财务欺诈的罪行就会暴露。
</think>

<answer>
牙医存在税务欺诈的财务问题。她雇佣 Bernice 犯罪
(取回被盗珠宝),因为无法在不暴露自身违法行为的前提
下向警察报案。
</answer>

这种思维链(Chain-of-Thought)+ 答案生成的模式,展示了 Vidi2 在角色识别、动机推理和常识理解上的综合能力,为自动剪辑特定剧情线提供了技术基础。

场景三:故事线驱动的视频创作

最引人注目的是,Vidi2 能够从零构建叙事结构。给定6个原始素材片段,它能输出完整的创作脚本:

  • 叙事框架:”Best Friend’s Observation Journal”(好友观察日记)
  • 情感弧线:从”佯装不饿”到”大快朵颐”的幽默反差
  • 编辑指令:精确到秒级的时间戳、变速参数、配音文本、字幕样式
  • 最终渲染:包含转场、音乐、动画的成品方案

这种从理解到创作的闭环,标志着 AI 正从”辅助工具”升级为”创作伙伴”。


快速上手指南:安装、运行与评测

如果你是一名开发者或研究者,想亲自体验 Vidi2,以下是基于官方 README 整理的完整操作步骤。

环境安装

前提条件:Linux/MacOS 环境,Python 3.8+,至少16GB显存(推荐24GB)

# 克隆仓库(需等待官方发布)
git clone https://github.com/bytedance/vidi.git
cd vidi

# 一键安装依赖
bash install.sh

install.sh 脚本会自动完成:

  • PyTorch 及相关深度学习库安装
  • 视频处理依赖(FFmpeg、decord)
  • 模型推理所需组件

模型权重获取

目前官方已开放 Vidi-7B 模型权重(2025年4月版),Vidi2-12B 的权重发布状态请关注官网更新。

# 下载7B模型(完整版Vidi2权重将后续发布)
# 方式一:从Hugging Face下载(推荐)
git lfs install
git clone https://huggingface.co/bytedance-research/Vidi-7B ./models/vidi-7b

# 方式二:手动下载
# 访问 https://huggingface.co/bytedance-research/Vidi-7B
# 下载所有 .bin 和配置文件至 ./models/vidi-7b 目录

基础推理:从视频到定位结果

准备一段测试视频和文本查询,运行以下命令:

cd Vidi_7B  # 或未来发布的 Vidi2 目录

python3 -u inference.py \
    --video-path /path/to/your/video.mp4 \
    --query "穿棕色西装打鼓的男人" \
    --model-path ./models/vidi-7b \
    --output-format json

参数说明

  • --video-path:支持 mp4、avi、mov 等主流格式
  • --query:自然语言描述,中英文均可(性能以英文为准)
  • --model-path:模型权重目录
  • --output-format:可选 json/csv,后者便于后续分析

输出示例

{
  "video_duration": 387.0,
  "query": "the man standing up from a kneeling position",
  "tubes": [
    {"timestamp": 61, "bbox": [0.452, 0.355, 0.530, 0.652]},
    {"timestamp": 62, "bbox": [0.491, 0.371, 0.551, 0.627]},
    {"timestamp": 63, "bbox": [0.491, 0.285, 0.562, 0.633]}
  ],
  "confidence": 0.87
}

性能参考:在 A100 GPU 上,处理10分钟视频(1FPS采样)约需 3-5 分钟,显存占用约 18GB。

参与权威评测:复现VUE-STG结果

如果你想验证自己的模型或对比性能,可以使用官方发布的评测基准。

步骤1:下载测试视频

cd VUE_STG

# 使用 yt-dlp 下载视频(需先安装:pip install yt-dlp)
python3 -c "
import pandas as pd
import subprocess

videos = pd.read_csv('vue-stg-benchmark/video.csv')
for _, row in videos.iterrows():
    video_id = row['video_id']
    cmd = f'yt-dlp -f best -o videos/{video_id}.mp4 https://www.youtube.com/watch?v={video_id}'
    subprocess.run(cmd, shell=True)
"

注意事项

  • 总下载量约 200+ 小时,请预留充足存储空间(建议500GB)
  • 部分视频可能因版权问题下架,官方提供了备用清单

步骤2:生成预测结果

按照以下格式准备你的模型预测文件:

# tubes.csv 格式规范
video_id,query_id,timestamp,x0,y0,x1,y1,confidence
6Qv-LrXJjSM,0,61,0.452,0.355,0.530,0.652,0.87
6Qv-LrXJjSM,0,62,0.491,0.371,0.551,0.627,0.85
...

坐标说明

  • 所有坐标均为归一化值(0-1),基于视频原始分辨率
  • 时间戳单位为秒,从0开始计数
  • confidence 为模型对当前定位的可信度评分

步骤3:运行评测脚本

cd VUE_STG
python3 evaluate.py \
    --pred_path /path/to/your/tubes.csv \
    --gt_path vue-stg-benchmark/gt_tubes.csv \
    --output_dir ./results

# 查看详细指标
cat results/metrics.json

输出将包含前文所述的 tIoU、tP、tR、vIoU 等所有指标,并按视频长度、目标尺寸、时长等维度细分。

VUE-TR-V2 时序检索评测

时序检索的评测流程更简洁:

cd VUE_TR_V2

# 准备预测结果(JSON格式)
[
  {
    "query_id": 0,
    "video_id": "6Qv-LrXJjSM",
    "duration": 3884.049,
    "query": "The slide showcases Taco Bell's purple ang pow...",
    "answer": [[913.14, 953.53]],  // 时间区间,单位秒
    "task": "temporal_retrieval"
  }
]

# 运行评估
python3 -u qa_eval.py --pred_path your_results.json

# 查看可视化结果(雷达图、ROC曲线)
open results/IoU_radar_plot.png
open results/overall_IoU_plot.png

常见问题解答(FAQ)

基于开发者社区的反馈,我们整理了以下高频问题:

Q1:Vidi2 与第一版 Vidi 有什么区别?

A:Vidi1 专注于时序检索(Temporal Retrieval),能找对时间段但无法框出物体。Vidi2 的重大突破是实现了 端到端时空定位(STG),同时返回时间戳和边界框坐标。此外,Vidi2 在训练数据、模型架构(升级为 Gemma-3 骨干网络)和评测基准上均有全面升级。

Q2:为什么 Vidi2 在小物体和长时间视频上优势最明显?

A:这得益于三点设计

  1. 1FPS稠密采样:相比稀疏采样,能捕捉更多细节
  2. 时空联合训练:在数据合成阶段,将图像级定位能力迁移到视频,强化了小目标识别
  3. 自适应长视频编码:通过改进的token压缩策略,确保长视频的关键信息不丢失

Q3:可以直接用 Vidi2 替代人工剪辑吗?

A:目前更适合作为智能副驾。在初剪、素材筛选、高光提取等环节,Vidi2 可提升5-10倍效率。但对于艺术创作、情感节奏把控等专业决策,仍需人工参与。报告中的”Storyline-based Creation”展示的是辅助创作而非完全自动化。

Q4:模型对计算资源的要求如何?

A:官方测试中:

  • 推理:12B模型在A100 40GB GPU可处理30分钟内视频;7B模型在RTX 4090 24GB可处理10分钟内视频
  • 训练:未公开完整细节,但提到使用了大规模分布式训练

Q5:如何处理视频中的遮挡和目标消失问题?

A:这是 VUE-STG 基准特意设计的挑战。Vidi2 在训练时加入了时序不连续的tub数据:当目标被遮挡或出画时,模型学会暂停追踪并在重新出现时恢复。评估指标中,vIoU-Int 专门衡量这种片段内的定位精度,Vidi2 在此项得分60.30%,远超竞品的16-33%。

Q6:音频信息在模型中起什么作用?

A:Vidi2 是真·多模态架构。在 VUE-TR-V2 的测试中,”视觉+音频”查询的 tIoU 达到46.81%,说明模型能联合分析声画信息。例如,查询”玻璃破碎声之后的画面”,模型会先在音频轨道定位事件,再对齐视觉内容。

Q7:商业使用有什么限制?

A:目前 Vidi-7B 采用研究许可。技术报告正文和 README 均未明确商用条款,建议关注官网更新或联系 ByteDance 智能创作团队获取企业级方案。已知的落地场景包括 TikTok 的 Smart Split 功能。

Q8:如何提升特定领域的定位精度?

A:官方推荐的迁移学习路径

  1. 在 Vidi2 基础上冻结视觉编码器
  2. 注入领域数据(如体育视频、医疗影像)进行LoRA微调
  3. 使用 VUE-STG 的细分指标(按物体大小、时长)评估改进效果

Q9:输出坐标是相对的还是有绝对时间戳?

A两者都有。JSON输出中的 timestamp 是绝对秒数,bbox 是相对于视频帧宽高的归一化坐标(0-1区间)。这种设计便于直接映射回视频进行可视化,也便于跨分辨率比较。

Q10:模型会产生幻觉框吗?

A:会,但概率较低。评估中的vP(时空精确率)反映此问题:Vidi2 为44.56%,意味着约55%的预测帧确实包含目标。相比 Gemini(8.95%)和 GPT-5(13.01%),Vidi2 的幻觉问题显著更轻。建议在实际应用中设置 confidence 阈值(如>0.7)过滤低质量预测。


未来展望与行业影响

Vidi2 的发布,标志着视频 AI 正在从”看懂内容”迈向”精细操作”的新阶段。几个值得关注的趋势

1. 评测基准的代际更替

VUE-STG 和 VUE-TR-V2 的设计思路表明,未来视频 AI 的评测将更注重真实场景、长时序推理、细粒度定位。简单的分类准确率已不足以衡量模型价值,时空一致性、多片段处理、抗遮挡能力将成为核心竞争力。

2. 从工具到伙伴的范式转变

传统视频工具(如 Premiere、Final Cut)依赖人工操作。Vidi2 代表的智能系统,正在向 “理解意图-自主执行-创意建议” 的伙伴模式演进。ByteDance 已将其应用于 TikTok 的 Smart Split 和 AI Outline 功能,创作者只需提供主题,系统即可生成结构化脚本和剪辑建议。

3. 开源与闭源的差距缩小

值得注意的是,Vidi2 在核心时空任务上超越了 Gemini 3 Pro (Preview) 和 GPT-5 等顶级闭源模型。这验证了专用架构+高质量数据的路径有效性,为开源社区追赶闭源巨头提供了可复制的范本。

4. 多模态融合的新高度

Vidi2 证明:时序、空间、语义的三位一体是视频理解的最佳路径。未来模型将不再区分”视觉模态”或”音频模态”,而是统一处理为动态信号流。这对硬件加速、模型压缩提出了新要求,但也打开了更多应用可能。


结论:Vidi2 的价值与局限

Vidi2 的核心价值在于首次在大模型中实现了实用级的端到端时空定位,并在长视频、小目标、多片段等挑战性场景中验证了其鲁棒性。对于视频编辑、内容审核、智能监控等领域,它提供了开箱即用的强大基线。

但需清醒认识其局限

  • 计算成本:处理1小时视频需数十GB显存和数分钟时间,离实时应用有距离
  • 数据依赖:性能高度依赖训练数据分布,对未见过的视频风格(如动画、特效重视频)可能泛化不足
  • 精度天花板:在vIoU仅32.57%的当前水平下,仍需大量人工后处理才能满足电影级精度要求

建议的使用路径

  1. 快速验证:用 Vidi-7B 在垂直领域数据上测试效果
  2. 集成开发:通过API调用Vidi2服务,集成到现有工作流
  3. 持续调优:基于 VUE-STG 的细分指标,针对性增强薄弱环节

资源汇总


作者简介:本文由技术爱好者整理自 ByteDance Vidi 团队公开发表的技术报告和开源文档,旨在帮助开发者快速理解并应用最新视频 AI 技术。文中所有数据、图表、代码示例均来自官方公开资料,未引入任何外部未验证信息。


引用格式
如果你在研究或产品中使用了 Vidi2,请按以下格式引用:

@article{Vidi2025vidi2,
  title={Vidi2: Large Multimodal Models for Video Understanding and Creation},
  author={Vidi Team, Celong Liu, Chia-Wen Kuo, Chuang Huang, Dawei Du, Fan Chen, Guang Chen, Haoji Zhang, Haojun Zhao, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qihang Fan, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Weiyan Tao, Wen Zhong, Xiaohui Shen, Xin Gu, Zhenfang Chen, Zuhua Lin},
  journal={arXiv preprint arXiv:2511.19529},
  year={2025}
}