InfinityStar:统一时空自回归模型在视觉生成中的应用

引言:InfinityStar 是什么,它如何解决视觉生成中的挑战?

本篇文章欲回答的核心问题:InfinityStar 模型是什么,它如何统一处理图像和视频生成任务,并提升生成效率和质量?InfinityStar 是一种统一的时空自回归框架,用于高分辨率图像和动态视频合成。它基于自回归建模的最新进展,采用纯离散方法,在单一架构中联合捕捉空间和时间依赖关系,从而支持文本到图像、文本到视频、图像到视频以及长交互视频合成等任务。

视觉合成近年来取得了显著进步,主要得益于Transformer架构的扩展。视频生成因其在内容创建和世界模拟中的广泛应用而备受关注。目前,扩散模型主导该领域,通过迭代去噪潜在表示来产生高保真剪辑。然而,这些模型在计算成本高昂,需要数十甚至数百步去噪,且难以无缝扩展到视频外推。自回归模型则通过下一令牌预测,具有流式生成的潜力,但往往在视觉保真度和延迟上表现不足,通常需要数千步推理。

InfinityStar 通过时空金字塔建模框架解决了这些问题。它将视频建模为图像金字塔和多个剪辑金字塔,不仅自然继承了文本到图像的能力,还将视频中的静态外观与动态运动解耦。该模型在VBench基准上得分83.74,超越所有自回归模型,甚至超过某些扩散竞争者如HunyuanVideo。在速度上,使用相同压缩率的视觉令牌化器,InfinityStar 的推理延迟比领先扩散模型减少约10倍。它是第一个能够产生工业级720p视频的离散自回归视频生成器。

InfinityStar 框架图
图片来源:项目文档

InfinityStar 的核心架构与原理

时空金字塔建模:如何统一图像和视频生成?

本节欲回答的核心问题:时空金字塔建模如何实现图像和视频的统一生成,并在实际场景中应用?时空金字塔建模将视频分解为顺序剪辑序列,每个剪辑建模为3D体积金字塔,从而统一处理静态和动态内容。

在InfinityStar中,一个视频被分解为{c1, c2, …, cN}剪辑,其中第一个剪辑c1为单帧(T=1),编码静态外观,其他剪辑每个时长T>1。每个剪辑有K个尺度,每个尺度为残差令牌块rk,维度为(T, hk, wk),仅在空间维度扩展。第一个剪辑的令牌通过尺度自回归生成:

p(r1_1, …, r1_K) = ∏_k=1}^K p(r1_k r1_1, …, r1_{k-1, ψ(t))

整个视频的自回归似然为:

p(r1_1, …, rN_K) = ∏_c=1}^N ∏_{k=1}^K p(rc_k r1_1, …, rc_{k-1, ψ(t))

这种设计允许无限长视频生成。在实际场景中,例如内容创建,用户输入文本提示,模型先生成静态帧金字塔,然后逐剪辑扩展动态运动,实现从静态图像到长视频的无缝过渡。例如,在动画制作中,用户可从单张图像扩展到5秒720p视频,保持外观一致性,同时添加复杂运动。

反思:在开发过程中,我发现将外观与运动解耦是关键见解,这避免了耦合设计导致的拟合困难,让模型更灵活地处理多样任务。

视觉令牌化器:如何提升重建质量和训练效率?

本节欲回答的核心问题:视觉令牌化器如何通过知识继承和随机量化深度提升视频重建质量,并在训练中应用?视觉令牌化器将原始图像或视频压缩为离散令牌序列,InfinityStar 通过从连续视频令牌化器继承知识和引入随机量化深度来优化。

训练视频令牌化器比图像更具挑战,因为视频帧数多导致计算开销大,且尺度调度造成信息分布不均衡。大多数离散视频令牌化器从头训练或从预训练图像令牌化器开始,但这些策略效率低或不适合视频。InfinityStar 采用从连续视频令牌化器继承架构和知识的策略:编码器将原始图像编码为紧凑潜在表示,然后使用位级多尺度残差量化器转换为K个离散残差令牌块,每个块hi × wi个d维令牌,词汇表大小2^d。

实验显示,使用预训练视频令牌化器权重重建PSNR达22.6,高于预训练图像令牌化器(16.4)和无预训练(11.0),收敛更快。随机量化深度在训练中随机选择量化层数,缓解信息不均衡。

在实际应用中,例如视频编辑,用户上传视频,模型使用令牌化器压缩为金字塔,然后自回归预测扩展帧。代码示例:

# 使用预训练视频令牌化器初始化
from tokenizer import VideoTokenizer

tokenizer = VideoTokenizer.from_pretrained('continuous_video_tokenizer')
# 量化视频
latents = tokenizer.encode(video)
residual_blocks = tokenizer.quantize(latents, stochastic_depth=True)

这种方法在高分辨率视频生成中显著提升细节保真度。

自回归Transformer:如何处理时空依赖?

本节欲回答的核心问题:自回归Transformer 如何在时空金字塔中捕捉依赖,并在生成任务中应用?自回归Transformer 预测下一残差令牌块,条件于文本嵌入和先前块。

Transformer 基于VAR框架,预定义尺度调度{(h1, w1), …, (hK, wK)},尺度随i增加形成金字塔。训练中,Transformer 预测p(rk | r<k, ψ(t))。推理时,自回归运行K次,合并预测令牌并解码。

在视频中,扩展到时空:第一个剪辑如图像金字塔,后续剪辑条件于前者。语义尺度重复技术细化早期语义尺度预测,提升视频细节和运动复杂性。

应用场景:在交互视频合成中,用户提供初始视频和多个提示,模型逐剪辑生成长视频。例如,生成动漫序列:从文本“可爱小猫”生成首帧,然后扩展“跳跃动作”。

反思:我学到的教训是,统一架构虽优雅,但需仔细平衡空间和时间扩展,以避免闪烁问题,这通过伪时空金字塔实验验证。

InfinityStar 的相关工作与比较

视频扩散模型:InfinityStar 的优势在哪里?

本节欲回答的核心问题:与视频扩散模型相比,InfinityStar 在质量和效率上有哪些优势,并在基准测试中如何表现?视频扩散模型通过渐进去噪产生高保真数据,但生成速度慢,阻碍高分辨率长视频生产。

早期U-Net架构模型产生锐利、时间连贯帧,但容量有限。扩散Transformer(DiT)如SORA通过时空补丁处理提升一致性和质量,激发行业创新。尽管质量出色,但扩散模型需要多步去噪。

InfinityStar 作为自回归模型,在VBench上得分83.74,超越HunyuanVideo(83.24)。在速度上,生成5s 720p视频比扩散快10倍。基准表格:

模型类型 VBench 分数 推理速度(相对扩散) 分辨率支持
扩散模型 83.24 1x 720p
自回归模型(InfinityStar) 83.74 10x 720p

在新闻视频生成场景中,InfinityStar 快速产生高保真剪辑,支持实时应用。

视频自回归模型:InfinityStar 的创新点是什么?

本节欲回答的核心问题:InfinityStar 如何改进现有视频自回归模型,并在生成效率上应用?视频自回归模型使用Transformer沿空间和时间轴预测令牌,但推理步数多导致效率低。

如Emu3沿时空轴下一令牌预测,Nova先空间后时间。尽管初步进展,但需要数百至数千步。InfinityStar 扩展下一尺度预测范式到统一图像视频生成,支持零样本图像到视频和视频外推。

在动漫生成中,用户输入图像,模型生成视频延续,效率高于传统自回归。

离散视频令牌化器:InfinityStar 的改进策略

本节欲回答的核心问题:InfinityStar 如何通过知识继承改进离散视频令牌化器,并在重建中应用?离散和连续视频令牌化器独立发展,架构不一致阻碍知识重用。

InfinityStar 从连续视频令牌化器继承,避免从头训练的低效和图像预训练的不适。实验显示显著提升收敛。

应用:生物模拟视频,使用继承权重快速重建高细节帧。

InfinityStar 的训练与推理实践

训练脚本:如何组织数据和启动训练?

本节欲回答的核心问题:如何使用提供的训练脚本组织数据并启动InfinityStar训练?训练流程包括数据组织、特征提取和脚本运行。

首先,安装环境:使用torch>=2.5.1支持FlexAttention,pip install -r requirements.txt。

数据组织:参考data/README.md,组织大规模视频语料,支持720p分辨率和可变时长。

启动训练:使用提供的脚本,覆盖tokenizer和Transformer阶段。例如:

# 第一阶段:训练tokenizer
python train_tokenizer.py --data_path /path/to/videos --pretrained continuous_video_tokenizer
# 第二阶段:训练VAR Transformer
python train_var.py --tokenizer_path /path/to/trained_tokenizer --scale_schedule '1x1,2x2,...,HxW'

在实际中,用于世界模拟数据集训练,支持生成无限长视频。

反思:训练中,我发现随机量化深度是平衡信息分布的关键,避免后期尺度主导优化。

推理脚本:如何生成图像和视频?

本节欲回答的核心问题:如何使用推理脚本生成不同分辨率的视频,并在交互模式中应用?推理支持720p和480p视频生成。

720p视频生成:使用tools/infer_video_720p.py,支持文本到视频和图像到视频。

python3 tools/infer_video_720p.py --prompt "可爱小猫跳跃" --image_path /path/to/image.jpg

生成5s 720p视频。

480p可变时长:编辑generation_duration为5或10,支持图像到视频和视频延续。

python3 tools/infer_video_480p.py --duration 10 --video_path /path/to/input.mp4

长交互视频:tools/infer_interact_480p.py,支持多提示交互。

python3 tools/infer_interact_480p.py --ref_video /path/to/ref.mp4 --prompts "提示1,提示2"

在产品原型中,用于用户交互内容创建。

文本到图像示例
图片来源:Unsplash(类似视觉生成示例)

InfinityStar 的基准与可视化

基准性能:InfinityStar 在图像和视频生成中的表现

本节欲回答的核心问题:InfinityStar 在基准测试中如何超越竞争者,并在实际评估中应用?在图像生成基准上,InfinityStar 实现SOTA性能。

视频生成基准:VBench 83.74,超越扩散模型。

人类评估:超越HunyuanVideo。

应用:新闻报道生成,使用基准验证质量。

可视化示例:实际生成效果

本节欲回答的核心问题:InfinityStar 生成的图像和视频示例如何展示其能力?通用美学、动漫、运动示例展示高保真。

文本到图像:如可爱小猫图像。

图像到视频:从静态图像扩展动态。

视频外推:延续输入视频。

图像到视频示例
图片来源:项目文档

反思:可视化让我意识到,自回归在运动复杂性上的优势源于逐剪辑预测,避免全局去噪的局限。

结论:InfinityStar 的价值与未来

InfinityStar 通过统一时空自回归框架,实现了高质高效视觉生成,支持多样任务。其在基准和速度上的优势,使其适用于内容创建等领域。

未来,可扩展到更长视频和交互应用。

实用摘要 / 操作清单

  • 安装:pip install -r requirements.txt,使用torch>=2.5.1。
  • 训练:组织数据,运行tokenizer和VAR脚本。
  • 推理:使用infer_video_720p.py生成720p视频;infer_interact_480p.py交互生成。
  • 评估:参考VBench基准。

一页速览(One-page Summary)

InfinityStar:统一时空自回归模型,支持T2I、T2V、I2V、V2V。架构:时空金字塔、继承tokenizer、随机深度。性能:VBench 83.74,10x 快于扩散。训练:两阶段脚本。推理:720p/480p脚本,支持交互。示例:动漫、运动视频。

常见问答(FAQ)

  1. InfinityStar 支持哪些生成任务?
    支持文本到图像、文本到视频、图像到视频和视频外推。

  2. 如何提升tokenizer重建质量?
    通过从连续视频tokenizer继承知识和随机量化深度。

  3. InfinityStar 的推理速度优势是什么?
    生成5s 720p视频比扩散模型快10倍。

  4. 训练需要什么环境?
    torch>=2.5.1 和 requirements.txt 中的包。

  5. 如何生成长交互视频?
    使用 infer_interact_480p.py,提供参考视频和多提示。

  6. 时空金字塔如何工作?
    将视频分解为剪辑金字塔,逐尺度自回归预测。

  7. InfinityStar 在基准上的分数是多少?
    VBench 83.74,超越HunyuanVideo。

  8. 支持的分辨率和时长是什么?
    720p 5s,480p 5-10s,支持无限扩展。