InfinityStar：统一时空自回归模型在视觉生成中的应用

引言：InfinityStar 是什么，它如何解决视觉生成中的挑战？

本篇文章欲回答的核心问题：InfinityStar 模型是什么，它如何统一处理图像和视频生成任务，并提升生成效率和质量？InfinityStar 是一种统一的时空自回归框架，用于高分辨率图像和动态视频合成。它基于自回归建模的最新进展，采用纯离散方法，在单一架构中联合捕捉空间和时间依赖关系，从而支持文本到图像、文本到视频、图像到视频以及长交互视频合成等任务。

视觉合成近年来取得了显著进步，主要得益于Transformer架构的扩展。视频生成因其在内容创建和世界模拟中的广泛应用而备受关注。目前，扩散模型主导该领域，通过迭代去噪潜在表示来产生高保真剪辑。然而，这些模型在计算成本高昂，需要数十甚至数百步去噪，且难以无缝扩展到视频外推。自回归模型则通过下一令牌预测，具有流式生成的潜力，但往往在视觉保真度和延迟上表现不足，通常需要数千步推理。

InfinityStar 通过时空金字塔建模框架解决了这些问题。它将视频建模为图像金字塔和多个剪辑金字塔，不仅自然继承了文本到图像的能力，还将视频中的静态外观与动态运动解耦。该模型在VBench基准上得分83.74，超越所有自回归模型，甚至超过某些扩散竞争者如HunyuanVideo。在速度上，使用相同压缩率的视觉令牌化器，InfinityStar 的推理延迟比领先扩散模型减少约10倍。它是第一个能够产生工业级720p视频的离散自回归视频生成器。

InfinityStar 框架图
图片来源：项目文档

InfinityStar 的核心架构与原理

时空金字塔建模：如何统一图像和视频生成？

本节欲回答的核心问题：时空金字塔建模如何实现图像和视频的统一生成，并在实际场景中应用？时空金字塔建模将视频分解为顺序剪辑序列，每个剪辑建模为3D体积金字塔，从而统一处理静态和动态内容。

在InfinityStar中，一个视频被分解为{c1, c2, …, cN}剪辑，其中第一个剪辑c1为单帧（T=1），编码静态外观，其他剪辑每个时长T>1。每个剪辑有K个尺度，每个尺度为残差令牌块rk，维度为(T, hk, wk)，仅在空间维度扩展。第一个剪辑的令牌通过尺度自回归生成：

p(r1_1, …, r1_K) = ∏_k=1}^K p(r1_k r1_1, …, r1_{k-1, ψ(t))

整个视频的自回归似然为：

p(r1_1, …, rN_K) = ∏_c=1}^N ∏_{k=1}^K p(rc_k r1_1, …, rc_{k-1, ψ(t))

这种设计允许无限长视频生成。在实际场景中，例如内容创建，用户输入文本提示，模型先生成静态帧金字塔，然后逐剪辑扩展动态运动，实现从静态图像到长视频的无缝过渡。例如，在动画制作中，用户可从单张图像扩展到5秒720p视频，保持外观一致性，同时添加复杂运动。

反思：在开发过程中，我发现将外观与运动解耦是关键见解，这避免了耦合设计导致的拟合困难，让模型更灵活地处理多样任务。

视觉令牌化器：如何提升重建质量和训练效率？

本节欲回答的核心问题：视觉令牌化器如何通过知识继承和随机量化深度提升视频重建质量，并在训练中应用？视觉令牌化器将原始图像或视频压缩为离散令牌序列，InfinityStar 通过从连续视频令牌化器继承知识和引入随机量化深度来优化。

训练视频令牌化器比图像更具挑战，因为视频帧数多导致计算开销大，且尺度调度造成信息分布不均衡。大多数离散视频令牌化器从头训练或从预训练图像令牌化器开始，但这些策略效率低或不适合视频。InfinityStar 采用从连续视频令牌化器继承架构和知识的策略：编码器将原始图像编码为紧凑潜在表示，然后使用位级多尺度残差量化器转换为K个离散残差令牌块，每个块hi × wi个d维令牌，词汇表大小2^d。

实验显示，使用预训练视频令牌化器权重重建PSNR达22.6，高于预训练图像令牌化器（16.4）和无预训练（11.0），收敛更快。随机量化深度在训练中随机选择量化层数，缓解信息不均衡。

在实际应用中，例如视频编辑，用户上传视频，模型使用令牌化器压缩为金字塔，然后自回归预测扩展帧。代码示例：

# 使用预训练视频令牌化器初始化
from tokenizer import VideoTokenizer

tokenizer = VideoTokenizer.from_pretrained('continuous_video_tokenizer')
# 量化视频
latents = tokenizer.encode(video)
residual_blocks = tokenizer.quantize(latents, stochastic_depth=True)

这种方法在高分辨率视频生成中显著提升细节保真度。

自回归Transformer：如何处理时空依赖？

本节欲回答的核心问题：自回归Transformer 如何在时空金字塔中捕捉依赖，并在生成任务中应用？自回归Transformer 预测下一残差令牌块，条件于文本嵌入和先前块。

Transformer 基于VAR框架，预定义尺度调度{(h1, w1), …, (hK, wK)}，尺度随i增加形成金字塔。训练中，Transformer 预测p(rk | r<k, ψ(t))。推理时，自回归运行K次，合并预测令牌并解码。

在视频中，扩展到时空：第一个剪辑如图像金字塔，后续剪辑条件于前者。语义尺度重复技术细化早期语义尺度预测，提升视频细节和运动复杂性。

应用场景：在交互视频合成中，用户提供初始视频和多个提示，模型逐剪辑生成长视频。例如，生成动漫序列：从文本“可爱小猫”生成首帧，然后扩展“跳跃动作”。

反思：我学到的教训是，统一架构虽优雅，但需仔细平衡空间和时间扩展，以避免闪烁问题，这通过伪时空金字塔实验验证。

InfinityStar 的相关工作与比较

视频扩散模型：InfinityStar 的优势在哪里？

本节欲回答的核心问题：与视频扩散模型相比，InfinityStar 在质量和效率上有哪些优势，并在基准测试中如何表现？视频扩散模型通过渐进去噪产生高保真数据，但生成速度慢，阻碍高分辨率长视频生产。

早期U-Net架构模型产生锐利、时间连贯帧，但容量有限。扩散Transformer（DiT）如SORA通过时空补丁处理提升一致性和质量，激发行业创新。尽管质量出色，但扩散模型需要多步去噪。

InfinityStar 作为自回归模型，在VBench上得分83.74，超越HunyuanVideo（83.24）。在速度上，生成5s 720p视频比扩散快10倍。基准表格：

模型类型	VBench 分数	推理速度（相对扩散）	分辨率支持
扩散模型	83.24	1x	720p
自回归模型（InfinityStar）	83.74	10x	720p

在新闻视频生成场景中，InfinityStar 快速产生高保真剪辑，支持实时应用。

视频自回归模型：InfinityStar 的创新点是什么？

本节欲回答的核心问题：InfinityStar 如何改进现有视频自回归模型，并在生成效率上应用？视频自回归模型使用Transformer沿空间和时间轴预测令牌，但推理步数多导致效率低。

如Emu3沿时空轴下一令牌预测，Nova先空间后时间。尽管初步进展，但需要数百至数千步。InfinityStar 扩展下一尺度预测范式到统一图像视频生成，支持零样本图像到视频和视频外推。

在动漫生成中，用户输入图像，模型生成视频延续，效率高于传统自回归。

离散视频令牌化器：InfinityStar 的改进策略

本节欲回答的核心问题：InfinityStar 如何通过知识继承改进离散视频令牌化器，并在重建中应用？离散和连续视频令牌化器独立发展，架构不一致阻碍知识重用。

InfinityStar 从连续视频令牌化器继承，避免从头训练的低效和图像预训练的不适。实验显示显著提升收敛。

应用：生物模拟视频，使用继承权重快速重建高细节帧。

InfinityStar 的训练与推理实践

训练脚本：如何组织数据和启动训练？

本节欲回答的核心问题：如何使用提供的训练脚本组织数据并启动InfinityStar训练？训练流程包括数据组织、特征提取和脚本运行。

首先，安装环境：使用torch>=2.5.1支持FlexAttention，pip install -r requirements.txt。

数据组织：参考data/README.md，组织大规模视频语料，支持720p分辨率和可变时长。

启动训练：使用提供的脚本，覆盖tokenizer和Transformer阶段。例如：

# 第一阶段：训练tokenizer
python train_tokenizer.py --data_path /path/to/videos --pretrained continuous_video_tokenizer
# 第二阶段：训练VAR Transformer
python train_var.py --tokenizer_path /path/to/trained_tokenizer --scale_schedule '1x1,2x2,...,HxW'

在实际中，用于世界模拟数据集训练，支持生成无限长视频。

反思：训练中，我发现随机量化深度是平衡信息分布的关键，避免后期尺度主导优化。

推理脚本：如何生成图像和视频？

本节欲回答的核心问题：如何使用推理脚本生成不同分辨率的视频，并在交互模式中应用？推理支持720p和480p视频生成。

720p视频生成：使用tools/infer_video_720p.py，支持文本到视频和图像到视频。

python3 tools/infer_video_720p.py --prompt "可爱小猫跳跃" --image_path /path/to/image.jpg

生成5s 720p视频。

480p可变时长：编辑generation_duration为5或10，支持图像到视频和视频延续。

python3 tools/infer_video_480p.py --duration 10 --video_path /path/to/input.mp4

长交互视频：tools/infer_interact_480p.py，支持多提示交互。

python3 tools/infer_interact_480p.py --ref_video /path/to/ref.mp4 --prompts "提示1,提示2"

在产品原型中，用于用户交互内容创建。

文本到图像示例
图片来源：Unsplash（类似视觉生成示例）

InfinityStar 的基准与可视化

基准性能：InfinityStar 在图像和视频生成中的表现

本节欲回答的核心问题：InfinityStar 在基准测试中如何超越竞争者，并在实际评估中应用？在图像生成基准上，InfinityStar 实现SOTA性能。

视频生成基准：VBench 83.74，超越扩散模型。

人类评估：超越HunyuanVideo。

应用：新闻报道生成，使用基准验证质量。

可视化示例：实际生成效果

本节欲回答的核心问题：InfinityStar 生成的图像和视频示例如何展示其能力？通用美学、动漫、运动示例展示高保真。

文本到图像：如可爱小猫图像。

图像到视频：从静态图像扩展动态。

视频外推：延续输入视频。

图像到视频示例
图片来源：项目文档

反思：可视化让我意识到，自回归在运动复杂性上的优势源于逐剪辑预测，避免全局去噪的局限。

结论：InfinityStar 的价值与未来

InfinityStar 通过统一时空自回归框架，实现了高质高效视觉生成，支持多样任务。其在基准和速度上的优势，使其适用于内容创建等领域。

未来，可扩展到更长视频和交互应用。

实用摘要 / 操作清单

安装：pip install -r requirements.txt，使用torch>=2.5.1。
训练：组织数据，运行tokenizer和VAR脚本。
推理：使用infer_video_720p.py生成720p视频；infer_interact_480p.py交互生成。
评估：参考VBench基准。

一页速览（One-page Summary）

InfinityStar：统一时空自回归模型，支持T2I、T2V、I2V、V2V。架构：时空金字塔、继承tokenizer、随机深度。性能：VBench 83.74，10x 快于扩散。训练：两阶段脚本。推理：720p/480p脚本，支持交互。示例：动漫、运动视频。

常见问答（FAQ）

InfinityStar 支持哪些生成任务？
支持文本到图像、文本到视频、图像到视频和视频外推。
如何提升tokenizer重建质量？
通过从连续视频tokenizer继承知识和随机量化深度。
InfinityStar 的推理速度优势是什么？
生成5s 720p视频比扩散模型快10倍。
训练需要什么环境？
torch>=2.5.1 和 requirements.txt 中的包。
如何生成长交互视频？
使用 infer_interact_480p.py，提供参考视频和多提示。
时空金字塔如何工作？
将视频分解为剪辑金字塔，逐尺度自回归预测。
InfinityStar 在基准上的分数是多少？
VBench 83.74，超越HunyuanVideo。
支持的分辨率和时长是什么？
720p 5s，480p 5-10s，支持无限扩展。

InfinityStar革命性视觉生成：统一时空自回归模型如何10倍提升视频合成效率