一句话摘要:Wan-Move 是一种创新的运动可控视频生成框架,它通过将像素空间的点轨迹映射到潜在空间,并沿轨迹复制第一帧的特征来注入运动引导,无需修改基础模型架构或添加额外运动编码器。该框架基于 Wan-I2V-14B 等现成的图像到视频模型实现,能生成长达5秒、分辨率832×480的高质量视频,其运动控制精度在用户研究中与 Kling 1.5 Pro 的商业 Motion Brush 功能相媲美。
在视频生成领域,让静态图像“动起来”并精确控制其运动,一直是研究者与创作者追求的核心目标。无论是学术界的努力还是商业产品的探索,都致力于解决一个关键问题:如何让视频生成模型不仅“看见”第一帧,更能“理解”并“执行”我们期望的复杂运动?
传统的运动控制方法常常面临两难:要么控制粒度太粗,只能引导物体的整体移动,丢失了局部细节;要么为了实现精细控制,需要引入复杂的运动编码和融合模块,使得模型变得臃肿,难以大规模训练和微调。这种在控制精度与模型简洁性之间的权衡,阻碍了高质量、用户友好的运动可控视频生成技术的普及。
今天,我们将深入探讨一项来自通义实验室、清华大学、香港大学及香港中文大学联合团队的最新研究成果——Wan-Move。这项研究提出了一种既简单又强大的解决方案,有望改变我们操控视频动态的方式。更重要的是,该团队同时发布了一个名为 MoveBench 的全面评估基准,为整个领域的客观比较与进步奠定了基础。
技术核心:什么是“潜在轨迹引导”?
Wan-Move 的核心思想非常巧妙:直接让原始的条件特征具备“运动感知”能力,从而指导视频合成。它绕过了设计额外运动编码器的复杂路径,选择了一条更直接的捷径。整个过程可以概括为三步:
-
用密集点轨迹表示运动:首先,使用密集的点轨迹(例如,通过 CoTracker 从视频中追踪得到)来描述场景中物体的运动。每个点轨迹是一系列时空坐标,提供了从局部到全局的精细运动控制能力。 -
将轨迹映射到潜在空间:接着,利用视频扩散模型中预训练VAE的平移等变性,通过确定的空间映射关系,将这些像素空间的点轨迹坐标转换到模型的潜在特征空间中。 -
特征复制与引导注入:这是最关键的一步。对于每条轨迹,提取第一帧在轨迹起点处的潜在特征,然后将这个特征沿着映射后的潜在轨迹,“复制”到后续每一帧的对应位置上。这样,就生成了一个对齐的时空特征图,它明确地告诉模型:“场景中的这个元素,应该按照这样的路径移动。”
图:Wan-Move 的核心——潜在轨迹引导。(a) 将点轨迹从视频转换到潜在空间,并沿轨迹复制第一帧特征。(b) 训练框架,在现有图像到视频生成模型基础上,仅增加了一个高效的潜在特征复制步骤。
这种方法的优势显而易见:
- ◉
无架构改动:运动引导是通过直接编辑图像条件特征注入的,无需在基础模型(如 Wan-I2V-14B)中添加任何新模块(如 ControlNet)。 - ◉
保留丰富上下文:复制的不是孤立的像素值,而是包含丰富语义和纹理信息的潜在特征块,这能驱动更自然、连贯的局部运动。 - ◉
易于扩展:由于没有引入额外的可训练参数,可以轻松地对强大的基础图像到视频(I2V)骨干网络进行大规模微调,实现性能的快速提升。
严谨的评估基石:MoveBench 基准
评估的缺失或不统一,往往是技术发展的绊脚石。为了给运动可控视频生成领域提供一个严谨、全面的评估标准,研究团队构建了 MoveBench 基准。与现有的 DAVIS、VIPSeg 或 MagicBench 等数据集相比,MoveBench 在规模、时长和标注质量上实现了显著提升:
- ◉
规模与多样性:包含 1018 个精心筛选的高质量视频片段,每个片段长达5秒,涵盖了54个不同的内容类别(如“网球”、“烹饪”、“城市交通”),确保场景覆盖广泛。 - ◉
高质量标注:每个视频都配有详细的运动标注。标注结合了人机交互流程:标注员在第一帧点击目标区域,由 SAM 模型生成初始掩码,并可添加负点以排除无关区域,确保了对复杂、小物体或关节式运动的精确标注。最终,每个视频至少包含一条代表性运动轨迹,其中192个视频还包含多物体运动轨迹。 - ◉
详细描述:使用 Gemini 模型为每个视频生成密集的描述性字幕,涵盖物体、动作和相机动态,为生成任务提供了丰富的语义上下文。
图:MoveBench 的构建流程,结合算法筛选与人工精校,确保数据的高质量与标注的精确性。
性能表现:数据说话
研究团队在 MoveBench 和公开数据集 DAVIS 上进行了广泛的实验,将 Wan-Move 与 ImageConductor、LeviTor、Tora、MagicMotion 等前沿学术方法,甚至商业模型 Kling 1.5 Pro 进行了比较。评估指标包括衡量视觉保真度的 FID、FVD、PSNR、SSIM,以及专门衡量运动精度的终点误差(EPE,即生成视频中追踪点与真实轨迹之间的L2距离)。
量化结果展示出显著优势:
- ◉
单物体运动控制:在 MoveBench 上,Wan-Move 取得了全面的最佳成绩:FID 12.2(↓),FVD 83.5(↓),PSNR 17.8(↑),SSIM 0.64(↑),EPE 2.6(↓)。其运动精度(EPE)明显优于其他方法(对比基线为3.2-3.4)。 - ◉
多物体运动控制:在更具挑战性的多物体运动场景(MoveBench 子集)中,Wan-Move 的优势进一步扩大,EPE 低至2.2,而对比方法 Tora 为3.5。 - ◉
人工评估:在两选一强制选择(2AFC)的人为评估中,Wan-Move 在与 Kling 1.5 Pro 的比较中,在运动质量和视觉质量上均获得了超过50%的胜率,证明了其商业级竞争力。 - ◉
效率:得益于简洁的设计,Wan-Move 的推理延迟仅比基础 I2V 模型增加3秒,而使用 ControlNet 融合运动条件的方法则增加了225秒的延迟。
定性对比同样令人信服:
从论文展示的生成样例来看,Wan-Move 能够更准确地遵循复杂的运动轨迹(如旋转、曲线移动),并保持更高的视觉一致性和细节真实感。相比之下,一些基线方法会出现运动偏离、物体扭曲或背景不自然抖动等问题。
广泛的应用场景
由于点轨迹可以灵活地表示多种类型的运动,Wan-Move 支持一系列丰富的运动控制应用:
-
物体控制:通过指定单个或多个点的轨迹,精确控制场景中一个或多个物体的运动路径。 -
相机控制:通过拖动背景点或根据单目深度预测结果计算出的相机对齐2D轨迹,实现推拉、平移、旋转等相机运动效果。 -
运动迁移:从一个视频中提取运动轨迹,并将其应用于另一张不同的静态图像,为这张图片赋予“他人”的动态。 -
3D旋转控制:结合深度估计,计算物体在3D空间中的旋转,并投影为2D轨迹,实现物体的三维旋转动画。
图:Wan-Move 支持多样化的运动控制应用,包括单/多物体控制、相机控制、运动迁移和3D旋转等。
如何开始使用与评估?
对于研究者和开发者,Wan-Move 提供了完整的开源生态:
- ◉
代码与模型:项目代码已在 GitHub 上开源。14B参数规模的模型权重(Wan-Move-14B-480P)已在 Hugging Face 和 ModelScope 平台发布,支持生成5秒480p视频。 - ◉
MoveBench数据集:评估基准 MoveBench 也已开源,方便社区进行公平比较。 - ◉
快速上手:安装依赖后,通过简单的命令行指令即可进行推理。无论是评估 MoveBench 基准,还是使用自定义图像和轨迹生成视频,流程都已简化。
技术细节与消融实验
为了验证设计选择的有效性,论文进行了一系列深入的消融研究:
- ◉
轨迹引导策略:比较了“像素复制”、“随机轨迹嵌入”和提出的“潜在特征复制”。结果证明,潜在特征复制在视频质量(PSNR 17.8)和运动控制精度(EPE 2.6)上均最优,因为它保留了丰富的局部上下文。 - ◉
训练轨迹数量:研究发现,在训练时采样最多200条轨迹能取得最佳平衡。过少的轨迹(如10条)控制能力不足,过多的轨迹(如1024条)则可能与推理时常用的稀疏轨迹不匹配,导致性能下降。 - ◉
泛化能力:即使在输入轨迹数量变化(从1条到1024条)、处理大尺度运动或分布外(OOD)的罕见运动时,Wan-Move 都表现出了强大的鲁棒性和泛化能力。
局限性与未来
当然,任何技术都有其边界。Wan-Move 的局限性主要在于其对点轨迹的依赖:如果目标点在视频中因长时间遮挡而持续消失,模型可能会失去运动引导。此外,在物体极其复杂拥挤的场景,或输入轨迹严重违背物理规律时,也可能出现生成瑕疵。
结语
Wan-Move 通过“潜在轨迹引导”这一简洁而高效的核心设计,在运动可控视频生成领域实现了显著的进步。它成功地将精细的运动控制与模型的简洁性、可扩展性结合起来,其生成质量达到了与顶尖商业工具竞争的水平。连同其带来的高标准评估基准 MoveBench,这项开源工作不仅为研究人员提供了强大的工具,也为整个视频生成社区设定了新的参考点,有望激发更多创新,并最终赋能更广泛的创作者群体。
How-To: 快速运行 Wan-Move 示例
如果您想快速体验 Wan-Move 的效果,可以按照以下步骤操作(假设已配置好Python环境):
-
克隆仓库并安装依赖:
git clone https://github.com/ali-vilab/Wan-Move.git cd Wan-Move pip install -r requirements.txt -
下载模型权重:
huggingface-cli download Ruihang/Wan-Move-14B-480P --local-dir ./Wan-Move-14B-480P -
运行示例生成:
python generate.py \ --task wan-move-i2v \ --size 480*832 \ --ckpt_dir ./Wan-Move-14B-480P \ --image examples/example.jpg \ --track examples/example_tracks.npy \ --track_visibility examples/example_visibility.npy \ --prompt "A laptop is placed on a wooden table..." \ --save_file example.mp4
FAQ
Q1: Wan-Move 和之前的运动控制方法(如DragNUWA、MotionCtrl)最大的不同是什么?
A1: 最大不同在于运动引导的注入方式。之前的方法大多需要训练额外的运动编码器(如ControlNet)来将运动信号融合到生成模型中。而Wan-Move通过将点轨迹映射到潜在空间并复制第一帧特征,直接更新了模型已有的条件特征,无需任何额外模块,架构更简洁,更易于微调扩展。
Q2: 我需要自己提供点轨迹吗?如何获得?
A2: 是的,推理时需要提供点轨迹。您可以使用开源的轨迹追踪工具(如论文中使用的CoTracker)从参考视频中提取,也可以手动指定关键点路径。Wan-Move支持稀疏(如1条)到密集(如1024条)的轨迹输入。
Q3: Wan-Move 能生成多长时间的视频?分辨率如何?
A3: 当前开源的 Wan-Move-14B-480P 模型专注于生成5秒钟、分辨率为832×480(480p)的视频。这是目前长时间、高质量运动可控生成的一个重要节点。
Q4: MoveBench 基准对普通开发者有什么价值?
A4: MoveBench 提供了一个大规模、高质量、标注统一的测试集。开发者可以使用它来客观评估自己模型或方法的运动控制性能,确保比较的公平性,并快速发现模型在哪些场景(如多物体、大运动)下存在不足。
Q5: 这项技术可能被滥用吗?研究团队如何看待?
A5: 论文明确指出了其双刃剑潜力。像所有强大的生成模型一样,Wan-Move 可用于创意产业、教育和模拟的积极目的,但也存在被用于制作误导性或有害内容的风险。团队通过开源促进透明研究,并提醒使用者必须负责任地遵守法律和道德规范。
