Wan-Move革新：用一条潜在轨迹教你精准控制视频生成运动，图像瞬间动起来！

高效码农

2 月前

一句话摘要：Wan-Move 是一种创新的运动可控视频生成框架，它通过将像素空间的点轨迹映射到潜在空间，并沿轨迹复制第一帧的特征来注入运动引导，无需修改基础模型架构或添加额外运动编码器。该框架基于 Wan-I2V-14B 等现成的图像到视频模型实现，能生成长达5秒、分辨率832×480的高质量视频，其运动控制精度在用户研究中与 Kling 1.5 Pro 的商业 Motion Brush 功能相媲美。

在视频生成领域，让静态图像“动起来”并精确控制其运动，一直是研究者与创作者追求的核心目标。无论是学术界的努力还是商业产品的探索，都致力于解决一个关键问题：如何让视频生成模型不仅“看见”第一帧，更能“理解”并“执行”我们期望的复杂运动？

传统的运动控制方法常常面临两难：要么控制粒度太粗，只能引导物体的整体移动，丢失了局部细节；要么为了实现精细控制，需要引入复杂的运动编码和融合模块，使得模型变得臃肿，难以大规模训练和微调。这种在控制精度与模型简洁性之间的权衡，阻碍了高质量、用户友好的运动可控视频生成技术的普及。

今天，我们将深入探讨一项来自通义实验室、清华大学、香港大学及香港中文大学联合团队的最新研究成果——Wan-Move。这项研究提出了一种既简单又强大的解决方案，有望改变我们操控视频动态的方式。更重要的是，该团队同时发布了一个名为 MoveBench 的全面评估基准，为整个领域的客观比较与进步奠定了基础。

技术核心：什么是“潜在轨迹引导”？

Wan-Move 的核心思想非常巧妙：直接让原始的条件特征具备“运动感知”能力，从而指导视频合成。它绕过了设计额外运动编码器的复杂路径，选择了一条更直接的捷径。整个过程可以概括为三步：

用密集点轨迹表示运动：首先，使用密集的点轨迹（例如，通过 CoTracker 从视频中追踪得到）来描述场景中物体的运动。每个点轨迹是一系列时空坐标，提供了从局部到全局的精细运动控制能力。
将轨迹映射到潜在空间：接着，利用视频扩散模型中预训练VAE的平移等变性，通过确定的空间映射关系，将这些像素空间的点轨迹坐标转换到模型的潜在特征空间中。
特征复制与引导注入：这是最关键的一步。对于每条轨迹，提取第一帧在轨迹起点处的潜在特征，然后将这个特征沿着映射后的潜在轨迹，“复制”到后续每一帧的对应位置上。这样，就生成了一个对齐的时空特征图，它明确地告诉模型：“场景中的这个元素，应该按照这样的路径移动。”

图：Wan-Move 的核心——潜在轨迹引导。(a) 将点轨迹从视频转换到潜在空间，并沿轨迹复制第一帧特征。(b) 训练框架，在现有图像到视频生成模型基础上，仅增加了一个高效的潜在特征复制步骤。

这种方法的优势显而易见：

◉

无架构改动：运动引导是通过直接编辑图像条件特征注入的，无需在基础模型（如 Wan-I2V-14B）中添加任何新模块（如 ControlNet）。
◉

保留丰富上下文：复制的不是孤立的像素值，而是包含丰富语义和纹理信息的潜在特征块，这能驱动更自然、连贯的局部运动。
◉

易于扩展：由于没有引入额外的可训练参数，可以轻松地对强大的基础图像到视频（I2V）骨干网络进行大规模微调，实现性能的快速提升。

严谨的评估基石：MoveBench 基准

评估的缺失或不统一，往往是技术发展的绊脚石。为了给运动可控视频生成领域提供一个严谨、全面的评估标准，研究团队构建了 MoveBench 基准。与现有的 DAVIS、VIPSeg 或 MagicBench 等数据集相比，MoveBench 在规模、时长和标注质量上实现了显著提升：

◉

规模与多样性：包含 1018 个精心筛选的高质量视频片段，每个片段长达5秒，涵盖了54个不同的内容类别（如“网球”、“烹饪”、“城市交通”），确保场景覆盖广泛。
◉

高质量标注：每个视频都配有详细的运动标注。标注结合了人机交互流程：标注员在第一帧点击目标区域，由 SAM 模型生成初始掩码，并可添加负点以排除无关区域，确保了对复杂、小物体或关节式运动的精确标注。最终，每个视频至少包含一条代表性运动轨迹，其中192个视频还包含多物体运动轨迹。
◉

详细描述：使用 Gemini 模型为每个视频生成密集的描述性字幕，涵盖物体、动作和相机动态，为生成任务提供了丰富的语义上下文。

图：MoveBench 的构建流程，结合算法筛选与人工精校，确保数据的高质量与标注的精确性。

性能表现：数据说话

研究团队在 MoveBench 和公开数据集 DAVIS 上进行了广泛的实验，将 Wan-Move 与 ImageConductor、LeviTor、Tora、MagicMotion 等前沿学术方法，甚至商业模型 Kling 1.5 Pro 进行了比较。评估指标包括衡量视觉保真度的 FID、FVD、PSNR、SSIM，以及专门衡量运动精度的终点误差（EPE，即生成视频中追踪点与真实轨迹之间的L2距离）。

量化结果展示出显著优势：

◉

单物体运动控制：在 MoveBench 上，Wan-Move 取得了全面的最佳成绩：FID 12.2（↓），FVD 83.5（↓），PSNR 17.8（↑），SSIM 0.64（↑），EPE 2.6（↓）。其运动精度（EPE）明显优于其他方法（对比基线为3.2-3.4）。
◉

多物体运动控制：在更具挑战性的多物体运动场景（MoveBench 子集）中，Wan-Move 的优势进一步扩大，EPE 低至2.2，而对比方法 Tora 为3.5。
◉

人工评估：在两选一强制选择（2AFC）的人为评估中，Wan-Move 在与 Kling 1.5 Pro 的比较中，在运动质量和视觉质量上均获得了超过50%的胜率，证明了其商业级竞争力。
◉

效率：得益于简洁的设计，Wan-Move 的推理延迟仅比基础 I2V 模型增加3秒，而使用 ControlNet 融合运动条件的方法则增加了225秒的延迟。

定性对比同样令人信服：
从论文展示的生成样例来看，Wan-Move 能够更准确地遵循复杂的运动轨迹（如旋转、曲线移动），并保持更高的视觉一致性和细节真实感。相比之下，一些基线方法会出现运动偏离、物体扭曲或背景不自然抖动等问题。

广泛的应用场景

由于点轨迹可以灵活地表示多种类型的运动，Wan-Move 支持一系列丰富的运动控制应用：

物体控制：通过指定单个或多个点的轨迹，精确控制场景中一个或多个物体的运动路径。
相机控制：通过拖动背景点或根据单目深度预测结果计算出的相机对齐2D轨迹，实现推拉、平移、旋转等相机运动效果。
运动迁移：从一个视频中提取运动轨迹，并将其应用于另一张不同的静态图像，为这张图片赋予“他人”的动态。
3D旋转控制：结合深度估计，计算物体在3D空间中的旋转，并投影为2D轨迹，实现物体的三维旋转动画。

图：Wan-Move 支持多样化的运动控制应用，包括单/多物体控制、相机控制、运动迁移和3D旋转等。

如何开始使用与评估？

对于研究者和开发者，Wan-Move 提供了完整的开源生态：

◉

代码与模型：项目代码已在 GitHub 上开源。14B参数规模的模型权重（Wan-Move-14B-480P）已在 Hugging Face 和 ModelScope 平台发布，支持生成5秒480p视频。
◉

MoveBench数据集：评估基准 MoveBench 也已开源，方便社区进行公平比较。
◉

快速上手：安装依赖后，通过简单的命令行指令即可进行推理。无论是评估 MoveBench 基准，还是使用自定义图像和轨迹生成视频，流程都已简化。

技术细节与消融实验

为了验证设计选择的有效性，论文进行了一系列深入的消融研究：

◉

轨迹引导策略：比较了“像素复制”、“随机轨迹嵌入”和提出的“潜在特征复制”。结果证明，潜在特征复制在视频质量（PSNR 17.8）和运动控制精度（EPE 2.6）上均最优，因为它保留了丰富的局部上下文。
◉

训练轨迹数量：研究发现，在训练时采样最多200条轨迹能取得最佳平衡。过少的轨迹（如10条）控制能力不足，过多的轨迹（如1024条）则可能与推理时常用的稀疏轨迹不匹配，导致性能下降。
◉

泛化能力：即使在输入轨迹数量变化（从1条到1024条）、处理大尺度运动或分布外（OOD）的罕见运动时，Wan-Move 都表现出了强大的鲁棒性和泛化能力。

局限性与未来

当然，任何技术都有其边界。Wan-Move 的局限性主要在于其对点轨迹的依赖：如果目标点在视频中因长时间遮挡而持续消失，模型可能会失去运动引导。此外，在物体极其复杂拥挤的场景，或输入轨迹严重违背物理规律时，也可能出现生成瑕疵。

结语

Wan-Move 通过“潜在轨迹引导”这一简洁而高效的核心设计，在运动可控视频生成领域实现了显著的进步。它成功地将精细的运动控制与模型的简洁性、可扩展性结合起来，其生成质量达到了与顶尖商业工具竞争的水平。连同其带来的高标准评估基准 MoveBench，这项开源工作不仅为研究人员提供了强大的工具，也为整个视频生成社区设定了新的参考点，有望激发更多创新，并最终赋能更广泛的创作者群体。

How-To: 快速运行 Wan-Move 示例

如果您想快速体验 Wan-Move 的效果，可以按照以下步骤操作（假设已配置好Python环境）：

克隆仓库并安装依赖：

git clone https://github.com/ali-vilab/Wan-Move.git
cd Wan-Move
pip install -r requirements.txt

下载模型权重：

huggingface-cli download Ruihang/Wan-Move-14B-480P --local-dir ./Wan-Move-14B-480P

运行示例生成：

python generate.py \
  --task wan-move-i2v \
  --size 480*832 \
  --ckpt_dir ./Wan-Move-14B-480P \
  --image examples/example.jpg \
  --track examples/example_tracks.npy \
  --track_visibility examples/example_visibility.npy \
  --prompt "A laptop is placed on a wooden table..." \
  --save_file example.mp4

FAQ

Q1: Wan-Move 和之前的运动控制方法（如DragNUWA、MotionCtrl）最大的不同是什么？
A1: 最大不同在于运动引导的注入方式。之前的方法大多需要训练额外的运动编码器（如ControlNet）来将运动信号融合到生成模型中。而Wan-Move通过将点轨迹映射到潜在空间并复制第一帧特征，直接更新了模型已有的条件特征，无需任何额外模块，架构更简洁，更易于微调扩展。

Q2: 我需要自己提供点轨迹吗？如何获得？
A2: 是的，推理时需要提供点轨迹。您可以使用开源的轨迹追踪工具（如论文中使用的CoTracker）从参考视频中提取，也可以手动指定关键点路径。Wan-Move支持稀疏（如1条）到密集（如1024条）的轨迹输入。

Q3: Wan-Move 能生成多长时间的视频？分辨率如何？
A3: 当前开源的 Wan-Move-14B-480P 模型专注于生成5秒钟、分辨率为832×480（480p）的视频。这是目前长时间、高质量运动可控生成的一个重要节点。

Q4: MoveBench 基准对普通开发者有什么价值？
A4: MoveBench 提供了一个大规模、高质量、标注统一的测试集。开发者可以使用它来客观评估自己模型或方法的运动控制性能，确保比较的公平性，并快速发现模型在哪些场景（如多物体、大运动）下存在不足。

Q5: 这项技术可能被滥用吗？研究团队如何看待？
A5: 论文明确指出了其双刃剑潜力。像所有强大的生成模型一样，Wan-Move 可用于创意产业、教育和模拟的积极目的，但也存在被用于制作误导性或有害内容的风险。团队通过开源促进透明研究，并提醒使用者必须负责任地遵守法律和道德规范。