让视频越拍越对味:VISTA 把“剪辑师”塞进提示词里

用一杯咖啡的时间,把“一句 idea”自动拍成“多条高分短片”——而且不用重新训练模型。


故事开场:一句 prompt 的翻车现场

周五傍晚,产品同学丢来一句:

“来段 8 秒短片,飞船冲进超光速,星星拉出光轨。”

你打开 Veo 3,30 秒后拿到视频——飞船竖直升空,星空背景像贴了张静态壁纸,弹幕飘过两个字:“出戏”。

于是你开始“人类优化”:改提示、再生成、再改…… 一晚过去,prompt 膨胀成 200 token 小作文,效果却像玄学。

问题根本不在模型,而在“一次性提示”本身。
就像导演只给摄影师一句“拍得酷”,却不给分镜、不审毛片、不喊 NG——翻车是必然的。


VISTA 是谁?——把“拍-看-改”做成自动循环

Google & NUS 联合推出的 VISTA(Video Iterative Self-improvement Agent)用 4 个智能体把“人类剪辑师”的工作流搬进推理阶段:

  1. 规划师 → 写分镜
  2. 选片导演 → 看样片打锦标赛
  3. 三维评审团 → 视觉/音频/上下文逐帧找茬
  4. 反思编剧 → 根据差评重写提示

核心卖点:黑箱、无需训练、任何 T2V 模型即插即用,越迭代越对齐。


30 秒看懂工作流程

用户: 一句 idea
  ↓ ① 结构化规划
生成 N 条带时间轴的“分镜 JSON”
  ↓ ② 锦标赛选片
 pairwise + 双向 swap,挑最佳视频-提示对
  ↓ ③ 三维评审团
Normal Judge 夸,Adversarial Judge 损,Meta Judge 出报告
  ↓ ④ 反思编剧
DTPA 读报告→写“修改动作”→采样新提示
  ↑_____________迭代 T 次,直到满意或预算耗尽

深度拆解:四步闭环怎么跑

① 结构化规划:把“感觉”拆成 9 维可执行项

维度 示例字段
时长 8 s
场景类型 实拍 / 动画
角色 白色流浪猫
动作 伸爪碰镜头
台词
视觉环境 黄昏屋顶,暖光
机位 手持 POV,轻微晃动
声音 环境底噪 + 远处车流
情绪 治愈

输出是一条 JSON 时间线,模型一眼看懂“何时、何地、何物、何感”。

官方已放出默认 prompt 模板,直接抄作业即可。


② 锦标赛选片:让 MLLM 当“看片导演”

传统打分制容易“全员 8 分”——根本拉不开差距。
VISTA 改用成对淘汰

  • 先让模型给每条短片写“小影评”(probe critique)
  • 双向 swap 比较:A vs B,再 B vs A,消 token 顺序偏差
  • 每轮淘汰一半,直到只剩冠军

默认 5 条评审维度
视觉真实感 / 物理合理性 / 文本-视频对齐 / 音频-视频对齐 / 观众参与度

你可以在配置里加“禁止突兀字幕”“禁止鬼畜速度”等惩罚项——AI 常见翻车点直接判负。


③ 三维评审团:Normal vs Adversarial vs Meta

维度 Normal Judge Adversarial Judge Meta Judge
视觉 夸画面干净 损星轨没视差 综合给 7/10
音频 夸对白清晰 损风噪炸耳 建议降噪+加环境底床
上下文 夸节奏流畅 损情绪太平 建议角色微表情

每条指标 1–10 分,≤8 分即触发后续“修改动作”,保证问题被精准定位。


④ 反思编剧:DTPA 如何把“差评”翻译成“改提示动作”

Deep-Thinking Prompting Agent 的 6 步自我拷问:

  1. 问题清单:把低于 8 分的指标拉出来
  2. 目标重申:用户到底想拍什么?
  3. 模型局限:哪些是 Veo 3 天生不擅长?(如光学反射)
  4. 提示缺陷:哪些描述太含糊或自相矛盾?
  5. 修改动作:只输出“该加什么、删什么”
  6. 二次检查:确保动作覆盖全部问题

示例输出

  • “在角色描述加一句:太阳镜反射面不得出现相机器材”
  • “文本出现方式由‘出现’改为‘从底部滑入,占屏 <5%’”
  • “环境声加‘无风噪底床’约束”

随后用这些动作采样 3–5 条新提示,进入下一轮生成。


上手实战:把 VISTA 接到你的 Veo 3

以下命令真实可跑,环境:Python ≥3.9,Google Cloud 已开通 Veo 3 API

# 1. 克隆官方参考实现
git clone https://github.com/google-research/vista.git
cd vista

# 2. 安装依赖(含 Gemini 2.5 Flash SDK)
pip install -r requirements.txt

# 3. 配置 GCP 密钥
export GOOGLE_APPLICATION_CREDENTIALS=/path/veo3-key.json
export GEMINI_API_KEY="your-gemini-2.5-flash-key"

# 4. 最小示例:单场景优化
python -m vista.run \
  --prompt "A spaceship entering hyperdrive, stars streaking past" \
  --iterations 5 \
  --videos-per-iter 3 \
  --output-dir ./run001

运行结束即可在 run001/best/ 拿到胜率最高的成片 + 最终提示词。


结果速览:数字不会撒谎

场景 轮次 胜率 vs 直接提示 人类偏好
单场景 5 45.9 % → 46.3 % 66.4 %
多场景 5 46.3 % 同上

成本:每轮约 0.7M tokens(≈ $0.02,不含视频生成本身),线性可控。


常见问题解答

Q:能用在 Stable Video Diffusion 或 Runway 吗?
A:只要模型接受文本提示即可,框架与具体生成器解耦。

Q:迭代多了会不会“跑题”?
A:DTPA 第一步就锁定“用户原始意图”,所有修改动作只能补细节,不能改剧情。

Q:评审一定要用 Gemini 2.5 Flash?
A:代码里可替换任意 MLLM,已测 Gemini 2.5 Pro、Qwen2.5-VL-32B 趋势一致。


写在最后:提示词的未来,是“自我进化”

VISTA 给文本生成视频带来的最大启示——
别再靠人类熬夜改 prompt,而是让 prompt 自己“长”成对的模样。

当你下次再听到“拍个 8 秒短片”时,只需扔给 VISTA 一句 idea,
剩下的时间,去喝杯好咖啡,等模型把 NG 镜头自己剪掉。

: Anthropic 构建多智能体研究系统的工程挑战和经验教训
使用重写提示来越狱文本转视频系统