让视频越拍越对味：VISTA 把“剪辑师”塞进提示词里

用一杯咖啡的时间，把“一句 idea”自动拍成“多条高分短片”——而且不用重新训练模型。

故事开场：一句 prompt 的翻车现场

周五傍晚，产品同学丢来一句：

“来段 8 秒短片，飞船冲进超光速，星星拉出光轨。”

你打开 Veo 3，30 秒后拿到视频——飞船竖直升空，星空背景像贴了张静态壁纸，弹幕飘过两个字：“出戏”。

于是你开始“人类优化”：改提示、再生成、再改…… 一晚过去，prompt 膨胀成 200 token 小作文，效果却像玄学。

问题根本不在模型，而在“一次性提示”本身。
就像导演只给摄影师一句“拍得酷”，却不给分镜、不审毛片、不喊 NG——翻车是必然的。

VISTA 是谁？——把“拍-看-改”做成自动循环

Google & NUS 联合推出的 VISTA（Video Iterative Self-improvement Agent）用 4 个智能体把“人类剪辑师”的工作流搬进推理阶段：

规划师 → 写分镜
选片导演 → 看样片打锦标赛
三维评审团 → 视觉/音频/上下文逐帧找茬
反思编剧 → 根据差评重写提示

核心卖点：黑箱、无需训练、任何 T2V 模型即插即用，越迭代越对齐。

30 秒看懂工作流程

用户: 一句 idea
  ↓ ① 结构化规划
生成 N 条带时间轴的“分镜 JSON”
  ↓ ② 锦标赛选片
 pairwise + 双向 swap，挑最佳视频-提示对
  ↓ ③ 三维评审团
Normal Judge 夸，Adversarial Judge 损，Meta Judge 出报告
  ↓ ④ 反思编剧
DTPA 读报告→写“修改动作”→采样新提示
  ↑_____________迭代 T 次，直到满意或预算耗尽

深度拆解：四步闭环怎么跑

① 结构化规划：把“感觉”拆成 9 维可执行项

维度	示例字段
时长	8 s
场景类型	实拍 / 动画
角色	白色流浪猫
动作	伸爪碰镜头
台词	无
视觉环境	黄昏屋顶，暖光
机位	手持 POV，轻微晃动
声音	环境底噪 + 远处车流
情绪	治愈

输出是一条 JSON 时间线，模型一眼看懂“何时、何地、何物、何感”。

官方已放出默认 prompt 模板，直接抄作业即可。

② 锦标赛选片：让 MLLM 当“看片导演”

传统打分制容易“全员 8 分”——根本拉不开差距。
VISTA 改用成对淘汰：

先让模型给每条短片写“小影评”（probe critique）
双向 swap 比较：A vs B，再 B vs A，消 token 顺序偏差
每轮淘汰一半，直到只剩冠军

默认 5 条评审维度：
视觉真实感 / 物理合理性 / 文本-视频对齐 / 音频-视频对齐 / 观众参与度

你可以在配置里加“禁止突兀字幕”“禁止鬼畜速度”等惩罚项——AI 常见翻车点直接判负。

③ 三维评审团：Normal vs Adversarial vs Meta

维度	Normal Judge	Adversarial Judge	Meta Judge
视觉	夸画面干净	损星轨没视差	综合给 7/10
音频	夸对白清晰	损风噪炸耳	建议降噪+加环境底床
上下文	夸节奏流畅	损情绪太平	建议角色微表情

每条指标 1–10 分，≤8 分即触发后续“修改动作”，保证问题被精准定位。

④ 反思编剧：DTPA 如何把“差评”翻译成“改提示动作”

Deep-Thinking Prompting Agent 的 6 步自我拷问：

问题清单：把低于 8 分的指标拉出来
目标重申：用户到底想拍什么？
模型局限：哪些是 Veo 3 天生不擅长？（如光学反射）
提示缺陷：哪些描述太含糊或自相矛盾？
修改动作：只输出“该加什么、删什么”
二次检查：确保动作覆盖全部问题

示例输出：

“在角色描述加一句：太阳镜反射面不得出现相机器材”
“文本出现方式由‘出现’改为‘从底部滑入，占屏 <5%’”
“环境声加‘无风噪底床’约束”

随后用这些动作采样 3–5 条新提示，进入下一轮生成。

上手实战：把 VISTA 接到你的 Veo 3

以下命令真实可跑，环境：Python ≥3.9，Google Cloud 已开通 Veo 3 API

# 1. 克隆官方参考实现
git clone https://github.com/google-research/vista.git
cd vista

# 2. 安装依赖（含 Gemini 2.5 Flash SDK）
pip install -r requirements.txt

# 3. 配置 GCP 密钥
export GOOGLE_APPLICATION_CREDENTIALS=/path/veo3-key.json
export GEMINI_API_KEY="your-gemini-2.5-flash-key"

# 4. 最小示例：单场景优化
python -m vista.run \
  --prompt "A spaceship entering hyperdrive, stars streaking past" \
  --iterations 5 \
  --videos-per-iter 3 \
  --output-dir ./run001

运行结束即可在 run001/best/ 拿到胜率最高的成片 + 最终提示词。

结果速览：数字不会撒谎

场景	轮次	胜率 vs 直接提示	人类偏好
单场景	5	45.9 % → 46.3 %	66.4 %
多场景	5	46.3 %	同上

成本：每轮约 0.7M tokens（≈ $0.02，不含视频生成本身），线性可控。

常见问题解答

Q：能用在 Stable Video Diffusion 或 Runway 吗？
A：只要模型接受文本提示即可，框架与具体生成器解耦。

Q：迭代多了会不会“跑题”？
A：DTPA 第一步就锁定“用户原始意图”，所有修改动作只能补细节，不能改剧情。

Q：评审一定要用 Gemini 2.5 Flash？
A：代码里可替换任意 MLLM，已测 Gemini 2.5 Pro、Qwen2.5-VL-32B 趋势一致。

写在最后：提示词的未来，是“自我进化”

VISTA 给文本生成视频带来的最大启示——
别再靠人类熬夜改 prompt，而是让 prompt 自己“长”成对的模样。

当你下次再听到“拍个 8 秒短片”时，只需扔给 VISTA 一句 idea，
剩下的时间，去喝杯好咖啡，等模型把 NG 镜头自己剪掉。

: Anthropic 构建多智能体研究系统的工程挑战和经验教训: 使用重写提示来越狱文本转视频系统

一句提示词自动拍出高分短片？VISTA让视频越拍越对味