和 Google Veo 3 一起「拍」出你的第一段 AI 视频:零门槛本地快速上手
“
本文从零开始带你把 Google 最新的视频生成模型 Veo 3 跑在本地浏览器里,10 分钟就能生成、播放、下载第一段文字或图片驱动的视频。
1. 我能在 30 秒内读完的「一句话总结」
做什么 | 一句话解释 |
---|---|
Veo 3 | Google 当前最强的“文生视频”模型,输入文字即可生成短视频。 |
这个仓库 | 给你一个极简网页,点几下就能调用 Veo 3 或 Imagen 4 生成视频 / 图片。 |
收费 | 需要 Gemini API 付费账户;本地代码完全免费。 |
门槛 | 有 Node.js 就能跑,不需要显卡,也不需要 Docker。 |
2. 为什么你可能需要这篇文章
-
你已经看过官方文档,但想先跑起来再慢慢研究。 -
你担心“AI 视频”听起来高大上,怕配置复杂。 -
你想知道到底要花多少钱、会不会泄露隐私。 -
你希望把生成结果直接下载到本地硬盘。
本文把这些问题全部拆成步骤和问答,照着做即可。
3. 先认识主角:Veo 3 与 Imagen 4
模型 | 作用 | 输入 | 输出 |
---|---|---|---|
Veo 3 | 生成视频 | 文字(可选:起始图片) | 最高 1080p、数秒长度的 MP4 |
Imagen 4 | 生成图片 | 文字 | 静态 PNG/JPEG |
这两个模型都封装在 Gemini API 里,调用方式一致,只是参数不同。
4. 准备工作:3 步到位
4.1 硬件与软件清单
-
任意能上网的电脑(Windows / macOS / Linux 均可) -
已安装 Node.js ≥ 18(在终端输入 node -v
能看到版本号即可) -
一个浏览器(Chrome / Edge / Firefox / Safari 均可)
4.2 获取 API 密钥
-
打开浏览器,登录 Google AI Studio。 -
点击 Create API Key。 -
把生成的字符串复制到剪贴板,稍后放在 .env
文件里。
⚠️ 注意:免费额度不会包含 Veo 3 与 Imagen 4,你需要在 Google Cloud 里升级到 付费账户,否则请求会返回 403。
4.3 克隆示例仓库
git clone https://github.com/your-repo/veo3-gemini-quickstart.git
cd veo3-gemini-quickstart
(仓库名仅示例,实际路径以你 fork 或下载的为准)
5. 本地安装:5 行命令
# 1. 安装依赖
npm install
# 2. 把 API 密钥写进环境变量
echo "GEMINI_API_KEY=你的密钥" > .env
# 3. 启动开发服务器
npm run dev
浏览器自动打开 http://localhost:3000
,看到如下页面即成功:

6. 页面长什么样?一图看懂
区域 | 功能 |
---|---|
左侧输入框 | 输入文字或上传图片 |
中央按钮 | 点击后调用 Veo 3 或 Imagen 4 |
右侧播放器 | 实时轮询任务状态,生成完成后自动播放 |
底部下载按钮 | 一键把 MP4 保存到本地 |
7. 生成第一段文字驱动视频
7.1 步骤拆解
步骤 | 操作 | 预计时间 |
---|---|---|
1 | 在左侧输入框写一句英文描述,例如 “A cat wearing sunglasses walks on a beach at sunset” | 10 秒 |
2 | 点击 Generate Video | 1 秒 |
3 | 页面弹出“任务已提交”,右侧状态条开始轮询 | 5–60 秒 |
4 | 状态变成 Succeeded 时,播放器自动出现 | 1 秒 |
5 | 点击 Download 把 MP4 保存到本地 | 1 秒 |
7.2 常见问题列表
Q1:为什么任务一直卡在 “Pending”?
A:Google 侧排队或额度不足,刷新页面重新提交即可;若持续 5 分钟以上,请检查控制台是否 403。
Q2:能不能写中文提示词?
A:可以,但英文效果更稳定;中文提示词偶尔会出现口型不匹配。
8. 上传起始图片,做“图生视频”
-
在左侧点击 Upload Image,选一张本地 PNG/JPEG。 -
在输入框补充文字描述,例如 “Make the background slowly zoom out to reveal the Eiffel Tower”。 -
点击 Generate Video 即可。
“
原理:Veo 3 会把图片当作第 0 帧,再按文字指令生成后续帧。
9. 浏览器里剪视频:不需要 FFmpeg
生成好的视频可能长达 8 秒,但只需要中间 2 秒怎么办?
-
播放器下方有 Start / End 时间输入框。 -
选好后点 Trim,浏览器会即时裁剪并给出新的下载链接。 -
全程本地运算,不再次调用 API,也不额外计费。
10. 项目目录一览:你改哪里,心里有数
veo3-gemini-quickstart/
├── app/
│ ├── api/
│ │ ├── veo/generate/route.ts # 调 Veo 3
│ │ ├── veo/operation/route.ts # 查任务状态
│ │ ├── veo/download/route.ts # 下载视频
│ │ └── imagen/generate/route.ts # 调 Imagen 4
│ └── page.tsx # 主页面
├── components/
│ ├── VideoPlayer.tsx
│ └── ImageUploader.tsx
├── lib/
│ └── schemas.ts # 请求/响应结构
├── public/
│ └── example.png
└── README.md
-
如果你想换主题颜色,改 tailwind.config.js
。 -
如果你想把下载链接变成自动保存到云盘,改 download/route.ts
即可。
11. 费用与配额:一次说清
项目 | 说明 |
---|---|
Gemini API 价格 | 按输出时长计费,具体数字以官方页面为准。 |
免费额度 | 不包含 Veo 3 与 Imagen 4。 |
预估成本 | 一段 5 秒 720p 视频约几美分,仅供体验。 |
防止超支 | 在 Google Cloud Console 设置预算上限即可。 |
12. 隐私与合规
-
代码完全开源,本地运行,不收集任何用户数据。 -
上传到 Google 的只有你的提示词与图片,遵守 Google API 隐私政策。 -
建议不要在提示词里放入个人身份信息。
13. 故障排查清单
现象 | 可能原因 | 解决 |
---|---|---|
npm run dev 报端口占用 |
3000 端口被占用 | npm run dev -- -p 3001 |
浏览器空白 | 未设置 GEMINI_API_KEY |
检查 .env 文件 |
请求返回 429 | 频率过高 | 等 60 秒再试 |
生成视频黑屏 | 提示词太抽象 | 换成具体场景描述 |
14. FAQ:把常见疑问一次答完
我可以把这段代码部署到 Vercel 吗?
可以。把 `.env` 里的密钥换成 Vercel 的环境变量即可,其余步骤不变。
能一次生成 5 分钟大片吗?
目前 Veo 3 单次限制在数秒到十几秒,长视频需多次调用再拼接。
Windows 没有 Git Bash 怎么办?
直接用 PowerShell 执行同样命令即可,不影响。
生成失败会扣费吗?
不会,只有成功返回视频才会计费。
我能商用生成的视频吗?
遵循 Google Gemini API 服务条款即可,建议仔细阅读第 4 节“使用限制”。
15. 下一步可以做什么?
-
把下载下来的 MP4 丢进 Premiere,加字幕、配音。 -
用同样的 API 写脚本批量生成,定时发布到短视频平台。 -
把 operation/route.ts
改成 WebSocket 推送,前端实时显示进度条。 -
在 lib/schemas.ts
里增加自定义参数,比如镜头运动轨迹。
16. 小结
读完本文,你已经:
-
知道 Veo 3 与 Imagen 4 能做什么; -
在本地跑起了一个可交互的“AI 视频工作室”; -
学会文字/图片生成视频、浏览器裁剪、下载到本地; -
了解了费用、隐私、故障排查的全部细节。
把电脑打开,复制命令,10 分钟后你就能拥有自己的第一段 AI 视频。祝你玩得开心!