Nano Banana Pro 完全开发指南:从入门到高级应用
如果你熟悉Nano Banana(Flash型号)——那款有趣、快速且经济的图像生成工具,那么Nano Banana Pro就像是它的“深思熟虑”的哥哥。相比基础版,Pro带来了三项关键升级:
-
思考模式(透明化推理过程) -
搜索 grounding(实时谷歌搜索数据支持) -
4K图像生成(印刷级画质输出)
本文将带你从头到尾掌握Nano Banana Pro的使用方法,基于Gemini开发者API,全是实用示例和可运行代码,没有多余内容。
你将学到什么?
-
如何在Google AI Studio中使用Nano Banana Pro -
项目的搭建步骤 -
API客户端的初始化方法 -
基础图像生成操作 -
“思考”功能的启用与应用 -
搜索 grounding的使用技巧 -
4K图像的创建方法 -
多语言图像生成能力 -
高级图像混合功能 -
Pro版本专属演示案例 -
提示词编写与最佳实践
1. 在Google AI Studio中使用Nano Banana Pro
普通用户可以在Gemini应用中使用Nano Banana Pro,但开发者想要原型设计和测试提示词,Google AI Studio是更理想的环境。AI Studio不仅是测试所有AI模型的“游乐场”,也是使用Gemini API开发的入口。
使用步骤很简单:访问aistudio.google.com,用谷歌账号登录,然后从模型选择器中挑选Nano Banana Pro(Gemini 3 Pro Image)即可。
需要注意的是,与基础版不同,Pro版本没有免费额度,因此必须选择已启用计费功能的API密钥(具体见下面的“项目设置”部分)。
小贴士:你也可以直接在AI Studio的ai.studio/apps中开发Nano Banana网页应用,或者浏览、 remix现有的应用代码。
2. 项目搭建准备
要跟随本指南操作,你需要准备这些东西:
-
来自Google AI Studio的API密钥 -
已设置计费的谷歌云项目 -
适用于Python或JavaScript/TypeScript的Google Gen AI SDK
如果你已经是Gemini API的老用户,直接跳过这部分即可。新用户可以按以下步骤操作。
步骤A:获取API密钥
首次登录AI Studio时,系统会自动创建一个谷歌云项目和对应的API密钥。
打开API密钥管理页面,点击“复制”图标即可获取你的API密钥。
步骤B:启用计费功能
由于Nano Banana Pro没有免费额度,你需要为谷歌云项目启用计费。
在API密钥管理页面,找到你的项目,点击旁边的“Set up billing”,然后按照屏幕提示完成操作。
Nano Banana Pro的费用是多少?
Pro版本的图像生成成本高于Flash版,尤其是4K图像。目前,1K或2K图像的生成费用为0.134美元,4K图像为0.24美元,费用已包含输入和文本输出的令牌成本。
专业提示:使用批量API(Batch API)可以节省50%的生成成本,但可能需要等待最长24小时才能获取图像。
步骤C:安装SDK
选择适合你常用语言的SDK进行安装:
Python环境:
pip install -U google-genai
# 安装用于图像处理的Pillow库
pip install Pillow
JavaScript/TypeScript环境:
npm install @google/genai
注意:以下示例将使用Python SDK进行演示。
3. 初始化客户端
使用Pro模型时,需要指定模型ID为gemini-3-pro-image-preview。
from google import genai
from google.genai import types
# 初始化客户端
client = genai.Client(api_key="YOUR_API_KEY")
# 设置模型ID
PRO_MODEL_ID = "gemini-3-pro-image-preview"
4. 基础图像生成
在尝试高级功能前,先看看标准的图像生成操作。你可以通过response_modalities(控制输出文本和图像,或仅输出图像)和aspect_ratio(控制宽高比)来调整结果。
prompt = "生成一张写实风格的暹罗猫图片,左眼绿色,右眼蓝色"
aspect_ratio = "16:9" # 可选值:"1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9" 或 "21:9"
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=['Text', 'Image'], # 也可以只写['Image']
image_config=types.ImageConfig(
aspect_ratio=aspect_ratio,
)
)
)
# 保存图像
for part in response.parts:
if image := part.as_image():
image.save("cat.png")
聊天模式也是可用的(其实对于多轮编辑,我更推荐使用聊天模式)。可以参考第八部分的“多语言功能”示例了解具体用法。
(图像由Nano Banana Pro生成)
5. “思考”功能的使用
Nano Banana Pro不只是简单生成图像,更能“思考”——它会先对复杂、特殊的提示词进行推理分析,再开始创作。更棒的是,你可以看到它的“思考过程”!
要启用这项功能,只需在thinking_config中设置include_thoughts=True。
prompt = "创作一张不寻常但真实可信、可能走红网络的图像"
aspect_ratio = "16:9"
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=['Text', 'Image'],
image_config=types.ImageConfig(
aspect_ratio=aspect_ratio,
),
thinking_config=types.ThinkingConfig(
include_thoughts=True # 启用思考过程输出
)
)
)
# 显示图像和思考过程
for part in response.parts:
if part.thought:
print(f"思考过程:{part.text}")
elif image := part.as_image():
image.save("viral.png")
你会得到类似这样的输出:
## 想象 llama 通勤者
我现在聚焦于llama(美洲驼)。目标是捕捉它们在玻利维亚拉巴斯一辆繁忙的公交车上作为日常通勤者的场景。我的计划是画一辆复古公交车,里面挤满了饶有兴致的乘客。图像会突出细节,比如一只llama望着窗外,另一只和乘客互动,而其他人在拍照。
[图像]
## 概念可视化
我现在完全沉浸在请求的场景中。主要关注点是“不寻常但真实可信”这一点。关键元素已经确定,场景开始成形。
这种透明化的过程能让你了解模型对请求的理解方式,就像和艺术家当面沟通一样!
(图像由Nano Banana Pro生成)
6. 实时数据支持:搜索 grounding
Pro版本最具革新性的功能之一是搜索 grounding。它不再局限于旧数据,能访问谷歌搜索的实时数据,生成准确、最新的图像。比如想知道天气?完全可以。
举个例子,你可以让它可视化未来5天的天气预报:
prompt = "将东京未来5天的天气预报可视化为简洁现代的天气图表,并添加每天适合穿什么的建议"
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=['Text', 'Image'],
image_config=types.ImageConfig(
aspect_ratio="16:9",
),
tools=[{"google_search": {}}] # 启用谷歌搜索
)
)
# 保存图像
for part in response.parts:
if image := part.as_image():
image.save("weather.png")
# 显示信息来源(这一步是必须的)
print(response.candidates[0].grounding_metadata.search_entry_point.rendered_content)
(图像由Nano Banana Pro生成)
7. 高清输出:4K图像生成
需要印刷级画质的图像?Nano Banana Pro支持4K分辨率——有时候,更大确实更好。
prompt = "一张经历四季变化的橡树照片"
resolution = "4K" # 可选值:"1K", "2K", "4K",注意小写不生效
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=['Text', 'Image'],
image_config=types.ImageConfig(
aspect_ratio="1:1",
image_size=resolution
)
)
)
注意:4K生成的成本更高,使用时要谨慎!
(图像由Nano Banana Pro生成)
8. 多语言图像生成能力
Pro模型能在图像中生成和翻译十多种语言的文本,堪称“视觉版通用翻译器”。
# 生成西班牙语的信息图
message = "制作一张解释爱因斯坦广义相对论的信息图,适合六年级学生理解,用西班牙语呈现"
response = chat.send_message(message,
config=types.GenerateContentConfig(
image_config=types.ImageConfig(aspect_ratio="16:9")
)
)
# 保存图像
for part in response.parts:
if image := part.as_image():
image.save("relativity.png")
# 翻译成日语
message = "将这张信息图翻译成日语,其他内容保持不变"
response = chat.send_message(message)
# 保存图像
for part in response.parts:
if image := part.as_image():
image.save("relativity_JP.png")
(图像由Nano Banana Pro生成)
(图像由Nano Banana Pro生成)
9. 高级图像混合功能
基础版(Flash)最多能处理3张图像,而Pro版本可以处理多达14张图像!这相当于在一个提示词中“举办一场派对”,非常适合制作复杂拼贴画或展示全系列产品。
# 混合多张图像
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=[
"这些人的办公室合影,他们要做鬼脸。",
PIL.Image.open('John.png'),
PIL.Image.open('Jane.png'),
# ... 最多可添加14张图像
],
)
# 保存图像
for part in response.parts:
if image := part.as_image():
image.save("group_picture.png")
注意:如果希望人物的还原度非常高,建议最多使用5张图像——这已经足够打造一场“派对级”合影了!
(图像由Nano Banana Pro生成)
10. Pro版本专属功能演示
以下是只有Nano Banana Pro能实现的功能示例,带你感受它的强大:
个性化像素艺术(结合搜索 grounding)
提示词:“搜索网络,然后生成一幅等距视角的精细像素画,展示Guillaume Vernade的职业生涯”
这项功能通过搜索 grounding获取特定人物的信息,并以指定风格呈现。
复杂文本整合
提示词:“制作一张关于十四行诗结构的信息图,包含一首关于香蕉的十四行诗,以及对这首诗的详细文学分析。整体采用复古美学风格”
模型能生成连贯、冗长的文本,并将其无缝整合到复杂的排版中。
高保真原型设计
提示词:“一张百老汇《TCG玩家》主题演出的节目单照片,放在舒适的剧院座椅上,节目单制作专业、质感光滑,能看到封面和内页中的舞台照片”
可创建具有精确光影和纹理的印刷品逼真原型。
11. Nano Banana系列模型的使用技巧与最佳实践
要让Nano Banana(包括Pro版)发挥最佳效果,这些提示词编写和使用技巧值得参考:
-
极致具体:关于主体、颜色、光线和构图的描述越详细,对输出的控制就越强。 -
提供背景和意图:描述图像的用途或期望的氛围,模型对背景的理解会引导其创作决策。 -
迭代优化:不要期望一次生成就能完美,利用模型的对话功能进行微调,逐步提升图像质量。 -
分步指令:对于复杂场景,将提示词拆分成一系列清晰、有序的步骤。 -
正向描述:避免使用“没有汽车”这类否定表述,改用正向描述:“一条空旷、无人的街道,看不到任何车辆”。 -
控制视角:使用摄影和电影术语指导构图,比如“广角镜头”“微距拍摄”“低角度视角”。 -
善用搜索 grounding:当需要模型使用实时或真实世界数据时,描述要精确。例如,“搜索里昂奥运会最近一场比赛的信息,制作信息图”比“制作里昂奥运会最近比赛的信息图”效果更好(后者可能也有效,但精确描述更保险)。 -
用批量API降低成本并提高配额:批量API允许一次性发送少量或大量请求,虽然可能需要24小时处理,但能节省50%的生成成本,同时配额也更高!
常见问题(FAQ)
Nano Banana Pro和基础版(Flash)有什么区别?
主要区别在三个方面:Pro版有“思考模式”(可查看推理过程)、支持搜索 grounding(实时数据)、能生成4K图像;基础版无这些功能,且有免费额度,Pro版则需要计费。
如何获取Nano Banana Pro的API密钥?
登录Google AI Studio,系统会自动创建项目和API密钥,在API密钥管理页面可查看和复制。
4K图像生成的成本更高,什么时候适合用?
适合需要印刷、大幅展示或对细节要求极高的场景,比如海报设计、画册制作等。日常快速预览或社交媒体分享,1K/2K已足够。
搜索 grounding功能需要额外付费吗?
不需要额外付费,其费用已包含在图像生成的总费用中,但使用时必须显示信息来源。
最多能混合多少张图像?
Pro版最多支持14张,但如果追求人物或物体的高还原度,建议控制在5张以内。
批量API能节省多少成本?有什么限制?
批量API可节省50%成本,但处理时间最长达24小时,适合非紧急、需要大量生成图像的场景。
多语言生成支持哪些语言?
目前支持十多种语言,包括西班牙语、日语、英语等常见语言,可直接在提示词中指定目标语言。
提示词越短越好还是越长越好?
不是绝对的,关键是“精准”。复杂场景需要详细描述(分步骤),简单需求则可以简洁,但要包含核心要素(主体、风格、用途等)。
通过以上内容,你应该对Nano Banana Pro的功能和使用方法有了全面了解。从基础的图像生成到高级的实时数据整合,Pro版本为开发者提供了更灵活、更强大的创作工具。按照步骤操作并结合最佳实践,就能充分发挥其潜力,满足各种图像生成需求。
