模型原理
nano banana pro(gemini 3 pro image)是多模态推理模型,能生成图像并处理来自文本、图像等多种信息源的挑战性问题。
模型架构
Gemini 3 Pro Image 基于 Gemini 3 Pro 构建。
支持输入:文本串(如问题、提示、待摘要的文档)和图像,token 上下文窗口最高 1M。
支持输出:图像,token 输出上限 64K。
gemini3是一种基于稀疏MoE架构的transformer模型,原生支持文本、视觉和音频多模态输入。稀疏 MoE 模型通过“将每个输入 token 动态路由到参数子集(即专家)”的方式,在每次推理时只激活部分参数;这使得模型能够把“总参数量”与“单 token 的计算/服务成本”解耦。架构上的多项改进带来了相比前代模型系列的显著性能提升。
训练数据
预训练部分数据是一个大规模、多领域、多模态的异构语料库,涵盖公开网页文档、文本、代码、图像、音频(含语音及其他音频类型)与视频。
后训练部分数据则包含各类指令微调数据、强化学习数据以及人类偏好数据。Gemini 3 Pro 采用强化学习技术进行训练,可利用多步推理、问题求解与定理证明类数据。
数据过滤与预处理采用多种技术,包括去重、遵守 robots.txt 协议、以及符合谷歌“安全且负责任地推进 AI”承诺的在线安全过滤,并通过质量过滤以降低风险、提升训练数据可靠性。
数据收集完成后,会进一步清洗和预处理,使其适合训练。该过程视具体情况而定,内容包括滤除无关或有害信息,涵盖文本及其他模态,并特别过滤色情、暴力以及违反儿童性虐待材料(CSAM)法律的内容。
能力测评
- 人类测评:
(1) 新能力测评集:精心策划了多样化的文生图(T2I)与编辑任务,涵盖文本、风格、角色、推理、事实性、信息图、墨迹(涂鸦)编辑、多轮对话、多图像(视觉设计、虚拟试穿、商品重场景化等)等广泛能力。
(2) 回归测试:汇总 Gemini 2.5 Flash Image 上观察到的热门用例,确保 Gemini 3 Pro Image 不出现明显退步。 - benchmark测评:
(1)既有能力:文本渲染、风格化、多轮对话、通用图像编辑、角色编辑、物体/场景编辑、纯文生图及回归测试。

(2)新增能力:多角色编辑、图表编辑、文本编辑、教育场景事实性、多输入、信息图、涂鸦编辑与视觉设计。

测评结果显示,nano banana pro的各项生图能力得分均优于目前其他图像SOTA模型;
优势场景
下列场景适合nano banana pro去生成图像:
以专业级精度与可控度创建并编辑图像
为海报及精细图表生成清晰可读的文字
依赖长上下文与真实世界知识的任务
达到工作室级别的后期控制
改进方向
nano banana pro仍有以下质量提升空间:
- 文字渲染:小字号效果差(1K 模型常模糊),长段落、整页文字表现不佳
- 角色一致性:输入图与生成图之间的人物形象未必完全保持一致
- 遮罩/涂鸦编辑:指令遵循不完整,且提示墨迹易残留
- 图像编辑时:偶现“复制-粘贴”式搬运用户原图,而非重新生成
- 空间定位:偶尔混淆左右等方位关系
- 高级能力仍有限:世界知识、3D 推理与事实准确性有待加强
Gemini 3 Pro Image 的知识截止时间为 2025 年 1 月。
使用技巧
分辨率&宽高比选择
nano banana pro模型支持生成1K,2K,4K分辨率,以及1:1,2:3,3:2,16:9等多种不同比例的图片。
分辨率和宽高比对应消耗的tokens数关系如下表所示:

工具接入能力:谷歌搜索& 谷歌地图
nano banana pro支持接入谷歌搜索工具,可以搜索后根据搜索内容回答问题;也支持调用谷歌地图搜索;
google_search_tool = types.Tool(
google_search_retrieval=types.GoogleSearchRetrieval(
dynamic_retrieval_config=types.DynamicRetrievalConfig(
mode='MODE_DYNAMIC', # 让模型自己决定要不要搜
dynamic_threshold=0.7 # 阈值 0-1,越大越“想搜”
)
)
)
提示词示例:
基于谷歌地图,生成深圳南山区地图,sasaki风格

使用谷歌搜索,调研硅谷科技企业分布情况,基于谷歌地图,生成硅谷企业分布地图,并标注企业分布点,sasaki风格

知识图解


附录
https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Image-Model-Card.pdf
https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf
https://deepmind.google/models/gemini-image/pro/
https://ai.google.dev/gemini-api/docs/image-generation
https://github.com/google-gemini/cookbook/blob/main/quickstarts/Get_Started_Nano_Banana.ipynb
https://dev.to/googleai/nano-banana-pro-prompting-guide-strategies-1h9n
1832

被折叠的 条评论
为什么被折叠?



