nano banana pro原理及使用技巧

最新推荐文章于 2026-06-22 20:17:05 发布

原创最新推荐文章于 2026-06-22 20:17:05 发布 · 1.1k 阅读

16 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#多模态理解与生成

Qwen3.5-9B

Qwen3.5 具备以下增强特性：统一的视觉-语言基础：通过在多模态 token 上进行早期融合训练，在跨代性能上与 Qwen3 持平，并在推理、编码、智能体和视觉理解等基准测试中全面超越 Qwen3-VL 模型。高效混合架构：结合门控 Delta 网络与稀疏混合专家（Mixture-of-Experts），实现高吞吐推理，同时保持极低的延迟和成本开销。可扩展的强化学习泛化能力：在百万

模型原理

nano banana pro(gemini 3 pro image)是多模态推理模型，能生成图像并处理来自文本、图像等多种信息源的挑战性问题。

模型架构

Gemini 3 Pro Image 基于 Gemini 3 Pro 构建。
支持输入：文本串（如问题、提示、待摘要的文档）和图像，token 上下文窗口最高 1M。
支持输出：图像，token 输出上限 64K。
gemini3是一种基于稀疏MoE架构的transformer模型，原生支持文本、视觉和音频多模态输入。稀疏 MoE 模型通过“将每个输入 token 动态路由到参数子集（即专家）”的方式，在每次推理时只激活部分参数；这使得模型能够把“总参数量”与“单 token 的计算/服务成本”解耦。架构上的多项改进带来了相比前代模型系列的显著性能提升。

训练数据

预训练部分数据是一个大规模、多领域、多模态的异构语料库，涵盖公开网页文档、文本、代码、图像、音频（含语音及其他音频类型）与视频。
后训练部分数据则包含各类指令微调数据、强化学习数据以及人类偏好数据。Gemini 3 Pro 采用强化学习技术进行训练，可利用多步推理、问题求解与定理证明类数据。
数据过滤与预处理采用多种技术，包括去重、遵守 robots.txt 协议、以及符合谷歌“安全且负责任地推进 AI”承诺的在线安全过滤，并通过质量过滤以降低风险、提升训练数据可靠性。
数据收集完成后，会进一步清洗和预处理，使其适合训练。该过程视具体情况而定，内容包括滤除无关或有害信息，涵盖文本及其他模态，并特别过滤色情、暴力以及违反儿童性虐待材料（CSAM）法律的内容。

能力测评

人类测评：
（1）新能力测评集：精心策划了多样化的文生图（T2I）与编辑任务，涵盖文本、风格、角色、推理、事实性、信息图、墨迹（涂鸦）编辑、多轮对话、多图像（视觉设计、虚拟试穿、商品重场景化等）等广泛能力。
（2）回归测试：汇总 Gemini 2.5 Flash Image 上观察到的热门用例，确保 Gemini 3 Pro Image 不出现明显退步。
benchmark测评：
（1）既有能力：文本渲染、风格化、多轮对话、通用图像编辑、角色编辑、物体/场景编辑、纯文生图及回归测试。

（2）新增能力：多角色编辑、图表编辑、文本编辑、教育场景事实性、多输入、信息图、涂鸦编辑与视觉设计。
在这里插入图片描述
测评结果显示，nano banana pro的各项生图能力得分均优于目前其他图像SOTA模型；

优势场景

下列场景适合nano banana pro去生成图像:
以专业级精度与可控度创建并编辑图像
为海报及精细图表生成清晰可读的文字
依赖长上下文与真实世界知识的任务
达到工作室级别的后期控制

改进方向

nano banana pro仍有以下质量提升空间：

文字渲染：小字号效果差（1K 模型常模糊），长段落、整页文字表现不佳
角色一致性：输入图与生成图之间的人物形象未必完全保持一致
遮罩/涂鸦编辑：指令遵循不完整，且提示墨迹易残留
图像编辑时：偶现“复制-粘贴”式搬运用户原图，而非重新生成
空间定位：偶尔混淆左右等方位关系
高级能力仍有限：世界知识、3D 推理与事实准确性有待加强

Gemini 3 Pro Image 的知识截止时间为 2025 年 1 月。

使用技巧

分辨率&宽高比选择

nano banana pro模型支持生成1K，2K，4K分辨率，以及1:1,2:3,3:2,16:9等多种不同比例的图片。
分辨率和宽高比对应消耗的tokens数关系如下表所示：
在这里插入图片描述

工具接入能力：谷歌搜索& 谷歌地图

nano banana pro支持接入谷歌搜索工具，可以搜索后根据搜索内容回答问题；也支持调用谷歌地图搜索；

google_search_tool = types.Tool(
    google_search_retrieval=types.GoogleSearchRetrieval(
        dynamic_retrieval_config=types.DynamicRetrievalConfig(
            mode='MODE_DYNAMIC',  # 让模型自己决定要不要搜
            dynamic_threshold=0.7  # 阈值 0-1，越大越“想搜”
        )
    )
)

提示词示例：

基于谷歌地图，生成深圳南山区地图，sasaki风格

在这里插入图片描述

使用谷歌搜索，调研硅谷科技企业分布情况，基于谷歌地图，生成硅谷企业分布地图，并标注企业分布点，sasaki风格

在这里插入图片描述

知识图解

在这里插入图片描述

附录

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Image-Model-Card.pdf
https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf
https://deepmind.google/models/gemini-image/pro/
https://ai.google.dev/gemini-api/docs/image-generation
https://github.com/google-gemini/cookbook/blob/main/quickstarts/Get_Started_Nano_Banana.ipynb
https://dev.to/googleai/nano-banana-pro-prompting-guide-strategies-1h9n

您可能感兴趣的与本文相关的镜像