nano banana pro原理及使用技巧

Qwen3.5-9B

Qwen3.5 具备以下增强特性: 统一的视觉-语言基础:通过在多模态 token 上进行早期融合训练,在跨代性能上与 Qwen3 持平,并在推理、编码、智能体和视觉理解等基准测试中全面超越 Qwen3-VL 模型。 高效混合架构:结合门控 Delta 网络与稀疏混合专家(Mixture-of-Experts),实现高吞吐推理,同时保持极低的延迟和成本开销。 可扩展的强化学习泛化能力:在百万

模型原理

nano banana pro(gemini 3 pro image)是多模态推理模型,能生成图像并处理来自文本、图像等多种信息源的挑战性问题。

模型架构

Gemini 3 Pro Image 基于 Gemini 3 Pro 构建。
支持输入:文本串(如问题、提示、待摘要的文档)和图像,token 上下文窗口最高 1M。
支持输出:图像,token 输出上限 64K。
gemini3是一种基于稀疏MoE架构的transformer模型,原生支持文本、视觉和音频多模态输入。稀疏 MoE 模型通过“将每个输入 token 动态路由到参数子集(即专家)”的方式,在每次推理时只激活部分参数;这使得模型能够把“总参数量”与“单 token 的计算/服务成本”解耦。架构上的多项改进带来了相比前代模型系列的显著性能提升。

训练数据

预训练部分数据是一个大规模、多领域、多模态的异构语料库,涵盖公开网页文档、文本、代码、图像、音频(含语音及其他音频类型)与视频
后训练部分数据则包含各类指令微调数据、强化学习数据以及人类偏好数据。Gemini 3 Pro 采用强化学习技术进行训练,可利用多步推理、问题求解与定理证明类数据。
数据过滤与预处理采用多种技术,包括去重、遵守 robots.txt 协议、以及符合谷歌“安全且负责任地推进 AI”承诺的在线安全过滤,并通过质量过滤以降低风险、提升训练数据可靠性。
数据收集完成后,会进一步清洗和预处理,使其适合训练。该过程视具体情况而定,内容包括滤除无关或有害信息,涵盖文本及其他模态,并特别过滤色情、暴力以及违反儿童性虐待材料(CSAM)法律的内容。

能力测评

  • 人类测评:
    (1) 新能力测评集:精心策划了多样化的文生图(T2I)与编辑任务,涵盖文本、风格、角色、推理、事实性、信息图、墨迹(涂鸦)编辑、多轮对话、多图像(视觉设计、虚拟试穿、商品重场景化等)等广泛能力。
    (2) 回归测试:汇总 Gemini 2.5 Flash Image 上观察到的热门用例,确保 Gemini 3 Pro Image 不出现明显退步。
  • benchmark测评:
    (1)既有能力:文本渲染、风格化、多轮对话、通用图像编辑、角色编辑、物体/场景编辑、纯文生图及回归测试。
    在这里插入图片描述

(2)新增能力:多角色编辑、图表编辑、文本编辑、教育场景事实性、多输入、信息图、涂鸦编辑与视觉设计
在这里插入图片描述
测评结果显示,nano banana pro的各项生图能力得分均优于目前其他图像SOTA模型;

优势场景

下列场景适合nano banana pro去生成图像:
以专业级精度与可控度创建并编辑图像
为海报及精细图表生成清晰可读的文字
依赖长上下文与真实世界知识的任务
达到工作室级别的后期控制

改进方向

nano banana pro仍有以下质量提升空间:

  • 文字渲染:小字号效果差(1K 模型常模糊),长段落、整页文字表现不佳
  • 角色一致性:输入图与生成图之间的人物形象未必完全保持一致
  • 遮罩/涂鸦编辑:指令遵循不完整,且提示墨迹易残留
  • 图像编辑时:偶现“复制-粘贴”式搬运用户原图,而非重新生成
  • 空间定位:偶尔混淆左右等方位关系
  • 高级能力仍有限:世界知识、3D 推理与事实准确性有待加强

Gemini 3 Pro Image 的知识截止时间为 2025 年 1 月。

使用技巧

分辨率&宽高比选择

nano banana pro模型支持生成1K,2K,4K分辨率,以及1:1,2:3,3:2,16:9等多种不同比例的图片。
分辨率和宽高比对应消耗的tokens数关系如下表所示:
在这里插入图片描述

工具接入能力:谷歌搜索& 谷歌地图

nano banana pro支持接入谷歌搜索工具,可以搜索后根据搜索内容回答问题;也支持调用谷歌地图搜索;

google_search_tool = types.Tool(
    google_search_retrieval=types.GoogleSearchRetrieval(
        dynamic_retrieval_config=types.DynamicRetrievalConfig(
            mode='MODE_DYNAMIC',  # 让模型自己决定要不要搜
            dynamic_threshold=0.7  # 阈值 0-1,越大越“想搜”
        )
    )
)

提示词示例:

基于谷歌地图,生成深圳南山区地图,sasaki风格

在这里插入图片描述

使用谷歌搜索,调研硅谷科技企业分布情况,基于谷歌地图,生成硅谷企业分布地图,并标注企业分布点,sasaki风格

在这里插入图片描述

知识图解

在这里插入图片描述

在这里插入图片描述

附录

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Image-Model-Card.pdf
https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf
https://deepmind.google/models/gemini-image/pro/
https://ai.google.dev/gemini-api/docs/image-generation
https://github.com/google-gemini/cookbook/blob/main/quickstarts/Get_Started_Nano_Banana.ipynb
https://dev.to/googleai/nano-banana-pro-prompting-guide-strategies-1h9n

您可能感兴趣的与本文相关的镜像

Qwen3.5-9B

Qwen3.5-9B

文本生成
Qwen
Qwen3.5

Qwen3.5 具备以下增强特性: 统一的视觉-语言基础:通过在多模态 token 上进行早期融合训练,在跨代性能上与 Qwen3 持平,并在推理、编码、智能体和视觉理解等基准测试中全面超越 Qwen3-VL 模型。 高效混合架构:结合门控 Delta 网络与稀疏混合专家(Mixture-of-Experts),实现高吞吐推理,同时保持极低的延迟和成本开销。 可扩展的强化学习泛化能力:在百万

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值