视觉领域的“GPT时刻”已经到来（THS）

原创于 2026-06-26 13:39:58 发布 · 394 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#gpt #计算机视觉 #人工智能

AI 专栏收录该内容

576 篇文章

订阅专栏

视觉领域的“GPT时刻”已经到来：图像生成器就是通才型视觉学习者

在这里插入图片描述

引言

如果你能徒手画出一台复杂发动机的内部结构图，说明你不仅见过它，还深刻理解它的每一个零件如何咬合、每一根管线如何走位。同样地，如果一个AI模型能够生成以假乱真的图像，它是否也“理解”了图像背后的视觉世界？

这个猜想由来已久——创造视觉内容的能力，本身就意味着理解它的能力。然而长期以来，学术界缺乏有力的证据来证明这一点。直到2026年4月，Google DeepMind团队（包括何恺明、谢赛宁等知名学者）在论文 Image Generators are Generalist Vision Learners 中，用 Vision Banana 这一通用视觉模型给出了令人信服的答案。

本文将对这篇论文的核心思想、技术方法和实验结果进行系统解读。

一、核心假设：生成即理解

1.1 从LLM的涌现能力说起

近年来，大语言模型的发展轨迹揭示了一个令人惊叹的现象：GPT系列最初只是学习“预测下一个词”，但在模型规模达到一定程度后，突然涌现出了推理、翻译、编程等复杂能力。

图像生成模型正在展现出类似的轨迹。近期研究表明，图像和视频生成器在未经专门训练的情况下，表现出了零样本（zero-shot）视觉理解行为——它们能识别物体、判断深度、分割场景。这与LLMs通过生成式预训练发展出语言理解和推理的涌现能力如出一辙。
在这里插入图片描述

1.2 一个长期被忽视的猜想

论文提出了一个核心假设：视觉生成模型可能秘密地充当了通用视觉学习者。如果对生成模型进行轻量级微调后，它能在各种视觉理解基准上达到或接近SOTA水平，同时保留其图像生成能力，那么就有力证明了——图像生成器本身就是视觉理解的基础模型。

这个假设的验证逻辑非常清晰：让一个“画家”去做视觉理解测试题。如果他画得越好、测试分数越高，就越说明“画画能力”和“视觉理解能力”是同一枚硬币的两面。

二、技术方法：将感知重新定义为图像生成

2.1 Vision Banana的构建

研究团队推出了 Vision Banana，一个通过对 Nano Banana Pro (NBP) 进行指令微调构建的通用模型。Nano Banana Pro是Google此前推出的先进图像生成模型，具备卓越的视觉生成能力。

关键的设计决策是：不改变模型架构，只改变任务的表达方式。 团队没有给NBP增加任何专门用于视觉理解的复杂网络结构，而是将各类视觉任务的输出空间统一参数化为RGB图像。分割任务 = 生成彩色掩码图；深度估计 = 生成深度热力图；边缘检测 = 生成边缘线图。

通过这种方式，“感知”被无缝地重新定义为“图像生成”。
在这里插入图片描述

2.2 指令微调与数据策略

Vision Banana在NBP的原始训练数据基础上，混合了少量的视觉任务数据进行指令微调。这种低比例混合策略至关重要——它确保视觉任务对齐不会损害模型原有的生成先验（generative priors）。

更关键的是，所有评估基准的测试数据均未出现在指令微调的训练集中，确保了实验结果反映了模型的真实通用能力，而非过拟合。

2.3 统一接口：RGB是视觉界的“文字”

论文提出了一个深刻的洞见：图像生成可以作为计算机视觉的通用接口，类似于文本生成在NLP中的角色。

在NLP中，所有任务都被统一为“文本生成”——翻译、摘要、问答本质上都是生成文本。同样，在视觉领域，所有任务都可以被统一为“图像生成” 。RGB图像成为了视觉界的“通用语言”——同一个模型参数，只需要换不同的文本指令（prompt），就能完成分割、检测、深度估计等不同任务。

这种统一还天然解决了视觉任务中的歧义性问题。传统模型在处理模糊情况时容易输出“模糊的平均值”，而生成模型的寻模特性（mode-seeking nature）使其能够输出锐利、明确的结果。

三、实验结果：通才击败专才

在这里插入图片描述

3.1 2D语义理解：重新定义分割

Vision Banana在2D视觉理解任务上取得了惊人的成绩。

在Cityscapes语义分割基准上，Vision Banana的mIoU达到84.2，显著超越了SAM 3（69.9）等零样本领域专家模型。在SA-Co/Gold实例分割任务上，其cgF1达到47.5，击败了SAM 3 + Llama 3.2（24.6）等强基线。在RefCOCOg指代分割上，Vision Banana + Gemini 3.1 Flash-Lite的组合达到73.8 cIoU。

SAM 3是Meta推出的最新一代分割基础模型，支持文本、点、框、掩码等多种提示方式进行图像和视频分割。Vision Banana能够击败这一专门为分割设计的领域专家，充分证明了生成模型蕴含的通用视觉理解能力。

更令人印象深刻的是Vision Banana的开放词汇能力。传统分割模型需要预先知道类别数量，输出固定通道数的掩码。而Vision Banana通过“画画”的方式，可以处理任意数量的实例，且不受预定义类别限制。在ReasonSeg推理分割基准上，Vision Banana + Gemini 2.5 Pro达到79.3 gIoU，远超SAM 3 + Gemini 2.5 Pro的64.7。

3.2 3D结构推理：从平面到空间的飞跃

Vision Banana在3D理解任务上的表现同样令人震撼。

在度量深度估计的6个基准测试中，Vision Banana的δ₁指标达到0.882，超越了Depth Pro（0.715）、MoGe-2（0.802）、UniK3D（0.823）等专门模型。值得注意的是，Vision Banana在训练和推理过程中均不使用相机内参——它仅通过视觉线索和物体关系来推断绝对尺度。

Depth Anything 3是深度估计领域的代表性模型，能够从单图、立体对、多视角或视频中估计深度和3D几何。Vision Banana能够在没有相机参数的情况下击败这一领域的专家，证明了生成模型对3D世界的深刻理解。

在表面法线估计的3个基准上，Vision Banana的平均角度误差达到15.549°，优于Marigold（19.606°）、StableNormal（17.168°）、DSINE（17.017°）和Lotus-2（16.558°）。

3.3 金阁寺案例：AI的“目测”能力

论文中有一个极具说服力的案例。作者在日本京都金阁寺游玩时，用普通智能手机随手拍了一张照片。Vision Banana被要求“测出这张图的深度”，它输出了一张按希尔伯特曲线编码的彩色深度图。根据图中特定位置的色彩解码，模型估算出该点距离为13.71米。

为了验证，作者用Google地图的测量工具测了同一位置——12.87米。误差仅约6.5%。

对于一个仅看过一眼照片、不知道相机品牌、没到过现场的AI来说，这展现了惊人的能力。Vision Banana之所以能做到，是因为它在预训练阶段看过无数真实世界的图像，学习了透视关系、物体比例等“常识”，能够从2D图像反推3D物理世界的真实坐标。

四、范式转移：视觉领域的“GPT时刻”

4.1 从“专才”到“通才”

Vision Banana的实验结果揭示了一个深刻的趋势：过去那种“一个任务训练一个模型”的时代可能正在结束。

传统计算机视觉遵循的是判别式范式——分割用分割模型，检测用检测模型，深度用深度模型。每个任务需要独立的模型架构、专门的训练数据、特定的输出格式和单独的部署维护。成本高、效率低、难以扩展。

而Vision Banana展示的是生成式范式——一个强大的生成模型，通过简单的指令微调，就能搞定所有的视觉理解任务。这类似于NLP领域的大语言模型：一个GPT就能做翻译、摘要、问答、编程。

4.2 生成式视觉预训练的核心地位

论文的结论非常大胆：“我们可能正在见证计算机视觉领域的重大范式转移，生成式视觉预训练将在构建兼顾生成与理解的基础视觉模型中占据核心地位”。

这与NLP领域的发展轨迹惊人地相似。正如生成式预训练改变了所有语言任务的实现方式，视觉领域可能正在迎来同样的转变。图像生成训练所起的作用，类似于LLM预训练——它让模型学习到强大而通用的视觉表示，进而在各种视觉任务上实现SOTA性能。

论文认为，这为真正的视觉基础模型（Foundational Vision Models）和视觉通用人工智能（AGI-V）铺平了道路。

4.3 未来展望：从静态到动态

论文指出两个重要的未来方向：

第一，扩大指令微调任务的多样性。目前Vision Banana覆盖了分割、深度、法线等任务，未来扩展到更多样的任务可能会解锁进一步的涌现式跨任务泛化能力。

第二，从图像生成器到视频生成器。视频生成器因为学习了“运动”，能够理解重力、惯性和因果关系，可能产生更丰富、具备时间意识的视觉表示。这意味着未来的视觉大模型不仅能“看懂”静态场景，还能“预测”动态世界——看到一个球滚向桌边，它能预测球会掉下去。

五、结语

Vision Banana的研究意义远不止于“又一个新模型”。它系统性地证明了图像生成模型本身就是通才型视觉学习者——创造图像的能力，本身就蕴含了理解视觉世界的能力。

这一发现正在推动计算机视觉领域的范式转移：从“判别式学习”走向“生成式预训练”，从“专才模型”走向“通才模型”。正如论文所言，我们可能正在见证计算机视觉的“GPT时刻”。

当图像生成不再是“画画”的工具，而是理解世界的窗口时，视觉AI的未来将比我们想象的更加广阔。

本文基于Google DeepMind团队论文 Image Generators are Generalist Vision Learners（arXiv:2604.20329）撰写。论文作者包括Valentin Gabeur、Shangbang Long、Songyou Peng等，项目顾问包括何恺明（Yiming Gu）、谢赛宁（Saining Xie）等。项目主页：vision-banana.github.io