Segment Anything:Meta开源的万能分割模型,点一下就能抠图
图像分割这件事,传统做法是针对每个类别单独训练模型。猫的模型只能分猫,车的模型只能分车,想分新东西就得重新标注数据、重新训练。Meta 的 Segment Anything(简称SAM)把这个逻辑彻底翻了。

这模型能干啥
SAM 的核心能力很直白:给一张图,点一下(或者画个框),它就能把那个东西精确地抠出来。不管图里是猫、是车、是建筑,还是你画的某个色块,统统能分割。
它支持三种输入方式:
- 点击:鼠标点一下你想分割的区域
- 框选:画一个矩形框住目标
- 全图自动分割:不给任何提示,模型自己识别图中所有能分割的对象
底层用的是 Vision Transformer 架构,经过大规模训练后具备零样本泛化能力。简单说就是:不用针对你的具体场景做任何微调,拿过来就能用。
训练数据有多猛
SAM 的训练集叫 SA-1B,包含 1100 万张图像和超过 10 亿个分割标注。这个数据规模在视觉领域相当炸裂。正是靠海量数据的训练,模型才能在各种场景下保持稳定的分割质量。
三个模型版本
项目提供了三种规格的模型,适配不同的硬件和精度需求:
- ViT-B:最轻量,适合显卡一般的环境
- ViT-L:中等规格,效果和速度的平衡点
- ViT-H:最完整的版本,精度最高,需要较好的 GPU
用法很简单,Python 里几行代码就能跑起来。官方还提供了 ONNX 导出支持,甚至有一个纯浏览器端的 React 小 demo,用导出的 ONNX 模型直接在网页里做分割推理。

后续迭代:SAM 2
Meta 后来又发布了 SAM 2,把能力扩展到了视频领域。不只是静态图片,连续的视频帧也能做分割,而且加入了流式记忆机制,可以实时处理。如果你的场景涉及视频,建议直接看 SAM 2。
谁在用
这模型的使用面比想象中广。医学影像分析用它来标注病灶区域,遥感领域用它分割地物,自动驾驶团队拿它做道路场景理解,电商团队用它做商品抠图。核心原因就一个:零样本能力省掉了大量标注和训练成本。
实际体验
SAM 对光照变化、遮挡、模糊等常见图像问题的处理相当稳健。但它也不是万能的。高度重叠的对象有时候会粘连在一起,半透明物体的边界分割不太准确,极端小目标的分割效果也会打折。这些是当前版本的已知局限。
项目采用 Apache 2.0 协议开源,商用也没问题。
如果你平时有抠图、标注、图像分析的需求,SAM 值得花半小时试一下。它未必能替代所有专业工具,但在"快速拿到一个还不错的分割结果"这件事上,目前没有比它更方便的开源方案。
必能替代所有专业工具,但在"快速拿到一个还不错的分割结果"这件事上,目前没有比它更方便的开源方案。
2万+

被折叠的 条评论
为什么被折叠?



