Mask-CNN Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition

最新推荐文章于 2024-04-13 09:38:34 发布

原创

最新推荐文章于 2024-04-13 09:38:34 发布 · 989 阅读

标签

#神经网络 #卷积

文章介绍了Mask-CNN模型，它利用全卷积网络进行部分定位，并生成对象/部分蒙版选择有用的卷积描述符。在CUB-200-2011数据集上，该模型实现了85.5%的识别精度，同时表现出优秀的部分定位和对象分割性能。与现有方法相比，Mask-CNN具有更少的参数和更低的特征维数。

Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition

作者：魏秀参，Chen-Wei Xie，Jianxin Wu

来自：南京大学新型软件技术国家重点实验室

Abstract

细粒度的图像识别是一个具有挑战性的计算机视觉问题，这是由于由高度相似的下属类别引起的较小的类别间变化以及姿势，比例和旋转的较大的类别内变化。在本文中，我们提出了一种新颖的端到端Mask-CNN模型，该模型无需全连接的层即可进行细粒度的识别。基于细粒度图像的部分注释，提出的模型由一个全卷积网络组成，该网络既可以定位有区别的部分（例如，头部和躯干），更重要的是可以生成对象/部分蒙版，以选择有用的卷积描述。之后，建立了一个四流Mask-CNN模型，用于同时聚合所选的对象级和零件级描述符。与最新的细粒度方法相比，提出的Mask-CNN模型具有最少的参数数量，最低的特征维数和最高的识别精度。

1 Introduction

在深度学习时代，表示部件的一种直接方法是使用深度卷积特征/描述符。与全连接层（即整个图像）的特征相比，卷积描述符包含更多的局部（即部分）信息。另外，已知这些深度描述符对应于中级信息，例如对象部分[20]。先前所有基于部分的细粒度方法（例如[6、10、21、24]）直接使用深度卷积描述符并将其编码为单个表示，而不评估获得的对象/部分深度描述符的有用性。通过使用强大的卷积经网络[9]，我们可能不需要选择特征向量内的有用维，就像我们对手工特征进行的操作[3，22]。但是，由于

最低0.47元/天解锁文章