Mask-CNN Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition

文章介绍了Mask-CNN模型,它利用全卷积网络进行部分定位,并生成对象/部分蒙版选择有用的卷积描述符。在CUB-200-2011数据集上,该模型实现了85.5%的识别精度,同时表现出优秀的部分定位和对象分割性能。与现有方法相比,Mask-CNN具有更少的参数和更低的特征维数。

Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition

作者:魏秀参,Chen-Wei Xie,Jianxin Wu

来自:南京大学新型软件技术国家重点实验室

Abstract

细粒度的图像识别是一个具有挑战性的计算机视觉问题,这是由于由高度相似的下属类别引起的较小的类别间变化以及姿势,比例和旋转的较大的类别内变化。在本文中,我们提出了一种新颖的端到端Mask-CNN模型,该模型无需全连接的层即可进行细粒度的识别。基于细粒度图像的部分注释,提出的模型由一个全卷积网络组成,该网络既可以定位有区别的部分(例如,头部和躯干),更重要的是可以生成对象/部分蒙版,以选择有用的卷积描述。之后,建立了一个四流Mask-CNN模型,用于同时聚合所选的对象级和零件级描述符。与最新的细粒度方法相比,提出的Mask-CNN模型具有最少的参数数量,最低的特征维数和最高的识别精度。

1 Introduction

在深度学习时代,表示部件的一种直接方法是使用深度卷积特征/描述符。与全连接层(即整个图像)的特征相比,卷积描述符包含更多的局部(即部分)信息。另外,已知这些深度描述符对应于中级信息,例如对象部分[20]。 先前所有基于部分的细粒度方法(例如[6、10、21、24])直接使用深度卷积描述符并将其编码为单个表示,而不评估获得的对象/部分深度描述符的有用性。 通过使用强大的卷积经网络[9],我们可能不需要选择特征向量内的有用维,就像我们对手工特征进行的操作[3,22]。 但是,由于

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值