前言
本文介绍了双重注意力机制(Double Attention)及其在YOLOv11中的结合应用。双重注意力机制由特征聚合和特征分配两个步骤组成,旨在有效捕获输入数据的全局特征,使后续卷积层能高效访问这些特征。该机制通过二阶注意力池化和注意力向量分配,让模型能更好地利用全局信息。其组件易于采用,可方便插入现有深度神经网络。我们将双重注意力块集成进YOLOv11。
文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总
专栏链接: YOLOv11改进专栏
文章目录
介绍

摘要
捕获远程依赖关系是图像与视频识别任务的核心基础。现有卷积神经网络模型通常通过增加网络深度来建模此类关系,然而这种方法效率较低。本研究提出了一种创新的"双重注意力块"组件,该组件能够从输入图像或视频的完整时空空间中聚合并传播有价值的全局特征,使得后续卷积层能够高效地访问整个空间的特征信息。该组件采用两步式双重注意力机制设计:第一阶段通过二阶注意力池化操作将全局空间特征聚合为紧凑的特征集合,第二阶段利用另一注意力机制自适应地为每个空间位置选择并分配相应特征。所提出的双重注意力块具有良好的兼容性,可便捷地集成到现有深度神经网络架构中。我们开展了系统的消融实验与性能评估,验证了该方法在图像和视频识别任务中的有效性。在图像识别任务中,集成双重注意力块的ResNet-50模型在ImageNet-1k数据集上以超过40%的参数量减少和更低的计算复杂度(FLOPs),性能表现超越了规模更大的ResNet-152架构。在动作识别任务中,所提出模型在Kinetics和UCF-101数据集上均达到了当前最先进的性能水平,且计算效率显著优于近期相关研究工作。
文章链接
论文地址:论文地址
订阅专栏 解锁全文
204

被折叠的 条评论
为什么被折叠?



