前言
本文介绍了可变形大核注意力(D - LKA Attention)技术在YOLOv11中的结合。D - LKA Attention是一种简化的注意力机制,采用大卷积核利用体积上下文信息,在类似自注意力的感受野内运行,避免了计算开销,还通过可变形卷积灵活变形采样网格以适应多样数据模式。该机制有2D和3D版本,共同构成D - LKA Net架构。我们将其集成进YOLOv11,替换部分模块。在数据集上的实验表明,改进后的模型优于现有方法,有望提升目标检测性能。
文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总
专栏链接: YOLOv11改进专栏
文章目录
介绍

摘要
医学图像分割在应用Transformer模型后取得了显著进展,此类模型在捕捉远距离上下文和全局语境信息方面表现优异。然而,这些模型的计算需求随token数量的平方增长,限制了其深度和分辨率能力。多数现有方法采用逐片处理三维体积图像数据(即伪3D)的方式,这忽略了重要的片间信息,进而降低了模型的整体性能。为应对这些挑战,我们引入了可变形大核注意力(D - LKA Attention)的概念,这是一种简化的注意力机制,其借助大卷积核充分利用体积上下文信息。该机制在类似于自注意力的感受野内运作,同时避免了计算开销。此外,我们所提出的注意力机制通过可变形卷积灵活地变形采样网格,使模型能够适应多样化的数据模式。我们设计了D - LKA Attention的2D和3D版本,其中3D版本在跨深度数据理解方面表现卓越。这些组件共同构成了我们新颖的分层视觉Transformer架构,即D - LKA Net。在流行的医学分割数据集(如Synapse、NIH胰腺和皮肤病变数据集)上对我们模型进行的评估显示,其性能优于现有方法。我们的代码实现已在GitHub上公开发布。
文章链接
论文地址:论
订阅专栏 解锁全文
1312

被折叠的 条评论
为什么被折叠?



