YOLOv11改进 - C3k2融合 | C3k2融合Deformable-LKA可变形大核注意力（Deformable Large Kernel Attention）实现高效空间自适应特征提取

原创已于 2025-12-09 20:45:17 修改 · 690 阅读

12 GEO检测

标签

#YOLO #目标跟踪 #深度学习 #计算机视觉 #目标检测

于 2025-11-22 20:55:20 首次发布

最新YOLOv11改进专栏专栏收录该内容

193 篇文章 ¥99.90 ¥299.90

订阅专栏

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

前言

本文介绍了可变形大核注意力（D - LKA Attention）技术在YOLOv11中的结合。D - LKA Attention是一种简化的注意力机制，采用大卷积核利用体积上下文信息，在类似自注意力的感受野内运行，避免了计算开销，还通过可变形卷积灵活变形采样网格以适应多样数据模式。该机制有2D和3D版本，共同构成D - LKA Net架构。我们将其集成进YOLOv11，替换部分模块。在数据集上的实验表明，改进后的模型优于现有方法，有望提升目标检测性能。

文章目录： YOLOv11改进大全：卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

摘要

医学图像分割在应用Transformer模型后取得了显著进展，此类模型在捕捉远距离上下文和全局语境信息方面表现优异。然而，这些模型的计算需求随token数量的平方增长，限制了其深度和分辨率能力。多数现有方法采用逐片处理三维体积图像数据（即伪3D）的方式，这忽略了重要的片间信息，进而降低了模型的整体性能。为应对这些挑战，我们引入了可变形大核注意力（D - LKA Attention）的概念，这是一种简化的注意力机制，其借助大卷积核充分利用体积上下文信息。该机制在类似于自注意力的感受野内运作，同时避免了计算开销。此外，我们所提出的注意力机制通过可变形卷积灵活地变形采样网格，使模型能够适应多样化的数据模式。我们设计了D - LKA Attention的2D和3D版本，其中3D版本在跨深度数据理解方面表现卓越。这些组件共同构成了我们新颖的分层视觉Transformer架构，即D - LKA Net。在流行的医学分割数据集（如Synapse、NIH胰腺和皮肤病变数据集）上对我们模型进行的评估显示，其性能优于现有方法。我们的代码实现已在GitHub上公开发布。