YOLOv11改进 - C3k2融合 | C3k2融合Deformable-LKA可变形大核注意力(Deformable Large Kernel Attention)实现高效空间自适应特征提取

低功耗蓝牙项目,需要一块懂省电的板

思澈 SF32LB52 芯片,BLE 协议栈深度优化,上手即开发

前言

本文介绍了可变形大核注意力(D - LKA Attention)技术在YOLOv11中的结合。D - LKA Attention是一种简化的注意力机制,采用大卷积核利用体积上下文信息,在类似自注意力的感受野内运行,避免了计算开销,还通过可变形卷积灵活变形采样网格以适应多样数据模式。该机制有2D和3D版本,共同构成D - LKA Net架构。我们将其集成进YOLOv11,替换部分模块。在数据集上的实验表明,改进后的模型优于现有方法,有望提升目标检测性能。

文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

image-20240525232121946

摘要

医学图像分割在应用Transformer模型后取得了显著进展,此类模型在捕捉远距离上下文和全局语境信息方面表现优异。然而,这些模型的计算需求随token数量的平方增长,限制了其深度和分辨率能力。多数现有方法采用逐片处理三维体积图像数据(即伪3D)的方式,这忽略了重要的片间信息,进而降低了模型的整体性能。为应对这些挑战,我们引入了可变形大核注意力(D - LKA Attention)的概念,这是一种简化的注意力机制,其借助大卷积核充分利用体积上下文信息。该机制在类似于自注意力的感受野内运作,同时避免了计算开销。此外,我们所提出的注意力机制通过可变形卷积灵活地变形采样网格,使模型能够适应多样化的数据模式。我们设计了D - LKA Attention的2D和3D版本,其中3D版本在跨深度数据理解方面表现卓越。这些组件共同构成了我们新颖的分层视觉Transformer架构,即D - LKA Net。在流行的医学分割数据集(如Synapse、NIH胰腺和皮肤病变数据集)上对我们模型进行的评估显示,其性能优于现有方法。我们的代码实现已在GitHub上公开发布。

文章链接

论文地址:

低功耗蓝牙项目,需要一块懂省电的板

思澈 SF32LB52 芯片,BLE 协议栈深度优化,上手即开发

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

魔改工程师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值