前言
本文介绍了双视觉Transformer(Dual-ViT)架构,并将其引入YOLOv11以降低自注意力机制的计算成本。Dual-ViT包含语义和像素两个路径,语义路径将token向量压缩为全局语义,像素路径利用该语义学习像素级细节,二者并行传播增强自注意力信息,在不显著降低准确性的情况下减少计算复杂度。实验表明,Dual-ViT在ImageNet等数据集上表现优异。我们将Dual-ViT相关代码集成进YOLOv11,经实验验证,改进后的YOLOv11在目标检测任务中展现出良好性能。
文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总
专栏链接: YOLOv11改进专栏
文章目录
介绍

摘要
**摘要——**以往研究提出了多种策略以降低自注意力机制的计算开销,其中不少方法尝试将自注意力过程分解为区域级与局部特征提取过程,从而显著减少计算复杂度。然而,区域信息往往依赖下采样获得,这一过程中常常伴随着信息的不可逆损失。
为缓解这一问题,本文提出了一种新颖的Transformer架构,命名为双视觉Transformer(Dual-ViT)。该架构设计了两条关键路径:其中语义路径负责将token向量有效压缩为全局语义表示,从源头上降低计算负担;而像素路径则借助语义路径中提取的全局先验信息,聚焦于更细粒度的像素级特征学习。两条路径最终融合并联合训练,通过并行传播增强的自注意力信息,实现了全局与局部建模的协同优化。
得益于此架构,Dual-ViT在显著降低计算复杂度的同时,仍保持优异的性能表现。实验结果表明,Dual-ViT在多个任务中实现了优于现有主流Transformer架构的准确率,验证了其高效性与有效性。相关源代码已开源,详见:https://github.com/YehLi/ImageNetModel。
订阅专栏 解锁全文
788

被折叠的 条评论
为什么被折叠?



