YOLOv11改进 - C3k2融合 | C3k2融合MogaBlock多阶门控聚合块，实现高效特征增强与计算资源优化

原创已于 2025-12-09 20:46:28 修改 · 853 阅读

23 GEO检测

标签

#YOLO #目标跟踪 #深度学习 #计算机视觉 #目标检测

于 2025-11-22 20:33:42 首次发布

最新YOLOv11改进专栏专栏收录该内容

193 篇文章 ¥99.90 ¥299.90

订阅专栏

前言

本文介绍了MogaNet在YOLOv11中的结合应用。MogaNet是一种新型卷积网络架构，通过多阶门控聚合机制增强视觉表示学习。它具有多阶卷积、门控操作、通道聚合模块等特性，结合了卷积的局部性和ViT的全局性，在多个基准测试上表现优异。我们将MogaNet的核心代码引入YOLOv11，经注册和配置后进行实验。在MogaNet以不同参数数量达到高准确率，优于部分先进模型，同时节省了FLOP和参数。

文章目录： YOLOv11改进大全：卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

文章目录

前言
介绍
- 摘要
文章链接
基本原理
- - 1. 多阶门控聚合模块（Multi-Order Gated Aggregation）
  - 2. 通道聚合模块（CA block）
核心代码
YOLO11引入代码
实验
- 脚本
- 结果

介绍

摘要

通过尽可能从全局角度对内核进行语境化处理，现代卷积网络在计算机视觉任务中展现出了巨大潜力。然而，深度神经网络 (DNN) 中多阶博弈论交互的最新研究进展揭示了现代卷积网络存在表示瓶颈，即表达性交互未能通过增大内核大小得到有效编码。为应对这一挑战，我们提出了一种全新的现代卷积网络系列，名为 MogaNet，用于在纯卷积网络模型中开展判别性视觉表示学习，实现良好的复杂性 - 性能权衡。MogaNet 将概念简单却有效的卷积和门控聚合封装于一个紧凑模块中，能够高效收集判别性特征并对其进行自适应语境化处理。与 ImageNet 以及包括 COCO 对象检测、ADE20K 语义分割、2D 和 3D 人体姿势估计和视频预测等多种下游视觉基准上的最先进视觉Transformer（ViT）和卷积神经网络（ConvNet）相比，MogaNet 呈现出卓越的可扩展性、令人瞩目的参数效率以及具有竞争力的性能。值得一提的是，MogaNet 在 ImageNet - 1K 上凭借 5.2M 和 181M 个参数分别达到了 80.0% 和 87.8% 的准确率，优于 ParC - Net 和 ConvNeXt L，同时分别节省了 59% 的浮点运算次数（FLOP）和 17M 个参数。源代码可在 https://github.com/Westlake-AI/MogaNet 获取。

了解本专栏