标准卷积、深度可分离卷积与GSConv，YOLOv8引入SlimNeck

原创

已于 2024-01-02 19:08:46 修改 · 1.8w 阅读

309

标签

#笔记 #人工智能 #论文阅读 #python #深度学习

于 2023-12-26 20:59:51 首次发布

文章介绍了一种新的轻量级卷积技术GSConv，它在保持目标检测准确性的同时，优化了模型速度，特别适合嵌入式边缘计算平台。通过引入slim-neck设计，进一步提升了计算成本效益。实验结果显示，改进后的YOLOv8在保持高性能的同时，模型效率显著提高。

摘要：目标检测是计算机视觉中一项重要的下游任务。对于嵌入式边缘计算平台来说，很难实现实时检测的要求，使用巨大的模型也是困难的。此外，由大量深度可分离卷积层构建的轻量级模型无法达到足够的准确性。我们引入了一种新的轻量级卷积技术，GSConv，以减轻模型但保持准确性。GSConv在模型的准确性和速度之间实现了卓越的平衡。此外，我们提供了一种设计范式，即“slim-neck”，以实现更高的检测器计算成本效益。我们的方法在超过二十组对比实验中得到了稳健的验证。特别是，通过我们的方法改进的检测器与原始模型相比取得了最先进的结果（例如，在Tesla T4 GPU上以约100FPS的速度对SODA10M的mAP0.5为70.9%）。代码可在https://github.com/alanli1997/slim-neck-bygsconv 获取。

关键词：GSConv；目标检测；设计范式；轻量级；自动驾驶

paper：论文地址

code：代码地址

1 标准卷积

标准卷积(standard convolution)是卷积神经网络（Convolution Nerual Network）中的基本操作之一。它通过在输入数据上滑动卷积核kernel来提取特征。下面是普通卷积的基本原理：

卷积核： 卷积核是一个小的矩阵，它在输入数据上进行滑动。每个元素的值表示该位置上的权重。
滑动操作： 卷积核在输入数据上进行滑动操作。在每个位置，卷积核与输入数据的对应部分执行逐元素相乘，然后将结果相加，形成输出特征图的一个元素。
步长（Stride）： 步长定义了卷积核在输入数据上滑动的距离。较大的步长会减小输出特征图的尺寸，而较小的步长会增加输出特征图的尺寸。
填充（Padding）： 为了保持输入输出尺寸的一致性，可以在输入数据的边缘添加零值，这称为填充。填充可以防止卷积操作导致输出特征图尺寸减小太快。

卷积层的参数量和计算量可以用以下公式计算：

$Param \boldsymbol{\textbf{}conv2d} = C\boldsymbol{\textbf{}in} *C\textbf{out}*K\textbf{h}*K\textbf{w}$

$FLOP\textbf{conv2d}=Param \boldsymbol{\textbf{}conv2d}*M\textbf{out-h}*M\textbf{out-w}$

最低0.47元/天解锁文章