YOLO系列算法

最新推荐文章于 2026-05-10 20:51:54 发布

原创

最新推荐文章于 2026-05-10 20:51:54 发布 · 3.1w 阅读

358

标签

#计算机视觉 #人工智能 #深度学习 #目标检测 #算法

YOLO系列算法

学习目标

知道yolo网络架构，理解其输入输出
知道yolo模型的训练样本构建的方法
理解yolo模型的损失函数
知道yoloV2模型的改进方法
知道yoloV3的多尺度检测方法
知道yoloV3模型的网络结构及网络输出
了解yoloV3模型先验框设计的方法
知道yoloV3模型为什么适用于多标签的目标分类
了解yoloV4模型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u1IVdIYj-1646276606890)(笔记图片/image-20200915142921616.png)]

YOLO系列算法是一类典型的one-stage目标检测算法，其利用anchor box将分类与目标定位的回归问题结合起来，从而做到了高效、灵活和泛化性能好，所以在工业界也十分受欢迎，接下来我们介绍YOLO 系列算法。

yolo算法

Yolo算法采用一个单独的CNN模型实现end-to-end的目标检测，核心思想就是利用整张图作为网络的输入，直接在输出层回归 bounding box（边界框）的位置及其所属的类别，整个系统如下图所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W7Rgq5YO-1646276606891)(笔记图片/image-20200915144129736.png)]

首先将输入图片resize到448x448，然后送入CNN网络，最后处理网络预测结果得到检测的目标。相比R-CNN算法，其是一个统一的框架，其速度更快。

Yolo算法思想

在介绍Yolo算法之前，我们回忆下RCNN模型，RCNN模型提出了候选区(Region Proposals)的方法，先从图片中搜索出一些可能存在对象的候选区（Selective Search），大概2000个左右，然后对每个候选区进行对象识别，但处理速度较慢。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uIVmkMmT-1646276606892)(笔记图片/image-20200915150333995.png)]

Yolo意思是You Only Look Once，它并没有真正的去掉候选区域，而是创造性的将候选区和目标分类合二为一，看一眼图片就能知道有哪些对象以及它们的位置。

Yolo模型采用预定义预测区域的方法来完成目标检测，具体而言是将原始图像划分为 7x7=49 个网格（grid），每个网格允许预测出2个边框（bounding box，包含某个对象的矩形框），总共 49x2=98 个bounding box。我们将其理解为98个预测区，很粗略的覆盖了图片的整个区域，就在这98个预测区中进行目标检测。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pKAVNy6q-1646276606892)(笔记图片/image-20200915150718666.png)]

只要得到这98个区域的目标分类和回归结果，再进行NMS就可以得到最终的目标检测结果。那具体要怎样实现呢？

Yolo的网络结构

YOLO的结构非常简单，就是单纯的卷积、池化最后加了两层全连接，从网络结构上看，与前面介绍的CNN分类网络没有本质的区别，最大的差异是输出层用线性函数做激活函数，因为需要预测bounding box的位置（数值型），而不仅仅是对象的概率。所以粗略来说，YOLO的整个结构就是输入图片经过神经网络的变换得到一个输出的张量，如下图所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5IrhY9yq-1646276606893)(笔记图片/image-20200915151948836.png)]

网络结构比较简单，重点是我们要理解网络输入与输出之间的关系。

网络输入

网络的输入是原始图像，唯一的要求是缩放到448x448的大小。主要是因为Yolo的网络中，卷积层最后接了两个全连接层，全连接层是要求固定大小的向量作为输入，所以Yolo的输入图像的大小固定为448x448。

网络输出

网络的输出就是一个7x7x30 的张量（tensor）。那这个输出结果我们要怎么理解那？

7X7网格

根据YOLO的设计，输入图像被划分为 7x7 的网格（grid），输出张量中的 7x7 就对应着输入图像的 7x7 网格。或者我们把 7x7x30 的张量看作 7x7=49个30维的向量，也就是输入图像中的每个网格对应输出一个30维的向量。如下图所示，比如输入图像左上角的网格对应到输出张量中左上角的向量。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Opjy0IEm-1646276606893)(笔记图片/image-20200915152825629.png)]

30维向量

30维的向量包含：2个bbox的位置和置信度以及该网格属于20个类别的概率

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dvHTUC0q-1646276606894)(笔记图片/image-20200915153123684.png)]

2个bounding box的位置 每个bounding box需要4个数值来表示其位置，(Center_x,Center_y,width,height)，即(bounding box的中心点的x坐标，y坐标，bounding box的宽度，高度)，2个bounding box共需要8个数值来表示其位置。
2个bounding box的置信度 bounding box的置信度 = 该bounding box内存在对象的概率 * 该bounding box与该对象实际bounding box的IOU，用公式表示就是：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yCA8yb7G-1646276606894)(笔记图片/image-20200915153543735.png)]