
Yolo V1 详解
本节内容
该文章涉及如何选择预选框、YOLOV1的网络结构以及卷积计算、最终的损失计算过程。
如果对于IOU、mAP、recall、precision不了解,请先了解以上指标如何计算的。
检测指标Blog:
如果不懂得卷积计算,可以看我的文章
卷积计算Blog:【卷积计算】-单通道卷积 -深度卷积(多通道卷积) -逐点卷积 -实战YoloV1卷积网络 - 池化计算-CSDN博客
特点
- 经典的one-stage方法
- You only look once
- 检测问题转换为回归问题,一个CNN搞定
- 可以对视频进行实时检测,应用领域非常广泛
核心思想
每个点,计算的时候存储confidence,设置阈值
每个点存储:
- 中心点x
- 中心点y
- 预选框宽度w
- 预选框高度h
- 置信度confidence
如果满足阈值,在两种候选框中,分别计算IOU的值,选择合适的
输入图片
图片大小(448,448,3)
因为卷积层和全连接层的大小是固定的,所以图片大小不可改变,这里要求input图片大小固定(448,448,3)。
- 在Yolov2之后,取消了fully connected全连接层,图片大小就可以改变了。
通过grid cell分类
图片分割为7 * 7大小的grid cell;在每个grid cell 里面存储30个信息。👇
Our final prediction is a 7 * 7 * 30 tensor,20 types and 2 bounding box with 5 parameter
-
每个bounding box存储信息(Xt,Yt,Ht,Wt,Confidence)
-
每个grid cell 存储30个信息
其中Xt和Wt是相对于width的归一化坐标;其中Yt和Ht是相对于High的归一化坐标;
在这里没有anchor的思想,并不是相对于anchor box的相对位移;而是直接预测(x,y,w,h)信息

本文详细解析了YOLOV1的预选框选择、网络结构(借鉴GoogleNet),包括卷积和全连接层,以及损失函数的计算,涉及IOU和confidence的概念。文章还讨论了YOLOV1的局限性,如单类别预测和定位精度问题。
6733

被折叠的 条评论
为什么被折叠?



