第4章 基于CNN的目标检测_第1页
第4章 基于CNN的目标检测_第2页
第4章 基于CNN的目标检测_第3页
第4章 基于CNN的目标检测_第4页
第4章 基于CNN的目标检测_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章

基于CNN的目标检测1RetinaNet网络原理介绍目录目标检测背景与算法概述2过程与步骤3小结4目标检测是计算机视觉和人工智能研究领域的一个热点问题,它不仅指出图像中有无感兴趣的目标,还需判断目标所在的位置和大小。目标识别需要解决的问题主要有:分类问题,判断图像中是否有感兴趣目标;定位问题,指出目标在图像中的坐标;尺度问题,指出目标的大小;形状问题,判断目标的形状。1.背景介绍随着目标检测技术的发展,在各领域有着广泛的应用,如下图所示。人脸检测方面,使用目标检测技术识别不同的人脸,判断每个人的身份,在会议签到、考勤打卡、支付、机场和车站的实名认证有广泛的应用。行人检测方面,在人流统计和移动侦测应用了目标检测技术。车辆检测方面,在自动驾驶、违章查询、关键通道检测、车流量检测、交通控制等方面有广泛的应用。遥感检测方面,在大地遥感、河流监控、土地使用、农作物监控和军事检测等方面有广泛的应用。工业制造领域,在工件检测、自动焊接、视觉伺服、自动喷涂、自动组装和产品瑕疵检测等方面有广泛的应用。在医疗领域,在细胞分析、肿瘤分析、超声波图像分析等方面有广泛的应用。1.背景介绍图1-1目标检测应用领域由于存在拍摄角度的多样性、光照条件变化、部分遮挡、运动模糊、多尺度、景深不统一、噪声等问题,设计一个高效且鲁棒的目标检测算法有一定的难度。目标检测还是一个具有挑战且具有开放性的问题。目前,主流的深度学习目标检测算法可以分类两大类:双步(Two-Stage)目标检测算法和单步(One-Stage)目标检测算法。双步目标检测算法主要有为两个步骤,第一个步骤先对图像进行扫描,找到可能有目标存在的候选区域(RegionProposals),包括目标大致的位置和尺度信息,第二个步骤对候选区域进行分类和精确定位,进而输出检测结果。这类检测算法有着比较高的准确率,但训练和检测速度相对较慢,典型的算法有R-CNN、SPP-Net、FastR-CNN、FasterR-CNN和R-FCN等。单步目标检测算法只需要一步直接确定目标的类别和准确位置,与双步目标检测相比,少了个候选区域确定的阶段,整体网络结果较为简单,处理速度相对较快。典型的单步目标检测算法有CornerNet、OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD和RetinaNet等。2.目标检测算法概述1RetinaNet网络原理介绍目录目标检测背景与算法概述2过程与步骤3小结4在对某个特征层进行目标检测时,朴素的思想是采用滑动窗口的方式用不同的坐标、尺度和宽高比进行扫描,从而判断每个扫描窗口是否有目标存在。锚点的作用就是在特征层预先设定好需要判断的窗口用于判断是否有目标存在进而判断目标的准确位置。锚点示例如图2-1所示,假设将一张图片经过特征提取后获得一个的特征图,以特征图上坐标为(3,3)的点上的坐标为例,采集了2个不同尺度和3个不同长宽比共6个窗口,对整个特征图进行扫描可以获得个锚点。2.1相关理论介绍1.锚点图2-1锚点示例由于锚点无法穷举目标所有的状态,需在锚点的基础上对目标的真实状态进行修正。边框回归的原理如图2-2所示,红色框为目标真实的状态,为目标的中点坐标,为目标的宽和高,蓝色框为锚点的状态,为锚点的中点坐标,为锚点的宽和高。锚点框与真实框的修正值可以由下列式(1-1)获得,2.1相关理论介绍2.边框回归式(1-1)图2-2边框回归交并比(IOU)是目标检测中判断预测框与真实目标框重合度的一种度量方法,指的是预测框与真实目标框相交面积与相并面积之比,即,如左图所示。在训练过程中,通过交并比来计算锚点框属于真实目标框的概率。在测试过程中,通过交并比来计算测试结果的准确率2.1相关理论介绍3.交并比(IOU)图2-3交并比在目标检测过程中,通常会设定一个分类阈值,当候选框的分类得分超过这个阈值时就会判定有目标存在。但在实际应用中,同一个目标往往会有多个候选目标超过这个阈值,从而获得多个分类结果。这种情况下算法往往会选择分类得分最高的候选框作为最终结果。当图片出现多个目标的时候,如果单纯选择分类得分最高的锚点作为结果,这样会将其他目标丢失。非极大值抑制不仅考虑候选框的分类得分,还考虑到了候选框之间的交并比,从而删除重叠较大的边界框。非极大值抑制流程如图2-4所示,2.1相关理论介绍4.非极大值抑制(NMS)图2-4

非最大化抑制流程RetinaNet网络结构如图2-5所示,主要由ResNet网络和特征金字塔网络(FPN)构成的主干网络与分类回归子网络构成。主干网络负责提取图像的特征,可以构建不同尺度和语义深度的特征金字塔。分类回归子网络由分类子网络和回归子网络构成,其中,分类子网络负责判别目标所属的种类,回归子网络负责确定目标框的准确坐标。2.2RetinaNet网络结构图2-5RetinaNet网络结构RetinaNet主干网络由ResNet网络和特征金字塔网络构成。ResNet网络是一款经典的CNN特征提取网络,可以有效解决随着网络深度的增加而出现的网络“退化”的问题,典型的网络有Resnet50,Resnet101和Resnet152等。本章采用的是Resnet50网络,Resnet50网络共有50个卷积层,有5个不同尺度的输出层,分别是C1、C2、C3、C4和C5层,上一层输出的边长是下一层输出边长的2倍。RetinaNet网络使用了ResNet网络的C3、C4和C5层(如图2-5(a)蓝色部分所示),而C6和C7层则采用卷积核为,步长为2的卷积获得(如图2-5(a)红色部分所示)。特征金字塔网络是在ResNet网络的基础上,通过自顶向下和侧向连接的方式构成,它可以有效构建5个语义信息丰富的且多尺度的输出层,P3-P7层。总之,通过主干网络,可以使单一的输入图像获得不同尺度和不同语义深度的多层特征输出,从而提高目标检测的准确率。2.2RetinaNet网络结构1.主干网络

2.2RetinaNet网络结构1.主干网络在RetinaNet获得P3-P7特征后,将P3-P7作为输入,通过分类子网络和回归子网络获得输出。在特征经过分类子网络处理后,输出的维度为,其中,为特征的宽度,为特征的高度,为每个特征点锚点的个数,为目标种类的个数。中的每个值代表其对应坐标点、尺度和宽高比锚点的属于某分类的概率值。如图2-6(a)所示,假设有目标有3个种类,分别是‘人’、‘猫’和‘狗’,特征的长和宽均为8,每个特征点有9个锚点,故的维度为(为了展示方面左图将9个锚点分开)。以最下层的右上角特征点为例,属于‘人’的概率为98%,属于‘狗’的概率为1%,属于‘猫’概率为2%。在特征通过回归子网络处理后,输出的维度为。如图2-6(b)所示,中的每个值代表其对应坐标点、尺度和宽高比锚点对于真实目标框修正值。2.2RetinaNet网络结构2.分类回归子网络图2-6分类回归子网络输出在目标检测数据集中,会提供图片数据(image)、目标框数据(bbox)和目标种类数据(label),在模型训练过程中,需要将数据集中的目标框数据和目标种类数据编码成回归子网络和分类子网络对应的输出形式。在目标检测过程中,需要将回归子网络和分类子网络的输出解码成目标框和目标种类。2.3数据处理在模型训练过程中,需要将数据集数据的image、bbox和label数据编码成符合RetinaNet网络输出要求的数据格式。编码过程中,将锚点框分为3个种类,分别是正样本、负样本和忽略样本。正样本为与目标交并比大于50%的样本,负样本为与目标交并比小于40%的样本,忽略样本为与目标交并比在40%到50%之间的样本。1.数据编码图2-7演示了数据集数据到网络输出数据格式的编码过程。红色方框为数据集提供的真实目标、蓝色框正样本(与真实目标框的IOU大于50%的锚点)、橙色框为忽略样本(与真实目标框的IOU在40%与50%之间的锚点)、黄色框为负样本(与真实目标框的IOU在小于40%的锚点)。在编码过程中,使用式(1-1)将每个锚点框编码成一个5维向量。如果是正样本,前4维为锚点框与真实框的修正值,第5维为目标所属的种类(图中,狗的种类为1);如果是负样本,前4维为0,第5维为-1;如果是忽略样本,前4维为0,第5维为-2。2-3数据处理1.数据编码图2-7数据编码

2-3数据处理2.数据解码损失函数的设计是深度神经网络的训练过程中的关键环节,合理的损失函数可以有效提高网络的性能。在RetinaNet网络的构造过程中,需要设计分类子网络和回归子网络的损失函数。2.4

损失函数2.4

损失函数

1.分类子网络损失函数2.4

损失函数

2.回归子网络损失函数1RetinaNet网络原理介绍目录目标检测背景与算法概述2过程与步骤3小结43过程与步骤介绍RetinaNet网络目标检测的具体实现过程,包括数据集的下载和处理、网络搭建、损失函数、测试过程和测试与结果。源代码下载地址为:https://keras.io/examples/vision/retinanet/。数据集下载地址为:/srihari-humbarwadi/datasets/releases/download

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论