面向玉米果穗表面缺陷检测的YOLO v5s算法改进策略_第1页
面向玉米果穗表面缺陷检测的YOLO v5s算法改进策略_第2页
面向玉米果穗表面缺陷检测的YOLO v5s算法改进策略_第3页
面向玉米果穗表面缺陷检测的YOLO v5s算法改进策略_第4页
面向玉米果穗表面缺陷检测的YOLO v5s算法改进策略_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向玉米果穗表面缺陷检测的YOLOv5s算法改进策略摘要:针对现有的玉米果穗缺陷检测人工肉眼识别效率低和工业相机自动检测目标识别效果欠佳等目标检测问题,提出了一种基于YOLOv5s算法改进策略。首先,通过第三方库Imgaug对图像进行处理和增强,并采用数据扩充方法得到自建的玉米果穗数据集3600幅;其次,采用MBConv模块替换原网络中的部分CBS模块并加入ASPP结构,在保持网络特征提取能力的前提下降低模型的参数量和计算量;再次,为了提高浅层信息利用率,基于BiFPN结构设计了一种ZQ-BiFPN特征融合结构,将其引入Neck颈部网络,并在每个综合卷积模块(C3)后添加CBAM来提高模型对于小目标特征的关注度,提高算法的精准识别能力;最后,引入DecoupledHead解耦头结构明确分类和回归任务,提高检测速度。相较于YOLOv5s以及其他如SSD、YOLO其他系列等常用目标检测模型以查准率P、召回率R、均值平均精度mAP和检测速度FPS为评价指标进行消融和对比实验。结果表明:本文所提的YOLOv5s_YM算法在自制玉米数据集上做目标检测,P、R、mAP等分别相比于原算法分别提高9.32、6.57、13个百分点,FPS略有降低。因此,YOLOv5s_YM算法在满足检测精度的同时,具备优良的实时性检测要求,为后期智能化玉米果穗加工生产线提供技术支持。0引言“民以食为天,食以安为先,安以质为本,质以诚为根”,这句民谣想必早已深深刻在老百姓的观念里,我国作为全球人口最多的国家,粮食安全问题事关国运民生。在我国,南方水流多,气候湿润,主要农作物以耐旱性不强的水稻为主;北方气候较为干旱,以玉米、大豆、小麦等耐旱性强、产量较高的农作物为主。根据国家统计局数据显示,2022年全国全年粮食总产量68653万吨,其中玉米产量占27720万吨,同比增长1.7%,全国全年粮食种植总面积11833万公顷,其中玉米种植面积占比4307万公顷[1];大量种植的玉米在收获过程需要剥皮、分拣、贮藏等工序,传统的工作方式完全依靠种植者手工完成,效率极低,容易错过收获窗口期;在工业和科技的驱动下,随着农业机械化的普及,华北地区和东北地区的玉米种植在效率和产量上都实现了很大的提升[2]。玉米作物在收获时有一个分拣的过程,去除劣质作物,保留优良玉米的过程,传统主要以人工分拣为主,但是,工作量大、效率低、主观性强,因此,玉米等农作物在线品质检测方法成为当下的研究热点。玉米表面缺陷是影响其品质的重要因素之一,玉米的缺陷区域与正常玉米通常存在颜色差异。王银敏等[3]提出一种基于图像语义分割与亮度对比的苹果表面缺陷识别方法,将RGB图像转换成HSV彩色图像,对饱和度S分量作阈值分割及形态学处理,获得苹果图像的特征与背景残差模板,根据分离后的模板与R分量的背景分离图,经过H通道校正后,采用阈值分割法提取缺陷区域,结果表明这种方法可以在不再增加额外拍摄装置的情况下取得较好的苹果表面缺陷,但是基于阈值分割的缺陷区域识别自适应能力不强。杜永忠等[4]根据被检测物的缺陷边缘较为明显的特征,提出了一种基于Sobel与分数阶微分的边缘检测方法,适用于圣女果的细小缺陷的清晰识别。玉米果穗表面颗粒之间的缝隙颜色较为明显,上述算法不适用于玉米果穗表面缺陷检测,国内外目前对玉米果穗品质检验的研究屈指可数,对玉米表面缺陷识别的研究近乎为零。近年来,深度学习技术逐步渗透各个领域,如机械、医疗、金融、农业等,图像识别更是不甘落后,复杂的网络结构模型不仅缩小了工作量,而且提高了检测速度和准确率[5]。卷积神经网络(CNN)[6]在农作物检测中已逐步兴起,xie等[7]首先训练第1个ND(normal-defective)-CNN模型进行二分类(正常图像和所有其他缺陷图像),缓解了数据不平衡的问题。在训练好ND-CNN模型后,将输出向量更改为6维向量来训练ID(interdefect)-CNN模型,使其适合于多类缺陷标签问题。该模型在ND-CNN权重的基础上使用缺陷图像进行微调,从而减少了样本量需求并节省了训练时间。王梦妮等[8]为了提高茶叶嫩芽的检测精度,提出了一种改进的YOLOv5s网络模型,该模型在优化Backbone特征提取网络中的空间金字塔池化结构(SPPF)的基础上,在Neck网络中引入可加权重的双向特征金字塔网络(BiFPN);实验结果表明检测P、R、mAP均有提升。龚惟新等[9]为实现对猕猴桃花朵的快速准确检测,在YOLOv5s模型基础上引入C3HB模块和交叉注意力(CCA)模块增强特征提取能力,结合类似自对抗训练的方法,在多种试验条件下作消融和对比实验,结果表明改进后的算法在保持轻量化的同时相比之前的算法从检测速度(FPS,帧/s)、mAP0.5等方面均有提升。范天浩等[10]为改善金银花采摘机器人的采摘检测精度,在Neck层中用CARAFE上采样模块替换原始模型中的上采样模块,提高模型识别的精确度和平均精度,为了部署移动端,用EfficientNet的主干网络替换YOLOv5s的Backbone层,并加入SPPF特征融合模块,降低模型的参数量和权重的大小,结果显示与原始模型对比,计算量、参数量和权重均有降低,与当前主流检测模型对比,改进算法的精确度和mAP均有提升。赵明岩等[11]为解决黑皮鸡纵菌在土壤背景下辨识率低、相互遮挡等问题,在YOLOv5s的主干网络中融合RFBSE模块,在颈部网络中采用RFP结构,增强特征表达能力和加强局部信息与全局信息的融合的同时降低计算量和内存开销,实验表明改进后对比原模型的mAP、P、R分别有2.7、3.8、3.9个百分点的提升。CONG等[12]在YOLOv3基础上提出了一种轻量级的香菇检测方法,采用GhostNet16作为主干网络的轻量化策略,在Neck颈部网络中设计了一种自适应空间特征金字塔网络(ASA-FPN)结构提高检测精度,训练mAP值达到97.03%。WANG等[13]提出一种DES-YOLO(detailsemanticsenhancement)网络检测草莓,利用点向卷积和扩展卷积提取水平和垂直维度上的各种细节和语义特征来提高检测性能,结果显示mAP达到86.58%。李天华等[14]在YOLOv4的基础上进行算法优化,实现了对复杂环境下对番茄的识别与定位,有效的解决了光照影响下的番茄目标识别效率低等问题,但是参数量和计算量过大,训练成本较高。薛月菊等[15]针对果园场景下光照的多样性、芒果与树叶颜色的高度相似性等问题,提出了改进YOLOv2检测方法,但由于YOLOv2模型过大,训练过程和检测速度不够理想。本研究是在YOLOv5架构基础上,通过分析网络模型,在此基础上做出算法的改进与优化,提高网络模型的缺陷检测性能。通过该研究,能在自建玉米果穗缺陷数据集下提高玉米果穗缺陷检测的精准度和效率,为后续智能化玉米果穗加工生产线提供技术支持。1材料和数据1.1硬件设施a.图像采集支架b.海康威视工业相机a.Imagecapturebracketb.Hikvisionindustrialcamera图1采集装置硬件设施Fig.1Acquisitiondevicehardwarefacilities图像数据来源于网络和自建数据集两部分,两部分的比例约为2:8。自建数据集的玉米果穗来源于河北省石家庄市某农作物种植基地。采样设备为海康威视MV-CE100-10GC型工业相机(千兆网GigE接口、CMOS感光芯片)、16mm工业变焦镜头、模拟条形光源和计算机设备,采集装置如图1所示。图像采集计算机参数为windows1064位系统,计算机内存为64GB,搭载Inter(R)Core(TM)i9-11900F@2.5GHz处理器,NVIDIAGeForceRTX3080显卡,CUDA11.3。IDE为PyCharm2022,配置Python3.9.17,PyTorch深度学习框架,版本为1.11.0。1.2数据集制作玉米果穗样本分为正常、缺粒、秃尖和病虫害4种,如图2所示。a.正常b.缺粒c.秃尖d.病虫害a.normalb.lackgrainsc.baldtipd.disease图2不同类别的玉米果穗图像Fig.2Imagesofdifferenttypesofcornears利用已有硬件设施获取150幅正常玉米果穗图像样本,由于病虫害等3类玉米缺陷样本较少,试验拍摄和网络爬取仅采集了缺粒、秃尖、病虫害的玉米图像各75幅。每一种玉米样本数量不均衡和数量较少均会影响整个训练过程的效果,可能会出现模型过拟合和泛化能力差等问题,降低了模型鲁棒性。为了在有限的数据下得到更好的模型训练效果,一般采用数据扩充的方式对现有的图像进行增强操作。本次研究采用Python的第三方数据增强库Imgaug并且结合OpenCV图像算法完成对现有玉米数据集进行数据增强[16]。Imgaug数据增强库包含Otsu、镜像翻转、增加噪声等几十种图像变换函数,本次研究采用了随机翻转、HSV对比度随机变换、裁剪和随机增加噪声等10余种变换方式,如图3所示。最终得到正常、秃尖、缺粒和病虫害图像各900幅;其中正常玉米数据集中每张图像变换5张图像,均为下列十余种变换中的随机选择,非正常玉米果穗数据集中的每张图像均经过下列11种变换,所有图像扩充完毕后调整图像像素为1080×1080pixel。图3数据增强的变换方法Fig.3Transformationmethodofdataenhancement将增强后的图像进行标注标签,本次试验采用的是Python第三方标注工具LabelImg对数据图片进行标注,标注的标签文件格式为YOLO系列专用txt格式。将采集到的图像以8:1:1的比例划分为训练集、验证集和测试集。2玉米果穗表面缺陷检测方法2.1YOLOv5算法结构YOLOv5是目标检测算法中的单阶段(one-stage)方法,图像数据在网络上经过一次前向传播就能检测出目标所在位置和目标类型,检测速度较以往的两阶段算法快,适用于计算资源受限和轻装设备应用场景。YOLOv5算法一共有5个版本,根据模型所占空间大小排列,分别是YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,本研究根据现实需求,考虑到实时检测和便捷部署方案,采用网络架构深度较浅和特征图像宽度较小的YOLOv5s网络结构作为基础研究结构。YOLOv5s网络结构由输入端Input、主干网络Backbone、颈部特征融合网络Neck和检测头Head四个部分组成。输入端包含Mosaic数据增强、自适应锚框计算以及自适应图片缩放;主干网络包括Focus结构和CSP结构;颈部网络由特征金字塔网络(FPN)和路径聚合网络(PAN)结构组成;检测头部分采用CIou_Loss做Boundingbox的损失函数搭配加权非极大值抑制(NMS)函数[17]。YOLOv5算法是在YOLOv4的基础上添加改进思路,使其检测速度和精确度都得到了极大的改进与提升,YOLOv5s网络的输入端内含有图像预处理和图像增强功能以及锚框生成机制优化策略;其中,图像增强和预处理功能是汲取ResNet-50、Mixup和CutMix等算法的优势而创新出的Mosaic数据增强方法;而自适应锚框机制是在初始锚框的基础上通过K-means聚类算法和遗传算法优化迭代后进行舍取并反向迭代更新,返回最优的anchors和类别中心。网络的Backbone结构则是在延续YOLOv4的CSP思想基础上添加Focus结构,对输入的原始图像做先切片再卷积的二倍间隔下采样,将图像的宽度和高度信息转移到通道上,完整保留信息,在极度降低对mAP值影响的同时减少网络层数、参数量、运算量和CUDA内存,提高了前向传播和反向传播的速度;主干网络中的SPPF结构是YOLOv5s作者基于特征金字塔池化(SPP)提出的,相关资料显示SPPF相较于SPP速度提高约2.5倍[18]。在Neck部分使用了FPN和PAN模块[19],FPN旨在高维度语义信息向低维度传递,从而明确大目标,而PAN旨在低维度向高维度传递语义特征信息,从而明确小目标特征;在PAN模块进行融合后,将YOLOv4中使用的常规CBL模块替换成借鉴CSPnet设计的CSP_v5结构,加强网络特征融合的能力。至于检测头部分与以往的目标检测算法相似,依旧采用分类损失、置信度损失和定位损失加权平衡的方式,并未发生较大的变化。总之,YOLOv5相比原YOLO系列采用了多尺度训练、EMA更新权重、amp混合精度训练和cosine学习率下降的优化策略。本研究针对特定数据集对YOLOv5s算法做进一步改进研究。2.2Backbone网络架构优化为了平衡后续研究中为了提高网络模型提取图像特征的检测能力而增加的参数量和计算量问题,本研究采用EfficientViT网络架构中的局部结构替换YOLOv5s模型主干网络中的Conv模块,该网络使用部分轻量化卷积操作提取图像细节特征。EfficientViT结构的逻辑原理如图4所示,输入640×640×3的三通道彩色图,通过InputItem输入模块后,从左往右,特征图顺次通过4个阶段提取特征,最后经过SPPF结构后输出。在特征提取阶段采用的是MBConv(MobileNetV3blockconvolution)模块来提取每个数据集图像的主要特征,MBConv采用深度可分离卷积(DWConv)和扩张卷积旨在减少参数量和计算量,促使模型轻量化,并且MBConv结合了有利于捕捉数据通道间相关性的SENet(sequeeze-and-excitationnetworks)结构,提高了图像对特征的表达能力,进而提高网络模型的训练效率,MBConv还具有通过调整超参数来实现不同模型设计的功能,可以根据具体任务选择相应的合适结构,MBConv结构相比Conv结构更加灵活、轻量。为应对玉米果穗部分缺陷与果穗之间颜色纹理相近的问题,在主干网络架构中尾部加入一种改进的多支路特征融合结构(MDC),在第三、四阶段的MBConv后添加MDC结构模块,加强图像与背景的分割力度,有利于提取图像特征并进行特征融合。MBConv模块结构如图5所示,图像数据先经过1×1的卷积操作,降低输入特征数据的通道数,随后,依次经过DWConv层处理,最后通过SENet结构层,提高网络对检测图像目标的注意力,之后,采用1×1卷积核将处理后的图像恢复到处理之前的相同维数。将经过上述一系列处理后的图像和之前的DWConv图像进行数值相加,避免梯度消失的情况发生。DWConv卷积是一种特殊的轻量级卷积方法,它可以有效降低模型的计算量和参数量,提高模型的运算速率。DWConv的主要思路是从深度卷积和逐点卷积两个方面出发,在深度卷积方面,输入图像的各个通道都与卷积核进行卷积操作,生成相应输出通道,有助于捕捉特征数据中的空间信息;在逐点卷积方向中,采用1×1卷积核对深度卷积的输出进行操作,此步骤旨在将深度卷积结果进行线性组合,从原理上减少计算量。在输入端图像的每个通道上分别应用空间卷积核,改善了以往的共享卷积核策略,以较小程度降低准确性为代价的同时提高效率。将上述单独应用空间卷积核的独立卷积和逐点卷积联合使用,有利于更好地提取图像特征。图4EfficientViT网络架构示意图Fig.4EfficientViTnetworkarchitecturediagram图5MBConv模块示意图Fig.5MBConvmodulediagramSE模块在本质上是一种可通过学习改变的注意力机制,可以提高网络模型对输入图像的感兴趣区域(ROI)的关注度。SE模块的原理是首先将输入图像的特征压缩成较小的一维张量,随后,将此张量通过两个全连接层生成权重向量,此权重向量就是输入特征图的加权平均向量,最后将这些权重参数与输入特征相乘,构建新的特征图;这个权重实质上是关键特征在图像中的分布规律,使得算法更加关注重要的特征。SE模块被应用在MBConv模块结构的扩张卷积之后,以至于进一步提升模型的训练性能。假设SE模块的特征图像为,输出为:(1)式中表示基于元素的乘法,两个全连接层的激活函数分别是ReLU函数和Sigmoid函数。SE模块在对特征图像池化降维过程中保留了各通道的重要信息,通过自适应调整算法,突出关键特征,从而提高网络的特征提取能力。图6MDC结构示意图Fig.6MDCstructurediagram由于玉米各缺陷与正常玉米的颜色纹理相近,YOLOv5s主干网络和EfficientViT网络都不能提取有效的特征信息。为了增强改进YOLOv5s主干网络对玉米果穗缺陷的特征提取能力,本研究根据膨胀卷积模块的感受野优势[20],在此基础上提出了一种改进的MDC结构,如图6所示。图14YOLOv5s改进前后检测效果对比Fig.14ComparisonofdetectioneffectbeforeandafterYOLOv5simprovement3.3不同网络对比试验结果分析在自建玉米果穗缺陷数据集上,将本文算法模型与当前主流算法模型在相同条件下进行对比试验,分析不同算法的缺陷检测性能,探究本次研究面向玉米果穗表面缺陷检测的YOLOv5s改进策略的优势,选择SSD,YOLOv4,YOLOv5(s,m,l,x),YOLOv7等7种主流目标检测网络模型进行对比试验,试验对比指标为模型参数量、计算量、FPS、mAP和权重大小5项。试验结果如表2所示。根据表2的试验结果可知,本次改进算法相较于其他主流目标检测算法模型,在检测精度和检测速度上均有很大优势,参数量降低为6.99×106个,计算量为16GFLOPs,权重文件大小为14.04MB,平均精度值达到81.76%,检测速度达到80帧/s,相较于原网络、YOLOv5m、YOLOv5l、YOLOv5x、SSD、YOLOv4、YOLOv7,参数量降低0.02、13.89、39.16、79.2、4.14、-5.23、30.21兆个,计算量降低-0.02、32.3、92.3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论