融合自注意力特征嵌入的夜间机场跑道异物入侵检测_第1页
融合自注意力特征嵌入的夜间机场跑道异物入侵检测_第2页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、融合自注意力特征嵌入的夜间机场跑道异物入侵检测近年来,航空运输安全越来越受到业内人士关注,机场跑道异物(Foreign Object Debris,FOD)检测成为研究的重点方向。FOD主要指在机场跑道面上的金属器件、碎石块、纸制品、动植物等图8可以看到,目标尺寸主要分布在558080之间,因此,NFOD夜间机场跑道异物入侵数据集主要由中小尺度目标构成。图8mAP可视化结果Fig.8Visualization results of mean average precision3.2实验配置本文使用的操作系统为Ubuntu18.04,CPU为Intel(R) Core(TM) i5-10400F

2、,GPU为NVIDIA RTX 3060(12G)的计算机。深度学习框架为Pytorch1.8.0、Python 版本为3.7、采用CUDA11.2、cuDNN8.0.5加速模型训练。实验过程中,将输入图像尺寸统一为640640并将批处理尺寸(Batch_Size)设置为8。在训练阶段设置迭代次数为400Epoch、初始学习率设置为0.001,在前5个Epoch使用Warmup学习率预热的方式从0逐步增加到预先设定的学习率,以提高模型损失的收敛速度,5个Epoch以后使用余弦退火法对学习率进行衰减,以保证模型损失收敛的稳定性,权重衰减率设置为0.000 5。对最后的训练模型精度和推理速度综合比

3、较后选出最优模型。3.3评价指标为验证算法的优越性及有效性,本文选取均值平均精度、模型参数量和每秒检测帧数(帧率)3种评价指标来综合评价算法模型。均值平均准确率37(mean Average Precision,mAP)是指在测试集中对各类目标检测精度的平均值,即有:mAP=PAdD(6)其中:PAd表示每类的精确率,D表示数据集中类别数目。每秒检测帧数是指模型对测试集中对异物图像检测速度的平均值,计算公式如下:FPS=FTTC(7)其中:FT表示总帧数,TC表示模型检测总时间。航空安全对机场跑道异物检测有误报和漏报的要求。若使用高阈值AP0.95可能会导致异物漏检,而使用低阈值AP0.5也可

4、能导致异物误报,综合上述情况,使用阈值AP0.75来衡量模型性能,即IoU阈值大于0.75时的测试AP。3.4检测结果与定量分析3.4.1CSPTNet消融实验应用K-means聚类算法对数据集标注的边界框(Bounding Box,BBox)尺寸进行聚类分析,得到具有固定宽高的初始候选框。预置候选框先验参数有助于模型加速收敛并且使模型获得目标尺寸的先验经验,避免模型在训练时盲目寻找目标。初始候选框的框选质量也会影响到模型的检测精度和参数量。由于YOLOv5包含3个检测层,分别对3个检测层的不同类别先验框进行聚类分析。每个锚点框所对应数值为锚点框的尺寸,从尺寸分布来看,重新聚类后的锚点框参数集

5、中在590之间,更适合小尺度异物目标。聚类前后3个检测层的初始候选框尺寸情况如表2所示。表2检测层的初始候选框尺寸Tab.2Initial candidate box size of detect layers检测层聚类前聚类后2020(10, 13), (16,30), (33, 23)(6, 8), (10,15), (12, 24)4040(30, 61), (62, 45), (59, 119)(16, 18), (22, 27), (33, 16)8080(116, 90), (156, 198), (373, 326)(37, 77), (42, 35), (66, 68)采用K-

6、means聚类算法进行实验,如表3所示,计算最佳候选框尺寸后模型精度达到83.6%,能有效提高模型的检测精度,相较于非最优候选框平均精度mAP提高了0.7%,且图像处理速度也提升了1.4 frame/s,因此验证了初始候选框尺寸先验性对实验结果的积极影响。应用CIoU定位损失函数进行实验分析,由表3和图8(a)的实验结果可知,YOLOv5模型采用CIoU目标定位损失函数后,模型的训练精度相较于GIoU损失函数收敛速度更快,收敛曲线的振荡幅度较小。在测试精度上,CIoU损失对中小目标检测的优化效果较好,在多个小目标类别上精度有较大提升,平均测试精度达到了84.3%,提高了0.7%,验证了应用目标

7、框宽高比作为定位损失惩罚因子的CIoU损失可以提高模型针对低照度场景下小尺度异物目标的定位能力。在添加了融合多头自注意力与特征嵌入的Transformer瓶颈模块进行实验分析,由表3可知,模型精度提升至88.1%,平均精度提高了3.8%,但是由于增加了多个分支子空间提取特征信息,模型的图像处理速度下降了4.5 frame/s。表3消融实验结果Tab.3Result of ablation experiments模型GIoUK-meansCIoUTransformer BottleNeckWeight/MBSpeed/(frames-1)mAP/%YOLOv5+GIoU14.441.882.9Y

8、OLOv5+K-means+ GIoU14.443.283.6YOLOv5+K-means+CIoU14.442.584.3YOLOv5+K-means+CIoU+TransformerBotteNeck14.438.088.13.4.2自注意力分支子空间数量参数优化实验在YOLOv5-CIoU模型框架基础上,对融合自注意力与特征嵌入的Transformer瓶颈模块参数进行实验,以获得最好的模型效果。对比嵌入位置特征信息后,将特征图输入不同数量的分支子空间对Transformer瓶颈模块抽取长距离特征信息的影响。在MHSA模块中设置1,2,4,8和16个自注意力分支子空间进行实验,实验结果如表

9、4所示。表4自注意力分支子空间数量效果对比Tab.4Comparison of effect of subspace number of self-attentional branchesModelSpeed/(frames-1)Weight/MBmAP(%)Plier(%)Screwdriver(%)Strapping_tape(%)Nail(%)Sheetmetal(%)Spanner(%)Branch(%)Nut(%)Block_rubber(%)CSPTNet-1H41.514.487.291.880.783.881.690.892.075.689.387.2CSPTNet-2H39.

10、414.487.281.791.085.778.587.290.074.498.098.1CSPTNet-4H38.014.488.186.993.377.774.095.694.483.596.191.5CSPTNet-8H28.514.487.182.586.092.383.694.090.166.289.987.1CSPTNet-16H20.614.484.179.686.181.280.491.194.576.682.584.7由表4可知,MHSA中分支子空间的数量对网络表征能力有较大影响。从单个分支增加到4个分支,注意力分支子空间的增加使得网络模型能够从更多独立注意力分支子空间中抽取

11、特征信息进行长距离建模,以增强对中小目标的拟合能力,减少了中小尺度目标的特征信息损失,因此异物检测识别率逐渐上升。而由4个分支增加到16个分支的精度变化过程可知,简单增加分支子空间数量会使计算复杂度大幅上升,导致网络性能下降,图像处理速度由41.5 frame/s降低到20.6 frame/s。由于采用了预训练模型的训练模式,模型的权重都为14.4 MB。综合对比实验结果,4个分支的MHSA表现最好,检测精度最高,模型的图像处理速度也较快,因此将CSPTNet-4Head作为本文算法的最终模型。3.4.3注意力机制对比实验本文对比Yolov5框架下不同注意力机制在图像处理速度、权重大小、平均精

12、度以及各类别精度结果,以验证MHSA在特征提取能力上的优势,实验结果如表5所示。其中,压缩激励注意力(Squeeze and Excitation, SE)、协调注意力(Coordinate Attention, CoordAtt)、卷积注意力(Convolutional Block Attention Module, CBAM)、通道注意力(Channel Attention,ChannelAtt)以及有效通道注意力(Effective Channel Attention,ECA)在精度上均有不同程度的下降,SE精度最低,下降了7.8%,ECA精度降低最少,下降了0.6%。以上注意力均基于通

13、道信息建模各通道(特征图)之间的相关性,通过模型训练获取各通道的重要程度,以强化重要特征和抑制非重要特征。但由于异物目标尺度较小,在获取特征信息时高权重通道也包含大量非异物目标的冗余信息,影响模型的检测精度。表5注意力机制对比实验结果Tab.5Comparative experiment results of attention mechanismModelSpeed/(frames-1)Weight/MBmAP(%)Plier(%)Screwdriver(%)Strapping_tape(%)Nail(%)Sheetmetal(%)Spanner(%)Branch(%)Nut(%)Block

14、_rubber(%)SE40.61576.577.162.870.577.590.885.472.257.594.5CoordAtt39.014.577.670.374.581.679.489.778.656.676.290.6CBAM42.014.579.967.182.480.477.492.586.365.875.591.3ChannleAtt45.014.580.766.775.781.484.188.590.071.778.989.0ECA42.714.883.769.185.783.781.489.887.872.684.598.6SAM41.814.585.485.986.182

15、.582.985.895.176.482.491.5MHSA38.014.488.186.993.377.774.095.694.483.596.191.5空间注意力(Spatial Attention Module,SAM)在原有精度基础上提高了1.2%,为每个位置生成权重掩膜并加权输出,从而增强感兴趣的特定目标区域并弱化不相关的背景区域。在异物目标尺度较小而背景区域较大的情况下,SAM重点关注存在异物目标的局部区域,因此能够提高异物目标的检测精度。MHSA的精度最高,达到88.1%,模型文件最小,仅为14.4 MB,虽然图像处理速度最慢,为38 frame/s,但也达到了实时性标准。MHS

16、A通过将原始特征图映射为4个向量分支,减少外部信息依赖,利用特征内部的固有信息进行注意力交互。首先,计算Q和K的相关性权重矩阵系数;其次,通过软操作对权重矩阵进行归一化;最后,再将权重系数叠加到Value上,以实现上下文信息的建模,有效地捕获长距离的特征依赖。在多个独立特征空间获取特征信息之后进行拼接,丰富异物目标的特征信息,保证模型的检测效果。3.4.4自注意力特征嵌入瓶颈模块实验在CSPTNet最终模型基础上对比其他普通瓶颈模块,以验证Transformer特征嵌入和MHSA融合的有效性。本组实验在上述网络模型框架的基础上,添加不同瓶颈模块的模型进行性能对比。对比实验中,应用的瓶颈模块除自

17、注意力特征嵌入瓶颈模块外,还有标准BottleNeck,CSPBottleNeck,GhostBottleNeck,精度对比结果如表6所示。表6瓶颈模块效果对比Tab.6Effect comparison of bottleneck modulesModelSpeed/(frames-1)Weight/MBmAP(%)Plier(%)Screwdriver(%)Strapping_tape(%)Nail(%)Sheetmetal(%)Spanner(%)Branch(%)Nut(%)Block_rubber(%)YOLOv5-ST41.214.782.466.482.377.076.187.4

18、90.782.986.692.0YOLOv5-Ghost47.513.283.575.385.882.580.590.491.183.772.789.8YOLOv5-CSP43.914.685.090.386.787.078.188.989.170.385.488.9CSPTNet38.014.488.186.993.377.774.095.694.483.596.191.5由表6可知,融合自注意力特征嵌入的Transformer瓶颈模块相比于标准BottleNeck、CSPBottleNeck和GhostBottleNeck具备更好的小尺度目标检测性能,权重大小相似,但是检测速度稍差一些。T

19、ransformer瓶颈模块通过位置信息嵌入和MHSA提高上下文信息的相关性,获取更加丰富的目标特征信息,提高了模型的定位和检测识别能力。CSPTNet最终的测试精度可达88.1%,与标准瓶颈模块相比,提升了5.7%。不同BottleNeck模块训练精度过程的可视化如图8(c)所示。3.4.5不同网络实验结果对比选择基于单阶段目标检测的YOLOv5,YOLOx,YOLOv3,YOLOv3-tiny,TOOD38和VarifocalNet39算法以及双阶段目标检测的Sparse R-CNN40和Faster R-CNN算法与本文模型进行对比,以客观评价CSPTNet模型对夜间机场跑道异物检测任务

20、的优越性。为保证实验结果的有效性,在同一配置设备上开展实验并使用同一数据集,算法性能对比如表7所示,可视化过程如图8(d)所示。表7模型效果对比Tab.7Comparison of model effectsModelSpeed/(frames-1)Weight/MBmAP(%)Plier(%)Screwdriver(%)Strapping_tape(%)Nail(%)Sheetmetal(%)Spanner(%)Branch(%)Nut(%)Block_rubber(%)YOLOv3-tiny49.717.430.340.59.026.422.259.342.4013.559.1Varifo

21、calNet14.9261.452.870.756.769.52.842.878.275.31.477.4Faster R-CNN19.9330.665.688.972.087.320.753.785.480.621.780.5Sparse R-CNN17.2130073.085.365.793.847.172.879.179.359.274.5TOOD16.6255.875.184.081.590.049.862.390.980.960.081.8YOLOx14.871.978.6992.681.597.556.187.898.083.323.887.6YOLOv339.519.482.95

22、9.981.388.671.194.587.775.396.591.5YOLOv541.814.482.977.872.482.576.688.589.882.376.299.5Ours38.014.488.186.993.377.77495.694.483.596.191.5由表7可知,CSPTNet在9个异物类别上的平均精度达到88.1%,超过经典检测算法YOLOv3和Faster R-CNN以及最新提出的YOLOx,TOOD和VarifocalNet、Sparse R-CNN算法。本文算法在保持38 frame/s的实时性基础上,相比其他网络大幅降低了模型参数量,并且在多个异物类别上的检

23、测识别准确率达到90%以上。综上所述,夜间机场跑道异物检测任务需要同时权衡模型平均检测精度、检测速度和模型权重,因此CSPTNet模型的鲁棒性更好,更适用于夜间机场跑道异物入侵检测任务。3.5检测结果与定性分析由上述对比实验可知,在NFOD夜间机场跑道异物入侵数据集上,本文提出的算法能够有效提高模型对中小目标的识别精度。与原始YOLOv5模型相比,精度和泛化能力上均有一定程度的提升,并且未增加额外参数量,在引入CIoU损失函数后网络的训练收敛速度和精度也有一定提升。因此,本文提出的改进算法符合预期结果,测试图像如图9所示。图9检测结果可视化Fig.9Test result visualization由图9可以看出,像素面积占比较小的目标边缘特征较为模糊,导致网络对目标的定位误差增大,分类置信度降低。本文针对小目标的改进算法能有效降低模型的漏检率,在定位精确性和分类置信度上均有较大提升。图10(b)是本文算法输出特征图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论