版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于改进Fairmot框架的多目标跟踪多目标跟踪最初源于雷达技术的研究。在军事上,数据关联算法利用目标的位置和运动信息进行轨迹和观测目标的匹配。近年来,随着我国视频监控和无人驾驶行业的飞速发展,基于视频的多目标跟踪技术显得尤为重要。多目标跟踪根据初始化的方式划分为基于检测跟踪的流程和基于人工初始化的跟踪流程。由于基于人工初始化的跟踪无法处理轨迹的生成和消亡,因此基于检测的跟踪为当前的主流方式。基于检测的跟踪包括目标检测和数据关联,两者功能相互独立,但却在关系上紧密联系,良好的检测器能为数据关联提供较好的观测结果。早期的目标检测主要依靠人工设计的特征训练支持向量机进行分类。2022年,Dala1
2、利用HOG特征来训练分类器;2022年,DPM2检测器依据改进HOG特征,采用根滤波器和部件滤波器在多尺度金字塔上滑动检测;2022年,随着深度学习的兴起,传统的目标检测方式被逐渐取代;R-CNN3在传统目标检测方式的基础上,以卷积神经网络作为特征提取器,训练支持向量机;Fast-RCNN4是首个利用全卷积神经网络训练的目标检测器。Faster-RCNN5提出区域建议网络,对任意尺度输入的图像都会生成一组后选框,首次引入锚框机制,速度比Fast-RCNN快一个数量级。YOLO6-9系列框架主要基于锚框(Anchor)机制,将目标的位置和尺寸视为回归问题,该系列框架检测速度快,但锚框机制存在正负
3、样本不均衡,超参数管理复杂等缺点。近些年,基于关键点的目标检测逐渐兴起,Cornernet10通过利用目标的左上角点和右下角点对目标进行定位。Centernet11通过中心点对目标的尺寸、位置和中心点的偏移量进行预测,拥有更高的检测效率。数据关联负责将目标的轨迹与观测目标进行匹配。数据关联算法分为确定性优化算法和概率推断算法。确定性优化算法将其建模成优化问题,通过优化算法解决匹配问题。二分图匹配模型12、动态规划13、最小成本最大流网络模型14、条件随机场15和最大权值独立集模型16属于确定性的优化模型。概率推断模型基于现有的观测状态估计目标状态的概率分布。卡尔曼滤波17、扩展卡尔曼滤波18和
4、粒子滤波19属于概率推断模型。端到端的多目标跟踪框架近些年飞速发展,将目标检测和数据关联都用神经网络来处理,使得网络的训练效率得到提升。DAN20跨帧提取特征,计算亲和性矩阵,并用交并比信息作为掩模进行匹配。DeepMOT21根据匈牙利算法不可微分的特点,通过MOTA和MOTP的跟踪指标创建损失函数,训练深度匈牙利网络替代数据关联。DMAN22提出空间注意力模块和时间注意力模块,空间注意力模块匹配两幅图像空间相同区域,时间注意力模块对历史轨迹分配不同的权重,滤除不可靠的轨迹。本文基于检测与数据关联的Fairmot23框架,提出一种改进算法,提高对目标对象的跟踪精度。2 Fairmot基本框架F
5、airmot框架的目标检测部分包括主干网络、目标检测分支和行人重识别分支。数据关联部分采用DeepSort24框架进行匹配。2.1主干网络Fairmot框架采用改进后深度聚合网络作为特征提取网络,该特征提取网络采用可变形卷积适应不同尺度目标。通过不同层级的跳级连接进行语义信息和空间信息融合,使深度聚合网络以目标尺度、分辨率为关注点。2.2目标检测分支目标中心预测分支负责对目标位置和目标框的尺寸进行回归预测,如图1所示。检测分支主要由3部分组成,其中热图分支负责预测目标中心点的位置,框回归分支负责预测目标检测框尺寸,中心点偏移分支负责估计目标中心点偏移量。图1给出了3条分支的仿真图和部分数值仿真
6、结果。目标真实框的位置记为pi=(xi1,yi1,xi2,yi2),则其目标的中心为(cix,ciy),其中cix=(xi1+xi2)/2和ciy=(yi1+yi2)/2,映射到特征图上的坐标为(cix,ciy)=(cix/4,ciy/4),在热图(x,y)处的响应为:图1Fairmot框架Fig.1Fairmot frameworkRxy=Ni=1exp(xcix)2+(yciy)222c(1)热图分支中心点的估计的损失函数:Lheat=1Nxy(1Rxy)alogRxyRxy=1(1Rxy)Raxylog(1Rxy)otherwise,(2)式中N为视频帧中目标对象的个数,c为标准差,R为
7、目标中心点的估计值,、为预定义参数。视频帧经过主干网络会产生下采样4倍的特征图,当目标的中心点预测结果映射回原图时会产生4个像素的误差,因此通过中心点预测偏移量弥补误差。视频中目标的尺寸为si=(xi2xi1,yi2yi1),真实标签中心点的偏移量为oi=(cix/4,ciy/4)(cix/4,ciy/4),则预测的目标尺寸和中心点偏移量表示为si和oi,框回归和中心点偏移分支的损失函数为:Lbox=i=1Noio11+sisi1(3)2.3行人重识别分支行人重识别分支通过提取的特征向量区分视频中的不同目标。利用128个通道的11的卷积核在特征图上提取目标的表观特征,在目标中心(x,y)处提取
8、的表观特征为Ex,yR128。通过分类损失学习表观特征,假设视频帧的真实目标框bi=(xi1,yi1,xi2,yi2),目标在热图分支预测的中心点位置为(cix,ciy),在特征图上提取表观特征向量Ecix,ciy,且将该表观特征映射成0,1的概率分布向量P=p(k),k1,K,将真实标签进行独热编码Li(k),训练时的损失函数为:Lidentity=i=1Nk=1KLi(k)logp(k)(4)式中K为目标类别个数。总体的损失函数:Ldetection=Lheat+Lbox(5)Ltotal=12(1ew1Ldetection+1ew2Lidentity+w1+w2)(6)式中w1和w2是学
9、习参数。2.4数据关联数据关联部分采用DeepSort框架。如图2所示,DeepSort首先通过级联匹配得到最初的匹配轨迹集合、未匹配的检测集合和未匹配的轨迹集合,然后将级联匹配结果中的未匹配轨迹集合和未匹配检测集合进行IOU匹配得到最终的匹配结果。图2数据关联框架Fig.2Data association framework匹配的轨迹集合作为观测结果进行卡尔曼滤波更新,经过IOU匹配得到的未匹检测框集合。如果连续3帧都匹配上轨迹,则认为是新的轨迹,然后进行卡尔曼滤波更新。最终的未匹配集合依据状态来判断该轨迹是否消亡。卡尔曼滤波更新得到的轨迹若为确认态则送入级联匹配,否则送入IOU匹配。图2右
10、下角为部分视频的两次匹配结果。2.5卡尔曼滤波卡尔曼滤波主要分为两个阶段,分别为预测和更新阶段。卡尔曼滤波的预测阶段负责对目标状态均值和协方差进行预测,如式(7)和式(8)所示:xk|k1=Fk|k1xk1+Bk1uk1+wk1(7)Pk|k1=Fk|k1Pk1FTk|k1|+Qk1(8)式(7)和式(8)中F为状态转移矩阵,B为控制矩阵,P为目标变量的方差预测,xk1为该时刻的最优预测值,控制向量为uk1,wk1为均值为0、协方差为Qk1的高斯噪声。观测状态方程:zk=Hkxk+vk(9)其中zk为观测值,Hk为观测矩阵,vk为观测噪声,该噪声是均值为0、协方差为Rk的高斯噪声。更新阶段负责
11、通过观测值反馈调节预测阶段的估计值,如式(10)(12)所示:K=Pk|k1HTk(HkPk|k1HTk+Rk)1(10)xk=xk|k1+K(zkHkxk|k1)(11)Pk=Pk|k1KHkPk|k1(12)式(10)中K为卡尔曼滤波增益,xk和Pk为经过反馈调节后的最优轨迹值和协方差。实验中使用的状态变量为x=u,v,r,h,u,v,r,hT,(u,v)表示行人的中心点位置,r为框尺寸的长宽比,h为高,其余4个分量表示其速度分量,实验中的状态转移矩阵和观测矩阵为:F=10000000010000000010000000010000dt00010000dt00010000dt0001000
12、0dt0001(13)H=10000100001000010000000000000000(14)各协方差的初始状态设置为:P=diag(2ph2ph1e22ph10vh10vh1e510vhT)2Q=diag(phph1e2phvh1e5vhT)2R=diag(2ph2ph1e2T)2(15)3 基于Fairmot的改进针对Fairmot框架的主干网络产生的高维信息缺乏维度之间的信息交互问题,采用三重注意力机制,提高对目标中心点的定位能力和特征提取能力;且由于行人重识别分支的Softmax损失函数优化缺乏灵活性,采用Cirlce Loss根据当前的状态选择优化程度,使其提取更为精确的身份嵌入
13、向量。3.1三重注意力机制针对深度聚合网络后端高维信息缺乏维度间信息交互的问题,通过三重注意力机制25(图3)进行维度间信息交互。该机制能分别从(C,H),(C,W),(H,W)维度捕捉信息产生注意力掩模。其中的Z-Pool模块通过最大池化和平均池化将特征图的第0维度的通道数降至2,使特征图保持丰富语义信息的同时,进一步简化计算量。其公式如式(16)所示:ZPool=MaxPool0d(x),AvgPool0d(x)(16)图3三重注意力机制Fig.3Triplet attention mechanism第一条分支将输入的特征图(CHW)以H为轴进行逆时针旋转90得到(WHC)的特征图,首先通
14、过Z-Pool单元得到(2HC),再利用kk的标准卷积层、批归一化层和Sigmoid激活函数层产生(1HC)的注意力掩模,然后通过残差连接与(WHC)的特征图元素相乘得到通道维度与空间高维度的注意力热图,再将特征图进行顺时针旋转90得到(CHW),第二条分支与其类似。第三条分支只需捕捉空间维度的信息,无需旋转,得到空间注意力效果图。最后通过将3条分支的注意力热图进行平均得到最终的注意力效果图。图3分别给出了不同维度注意力掩膜作用后的注意效果图,该效果图是将四维张量在第1维度压缩可视化得到的,展示了不同维度信息交互的过程与结果。3.2Circle Loss深度学习的目标是将类内特征的相似度最大化
15、,类间特征的相似度最小化,因此Circle Loss26概括出一个统一的损失函数表达式:Luni=log1+i=1Kj=1Lexp(r(sjnsio+m)=log1+j=1Lexp(r(sjn+m)i=1Kexp(r(sip)(17)式中sip(i=1,2,K)为类内相似性得分,sjp(j=1,2,L)为类间相似性得分,r为缩放系数,m是相似性分类间隔。如果wj为第j个非目标类别的权重向量,样本表示为x,将sjn=wTjx/(wjx),sp=wTyx/(wyx)代入式(17)则式(17)退化成AM-Softmax损失:Lam=log1+j=1N1exp(r(sjn+m)exp(rsp)=log
16、exp(r(spm)exp(r(spm)+j=1N1exp(rsjn)(18)该损失函数对sn和sp优化梯度相等,反向传播时的惩罚项是一样的,因此不利于寻找最优点,优化方式缺乏灵活性。Cirlce Loss 提供一个能够灵活优化目标的损失函数,其公式如式(19)所示:Lcircle=log1+i=1Kj=1L(r(ajnsjnanpsip)=logj=1Lexp(rasnjsjn)i=1Kexp(raipsip)(19)式中anj、aip为非负权值。此时优化目标为(ajnsjnaipsip),若相似性得分距最优点较远,则通过较大的梯度进行梯度下降。自适应更新的权重如式(20)所示:aip=Op
17、sip+ajn=sjnOn+(20)式中On和Op为sjn、sip的最优点。4 实验结果与分析4.1实验环境与数据集实验运行环境为Ubuntu 16.04操作系统,GPU型号为:2块NVIDIA GeForce GTX 1080TI(11G显存),基于Pytorch 1.3深度学习框架。采用的数据集为MOT数据集,MOT数据集分为MOT15、MOT16和MOT17,该数据集包含了静止或者移动拍摄、低中高角度拍摄以及黑夜等复杂的环境。实验首先在CrowedHuman数据集进行预训练,然后通过MOT16的训练集进行训练,在MOT15的训练集进行消融实验。对比实验在MOT15的训练集训练,通过MOT
18、15测试集测试。实验超参数设置如表1所示,实验评价指标如表2所示。表1实验超参数设置Tab.1Experimental hyperparameter settings实验超参数未改进ReID Loss的实验改进ReID Loss的实验优化器AdamAdam动量参数0.90.9Batchsize66初始学习率1e-41e-4训练轮数4570表2多目标跟踪评价指标Tab.2Multi-target tracking evaluation index指标含义MOTA跟踪精度,衡量目标轨迹的保持程度MOTP衡量检测器的定位性能IDF1衡量跟踪器身份维持能力MT整个视频中超过80%的时间被正确跟踪的轨迹
19、个数ML整个视频中不超过20%时间被正确跟踪的轨迹个数IDS目标身份的切换次数FM轨迹碎片的个数4.2消融实验对Fairmot模型、采用注意力机制的Fairmot(Fairmot+A)模型和采用Circle Loss和注意力机制的Fairmot(Fairmot+A+CL)模型进行实验,结果如表3所示。表33种模型的消融实验在MOT15训练集上的测试结果Tab.3Ablation experiments of the three models tested on the MOT15 training set模型MOTA/%IDF1/%MOTP/%MTMLIDSFMRecall/%Prec/%Fa
20、irmot59.667.777.11711722551 43970.770.7Fairmot+A60.766.576.81731772091 4367187.2Fairmot+A+CL62.964.377.52551232321 1737884.3采用三重注意力机制后,MOTA得到了1.1%的提升,且身份切换次数明显降低。注意力机制能够提供更可靠的目标检测,从而提升跟踪精度。Fairmot+A+CL在采用Circle Loss后相比原模型在MOTA上提升3.3%,且在MOTP、MT、ML、FM等指标上明显优于原模型。但Fairmot+A+CL模型与Fairmot+A模型相比,IDS指标上升许多
21、,可能采用Circle Loss之后对多任务学习目标检测分支的性能产生影响,产生漏检或虚检现象,使改进后的模型身份切换指标上升。图4展示了3种模型的跟踪能力对比。对于图4(a)蓝色箭头所指的女士,Fairmot模型上只在第一个视频帧中检测到该女士,在后续的视频帧中出现部分遮挡未检测出该行人。待遮挡结束时,行人身份发生切换。Fairmot+A模型在前两幅视频帧中跟踪到该女士,采用注意力机制能够明显提高其跟踪精度,但在遮挡结束时,行人的身份发生切换。Fairmot+A+CL模型在全程视频帧中均跟踪到该女士。可见,引入Circle Loss之后,增强了行人重识别分支的特征提取能力,使其能够提取更精确的表观特征。图43种模型在MOT15训练集上的测试结果Fig.4Test results of the three models on the MOT15 training set4.3对比实验如表4所示,改进后的模型在MOTA、IDF1和MT上要明显优于其他4种模型。与原模型相比,MOTA提升1.4%,MT得到稍许提升。引入注意力机制和Cirle Loss之后,提高了对目标的定位能力和跟踪能力,使得提取的表观特征更具区分性。表45种模型在MOT15测试集上的对比实验
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届福建省漳州市高一数学第一学期期末综合测试试题含解析
- 宁夏石嘴山三中2026届数学高三上期末监测试题含解析
- 2025年生鲜预包装产品标准化研究行业报告
- 河北省邯郸市六校2025-2026学年高三上学期12月联考语文试题及参考答案
- 2026年互联网行业云计算技术应用报告及未来五至十年数字经济报告
- 2026届广东省中山市实验中学英语高三第一学期期末考试试题含解析
- 2026年全国教师资格证模拟测试及答案
- 2026年全国英语等级考试三级听力测试题及答案
- 2026年银行从业资格个人理财技能检定试题及答案
- 2025-2030日常生活用品行业供需格局现状及投资优化调整分析报告
- 士官考学数学试卷及答案
- 红楼梦第9回讲解
- 研修平台活动方案
- 抽汽背压汽轮机课件
- 年产100万吨水泥生产线建设工程可行性研究报告
- 【政治】2025年高考真题政治-海南卷(解析版-1)
- 建筑业有效标准规范清单(2025年9月)
- 个人形象塑造与提升策略分享
- 新疆紫金锌业有限公司乌拉根锌矿25000t-d采矿工程环评报告
- 下班断电管理制度
- 中信证券笔试题库及答案
评论
0/150
提交评论