下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于深度学习的行人重识别算法研究
0基于深度学习网络的reid行人重建(reid)是在不重叠监控区域内识别同一个人,并在计算机视觉和其他领域引起学术界的关注。从最近相关研究可以发现,深度神经网络被广泛应用于ReID任务。利用大规模的PersonReID数据集,如CUHK03、Market-1501和DukeMTMC-Reid,使采用深度学习网络的ReID取得了很好的性能。目前的一些ReID方法本文的主要思想就是通区域分割,来获得不同粒度的特征,将全局和局部特征以及更细粒度的局部特征,通过一个网络的不同分支得到这些特征,每个分支都对不同的分割块进行特征提取。使得不同级别的网络分支能够关注不同粒度的分辨信息,也能够有效兼顾整体信息。损失函数部分只使用了在深度学习中非常常见的SoftmaxLoss与TripletLoss。1新图式的语义特征编码深度神经网络能够在整个行人图像中提取主体上的近似响应,通过此机制获取行人局部区域特征作为更细粒度的特征,特定语义的分区不需要在局部区域标记出来,将原始图像进行等分就可以。通过实验表明,判别响应的粒度随着水平条带数目的增加确实变得更细。在此原理基础上,提出了采用一种不同粒度的网络,该网络结构是多分支网络,其中一个为全局分支另外两个为局部分支。在该网络的两个局部分支部分,参考中基础网络部分为ResNet-50。然后对ResNet-50进行了调整,使用ResNet-50前三层提取图像的基础特征,将后续部分划分为3个独立的分支,即在高层次的语义级特征采用3个独立分支,分别为全局分支、part-2、part-3。第一个全局分支负责整张图片的全局信息提取,Part-2会将图片分为上下两个部分提取中粒度的语意信息,Part-3会将图片分为上中下三个部分提取更细粒度的信息。这三个分支既有合作又有分工,前面三个低层权重是共享的,后面的高级层每层的权重是独立的,这样就能够像人类认知事物的原理一样即可以看到行人的整体信息与又可以兼顾到多粒度的局部信息。下面两个分支是Part-2跟Part-3,在第四层的位置,初始有一个stride等于2的下采样的操作与全局分支相同,将其stride改成1,相当于没有下采样,这个地方的尺寸就不会缩小,所以Part-2跟Part-3在第五层特征图比全局分支大一倍的尺寸。接下来对part-2跟part-3做一个从上到下的纵向分割,part-2在第五层特征图谱分成两块,part-3对特征图谱从上到下分成三块。在分割完成后,对其进行pooling,相当于求一个最值,采用的是Max-pooling,得到一个2048维的向量。但是part-2跟part-3的操作跟全局分支是不一样的,part-2有两个pooling,目的是强制part-2去学习细节的联合信息。后面从2048维做成256维,这个主要方便特征计算,因为可以降维,更快更有效。在测试的时候,把这8个256维的特征串联一个2048维的特征,用这个特征替代前面输入的图片,使用欧氏距离作为两个行人相似度的度量。2类标签的距离度量采用SoftmaxLoss与TripletLoss。其中SoftmaxLoss可表示为:n为批量,xi为第i个样本的特征,yi为xi对应的类标签,Wj和bj为类j的权重及偏置,C为类的数目。TripletLoss函数公式可表示为:该方法采用欧式距离进行度量,+表示当[]内的值大于零的时候,把[]得到的值作为损失,当[]内的值小于零的时候,损失值为零。当x_a与x_n之间的距离<x_a与x_p之间的距离加这里写图片描述时,[]内的值大于零,就会产生损失。当x_a与x_n之间的距离>=x_a与x_p之间的距离加这里写图片描述时,损失为零。3结果与分析3.1gpu/3gjm锚点本次实验采用Anaconda的py-torchframework,SGDmomentum为0.9,Learningrate:0.01(init),1e-3(40epoch),1e-4(50epoch),使用GPU型号为GTX1080Ti、操作系统为Windows10。3.2行人矩形框的检测Market-1501数据集是在清华校园采集得到的。有6个摄像头进行不同角度及场景拍,5个摄像头为高清拍摄,另外1个是较低像素摄像头。共采集到行人1501人、能够检测到的行人矩形框多达32668个。由至少2个及以上数量的摄像头对每个行人进行图像采集,每个摄像头可能拍到行人的多张不同图像。将采集到的数据进行划分,其中训练集含有751人,一共12936张图像,平均每个人有17.2张图像作为训练时的数据;测试集为剩下的750人,一共19732张图像,平均每个人有26.3张测试数据。另外3368张作为query的行人检测矩形框是已经规定好的,在gallery中,通过DPM检测器对图像数据进行检测得到行人检测矩形框。3.3不同网络模型下的仿真结果将多分支卷积神经网络与其他的方法相对比,singlerank-1情况下,采用TriNet方法的准确率为84.9%,采用AACN方法的准确率为85.9%,采用DPFL方法的准确率为88.6%,而本文采用多分支的网络结构可以将准确率提高到90.1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 装修与物业合作协议
- 2025年个人房产投资买卖合同范本下载2篇
- 2025年度个人教育培训担保合同模板
- 2025年度个人房产买卖合同售后服务保障条款4篇
- 2025年度个人股权转让合同(上市公司并购案)4篇
- 2025年度租赁车辆事故责任认定合同3篇
- 2025-2030全球纯化型氮气发生器行业调研及趋势分析报告
- 2025年全球及中国硫化物固态电解质材料行业头部企业市场占有率及排名调研报告
- 2025-2030全球行李储存系统行业调研及趋势分析报告
- 2025-2030全球水冷单螺杆式冷水机组行业调研及趋势分析报告
- 2025年人教五四新版八年级物理上册阶段测试试卷含答案
- 不同茶叶的冲泡方法
- 2025年春季1530安全教育记录主题
- 光伏发电并网申办具体流程
- 建筑劳务专业分包合同范本(2025年)
- 企业融资报告特斯拉成功案例分享
- 五年(2020-2024)高考地理真题分类汇编(全国版)专题12区域发展解析版
- 《阻燃材料与技术》课件 第8讲 阻燃木质材料
- 低空经济的社会接受度与伦理问题分析
- GB/T 4732.1-2024压力容器分析设计第1部分:通用要求
- 河北省保定市竞秀区2023-2024学年七年级下学期期末生物学试题(解析版)
评论
0/150
提交评论