基于深度学习的视觉特征在图像检索中的应用-_第1页
基于深度学习的视觉特征在图像检索中的应用-_第2页
基于深度学习的视觉特征在图像检索中的应用-_第3页
基于深度学习的视觉特征在图像检索中的应用-_第4页
基于深度学习的视觉特征在图像检索中的应用-_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、-. z.大学2017年大学生创新创业训练工程申报书填表时间: 2016年 10 月 9 日工程名称基于深度学习的无人机感兴趣图像目标检索系统工程创新特色概述无人机目标图像检索系统使用深度学习的方式,对无人机获得的图像中的诸如中特定目标进展检索,从而找出图像中的目标物体,方便人们对目标物体进展搜索,具有较高的应用价值。本工程将以人为例,使系统能够根据用户需求输出带有特定人物的图像。工程所属一级学科工学申请经费1000元起止时间2016年9月至2017年9月申请人或申请团队信息*院系、专业联系涛79电子信息学院1603522850qq.夏文轩68电子信息学院salce8888126.翀22电子信

2、息学院sunchongwhu.宇森54国际软件学院695386228qq.昂21计算机学院451141583lianggmail.注:工程负责学生的信息填写在本栏目的第一行,成员共计不超过5人。导师信息院系职称联系文电子信息学院教授.一、申请理由1.小组成员简介:1涛电子信息学院2014级电子信息科学类专业,已完成局部相关课程学习,爱好编程,大学期间已经学过c,c+等编程语言,有一定的动手实践能力。2014学年获大学暑期实践团体二等奖和芙蓉学子称号。大二期间组建IDOBE工作室,进展大学生创业创新实践训练,并在大学大学生创业实践活动中心注册申请到办公室。有一定的自主

3、创新意识,具有较强的团队协作能力,对无人机图像处理工程有浓厚兴趣。2) 夏文轩电子信息学院2014级电子信息科学类专业,专业课成绩良好,有较为扎实的专业根底,被选入电子信息学院卓工班,在大一学年度获得丙等奖学金。在图像处理,数字信号等方面有着浓厚的兴趣,学习并掌握了c, c+, java, verilog等程序语言。喜爱科学研究,并通过大二上学期模拟电路课程工程设计初步积累科研经历。对待学习,社团,科研态度认真,希望通过此次时机提升自己的实践能力和专业素养,增强自己的责任心。3)翀电子信息学2014级电波与天线传播专业,学习成绩优良,专业知识扎实,熟练掌握c,c+,在大一学年获得丙等奖学金。勤

4、于思考,乐于钻研,富有探索精神并有较强的动手能力。视野开阔,具有良好的创新意识。既能独立思考又擅长与团队协作,希望能在工程中奉献力量,提升自己并将所得知识转化为实际成果。4)宇森国际软件学院2015级软件工程专业,根底知识扎实,学习成绩良好,乐于学习,勤于钻研,学习刻苦认真。根本掌握C+编程能力,但还需多加练习。在创新的道路上,有属于自己的风格,不拘泥于已存在的,而是求索未知的一切。希望在工程完成的过程中,能奉献出自己的微薄力量,并逐渐完善自己,走向通往更高的道路。5)昂计算机学院2015级弘毅班,学习成绩优良,理论知识掌握扎实,熟练掌握c。勤于思考,钻研与人工智能有关的问题,专业与人工智能有

5、密切关系,希望通过做深度学习相关的科研工程提高自己的团队合作能力与专业知识。2.指导教师简介文,1976年生,现为大学电子信息学院教授,博士生导师。IEEE信号处理学会,地球科学与遥感学会会员。2004年博士毕业于大学电子信息学院通信与信息系统专业,2008年至2009年法国应用数学与计算机科学实验室Laboratoire Jean Kuntzmann,RS-INRIA/LJK,任访问学者/博士后,研究遥感图像语义标注。近年来主持和作为核心研究人员参与了十余项国家级科研工程的研究,包括国家自然科学基金工程、863方案课题、973方案课题等。基于上诉研究,在IEEE TIP、IEEE TGRS、

6、IEEE JSTAES、IEEE GRSL等权威期刊和国际会议上发表论文70余篇。登记软件著作权4项,获批国家创造专利3项,2012年获省科学技术奖自然科学三等奖。在2012年IEEE GRSS地球物理与遥感协会DFTC数据融合技术委员会数据融合竞赛中获得第5名。教学方面近年来4次获得省优秀学生论文指导教师奖。目前的研究方向为图像处理与计算机视觉,机器学习及其在遥感信息处理中的应用。教师在学生中以博学多闻,助人为乐被学生们喜爱,对学生请教的问题,教师总是给予及时详细的解答。在本工程研究中,教师也给予大力支持与指导,教师团队的其他教师和研究生也对本工程遇到的问题给予支持和帮助。二、立项背景1、研

7、究现状视觉是人类获取客观世界量信息的主要手段,图像是视觉信息的表现形式之一,而随着互联网产业和数字化技术的飞速开展,图像检索已经慢慢成为人们日常生活、工作、学习不可或缺的一局部,人们单一的静态的文本开展为多元的,具有多种功能的图片、语音及视频上来,同时,图像也提供了连接人和效劳的平台模式,为整个数字化生活的开展起到了巨大的推动作用。在这个根底上,高效、便捷、准确的目标检索的迅速开展则解放了大量的管理者热人力,同时满足了各种用户的各种需求。从20世纪70年代起,对图像检索的研究就已经开场,最初的主要研究方向是基于文本的图像检索技术Te*t-based image retrieval,TBIR。该

8、过程需要人为对多媒体信息进展理解,并利用文本描述的方式对图像进展文字标注,然后通过文本信息的检索技术来实现对图像信息的检索。这种文本信息的检索技术的最大优点是如果图像信息描述的完整适当,会产生较好的检索结果。然而,基于文本的图像检索必然存在一定的局限性。首先,由于如今图像的数量呈几何数的海量增长,要对每一图片都进展人工的详细标注是不可能完成的任务,其次,由于人们对图像容的理解和表达存在很强的主观性和个体差异性,使得图像的标注容在一定程度上会对检索结果产生影响。基于此,研究者们开场进展基于图像的图像检索技术的研究。基于容的图像检索技术Content-based image retrival,CB

9、IR是利用图像本身的视觉信息来实现检索的。其主要思路则是用户提供检索的图像样例,通过系统对图像样例自动分析,然后从图像库中选取相似的图像回馈给用户。其系统架构大致为,系统通过对图像的图像提取视觉特征,完成图像库到特征库的映射,并建立图像与所对应特征之间的索引关系。用户向系统提交查询图像,系统则对查询图像提取特征,然后与特征库所有的特征做相似性匹配,并返回对应的相似图像给用户。2、研究趋势在以图像检索为最终目标上,机器学习领域的深度学习则作为非常重要的突破技术,在图像分类和识别上起到重要作用。传统的机器学习方法通常使用浅构造,相比之下,深度学习模仿人脑组织,构建了一个很深的架构,信息在这个深层架

10、构里进展多层次的传递和转换。深度学习通过探索深层架构对数据自动进展多个级别的抽象功能,是系统去学习一个复杂的过程或函数,将原始输入数据也映射为输出数据。现在在机器学习领域,已经取得一定的研究成果,如使用多任务DNN模型来血虚高层图像表示方法、使用DAE模型对图像二进制进展编码等。但是,基于深度学习的图像检索技术还有大量的研究工作有待进展。3、研究意义随着无人机研究的兴起,无人机在人们的经济日常生活应用中的功能不断被挖掘和开发,无人机应用的普及,可以大大的节省人力资源,提高工作效率和保证*些特定工作的平安,我们正是了解到无人机在环境检测,对车辆检测,对于人体目标确定等方面的优势,所以决定将基于深

11、度学习的图像检索技术搭载到无人机的平台上面,实现基于深度学习的无人机感兴趣目标检索的系统应用。4、参考文献1 Ji Wan, Dayong Wang, Steven C.H. Hoi, Pengcheng Wu, Jianke Zhu, Yongdong Zhang, Jintao Li, Deep Learning for Content-Based Image Retrieval: A prehensive Study ACM International Conference on Multimedia, 2014:157-1662 A. W. M. Smeulders, M. Worri

12、ng, S. Santini, A. Gupta, and R. Jain. Content-based image retrieval at the end of the early years. IEEE Trans. Pattern Anal. Mach. Intell. 22(12):13491380, 2000.3 启财基于深度学习的图像检索技术研究师大学硕士学位论文,20154 *in-Yu Ou , He-Fei Ling , Ling-Yu Yan, Convolutional neural codes for image retrieval, Signal & Informa

13、tion Processing Association Summit & Conference 20145 R *ia,Y Pan,H Lai,C Liu,S Yan, Supervised hashing for image retrieval via image representation learning, AAAI, 2014. 2, 6, 7, 86 A Krizhevsky,GE Hinton, Using Very Deep Autoencoders for Content-Based Image Retrieval, European Symposium on Esann,

14、20117 于淼, 朱琼, 王国宇. 基于特征点匹配和哈希法的图像检索方法J. 网络新媒体技术, 2006, 27(04):397-400.8 王涛, 胡事民, 家广. 基于颜色-空间特征的图像检索J. 软件学报, 2002, 13(10):2031-2036.9 向阳, 庄越挺, 云鹤. 基于容的图像检索技术与系统J. 计算机研究与开展, 2001, 38(03):344-354.三、工程方案1.综述:本工程的目标是构建一个基于深度学习的无人机图像检索系统,给定一个特定的目标的照片和一个可能含有该目标的图像库,通过深度学习的方法,检测出图像库中是否具有该目标以及该目标存在于图像库中的哪些照片

15、上。具体实现将以通过无人机采集到的图像中的人为例,验证我们的检索思路及算法,然后会尝试对算法进展优化,并可能将检索的目标类型扩大至其它物体比方汽车,建筑等上。常规的基于容的图像目标检索方法是通过无人机等设备获得我们想要检索的人或物的照片以下称为目标图像以及可能拥有该人物或事物的一组其它照片以下称为参考图像库,然后提取参考图像库中每一图片的特征并存入特征库中,建立图像与对应特征的索引:做检索时,先提取目标图像的特征,然后与特征库中的特征做相似性匹配,将特征按相似性从高到低排序;最后从图像库索引中找出对应的图片给用户。在这个过程中,最重要的步骤是特征提取和特征匹配过程。对于本工程,我们使用基于深度

16、学习的图像目标检索算法。当深度学习算法应用于实例搜索任务时,主要就是从特征入手,提取更加具有判别性的特征。我们首先进展基于深度卷积神经网络的图像检索。首先要获取图像,建立参考图像库和目标图像库;其次要对两边的图像分别进展预处理,使之精度在像素级上到达进展后续处理的标准;然后需要建立深度学习的训练模型,这一步是整个工程过程的重点。我们本次使用的方法是基于卷积神经网络的图像检索法,用于基于容的检索上。我们需要建立一个神经网络模型,使用另一个图像库对模型进展训练,之后再将目标图像和参考图像库用训练好的模型进展匹配与识别,最终在参考图像库里找出可能含有目标图像中的人物的图像。2.具体流程本工程的根本流

17、程如下:下面分分步介绍各个步骤的具体容。1获取图像,建立图像库与图像预处理首先用无人机拍摄得到目标图像和参考图像库。由于参考图像是一个搜索围,所以会有很多甚至成百上千,所以建立一个图像库来存储参考图像。图像预处理首先是进展图像增强和图像去噪,消除拍摄过程中产生的干扰。此外,由于不同的目标具有不同的特点,姿态,形状,尺寸等差异很大,即使是同为人物,仍有高矮,胖瘦,和不同姿势之分,或者存在其他的不同之处。因此需要采用采用一定的语义对齐方式使模型对这些变化鲁棒。常见的方式主要有商品检测框对齐,旋转对齐,局部关键点对齐等。经过预处理,图像的品质明显增强,同时对外界条件的变化产生了一定的鲁棒性,为下一步

18、的处理奠定了根底,如图1所示图12构建基于卷积神经网络的深度学习模型目前进展图像识别,图像检索中的一个关键的挑战是著名的语义鸿沟,是机器捕获的低级别的图像像素和人类感知的高层次的语义之间差异。深度学习作为一个可能的方向,是弥补图像检索中的语义鸿沟的希望。其主要任务是仿照人类的大脑中的神经系统构建一个是深度学习的网络模型,是整个工程的最重要的一步。深度学习即深度神经网络学习,属于机器学习的一种见图2,与浅度学习相对。其本质思想是堆叠多个神经元层,包含输入层,隐藏层和输出层,其中隐藏层数量较多较少的话就被称作浅度学习,每个层都提取一定的特征和信息,上一层的输出作为下一层的输入,依次向前传输。它能够

19、学习复杂函数,表示高阶抽象概念,解决目标识别,语言理解和语音感知等人工智能的相关任务。在图像检索中,深度学习主要是从原始图像自动学习到图像的低层次特征并进展抽象与组合,最终获得高级特征。利用所得特征,我们可进一步对目标图像做识别等相关操作。具体做法是在深度神经网络之后连接一个分类器将获得的神经网络的输出激活值作为分类器的输入,由分类器进展数据分类分类器也要经过一个训练过程。在图像检索中,先对图像库的图像进展分类,检索时,通过获取图像的类别,然后再到图像库中提取相应类别的图像。深度神经网络学习主要有以下几种常用网络:人工神经网络,自编码神经网络,以及卷积神经学习网络见图3。本工程使用的深度学习网

20、络模型是基于卷积神经网络的模型,它主要分为两局部:1卷积层和最大池层,2完全连接层和输出层。第一层为输入层,采用均值为中心原RGB像素强度值。输入图像由原来的256*256的图像生成的平移和水平反射所提取随机的224*224个补丁和原图像叠加而成。在输入层有五个卷积层。第一和第二卷积层在响应归一化层和最大池层之后,而第三、第四、和第五的卷积层连接到一个没有任何干预的地方。卷积层之后还有两个全连接层,称为FC1和FC2。最后的输出层在FC2层。在构建卷积神经网络模型的时候,我们要首先建立一个海量的图像库。在图像库里面有各种各样的图片,我们需要利用图像库里的图像对网络模型进展训练,收集大量的深度学

21、习数据。具体的训练方法是:1首先逐层构建单层神经元,这样每次都是训练一个单层网络。2当所有层训练完后,Hinton使用wake-sleep算法进展调优。这样一方面解决了同时训练所有层造成的时间复杂度太高的问题,另一方面防止了每次训练一层造成的偏差传递问题。将除最顶层的其它层间的权重变为双向的,这样向上的权重用于认知,向下的权重用于生成。其中认知是指通过外界的特征和向上的权重认知权重产生每一层的抽象表示,并且使用梯度下降修改层间的下行权重生成权重;而生成是指通过顶层表示认知过程中学得的概念和向下权重,生成底层的状态,同时修改层间向上的权重。具体在训练时,首先在图像库中提取大量的图像块,其次构建一

22、个包含输入层,隐藏层和输出层的神经网络。然后从网络中得到特征卷积核。再后将卷积核和样本图像做卷积运算,得到卷积特征图,最后通过降采样运算,即对特征图中邻域求和,并加上一个偏置项,得到降采样特征图。图2图33特征提取与比对在这一步中,我们需要利用训练好的模型到一个新的领域中。具体来说就是将含有目标人物图像和参考图像库中的图像都利用神经网络模型进展特征提取和比对,然后得出可能含有目标人物的图像。我们直接应用特征表示一个受过训练的神经网络模型并把最后三个全连接层的激活FC1、FC2,和FC3作为检索任务的特征表示。为了获得特征表示,我们直接输入新的数据集的图像到预先训练的美国有线电视新闻网模型的输入

23、层,然后从最后的三层的获得激活值。由于我们只需要计算一次矩阵乘法的根底上的前馈网络,整个方案将是非常有效的。为了减少参数,我们常用的方法之一便是局部感知。一般认为人对外界的认知是从局部到全局的,而图像的空间联系也是局部的像素联系较为严密,而距离较远的像素相关性则较弱。因而,每个神经元其实没有必要对全局图像进展感知,只需要对局部进展感知,然后在更高层将局部的信息综合起来就得到了全局的信息。另一种方式则是权值共享。权值共享就是制定一个掩膜大小3*3,4*4,然后将掩膜放在图像上一一做卷积然后沿着图像一点一点移动。掩膜上是每一个点的权值。卷积神经网络中,每一层都可能包含着多个二维特征图,每一个特征图

24、都由多个神经元组成,卷积层的神经元在与上一层的感受野相连时,提取了该局部的特征,包括边缘特征,方向特征等,同时该局部特征与其他特征的关系也随之确定下来。只有当上一层的特定位置上的数据符合特定的构造时,这一层中检测该种特征的滤波器才能得到激活,并把激活信息记录在相应位置上。在同一个卷积层中,不同的特征图代表它提取了不同的特征。图4降采样层S则是通过对卷积特征图做局部平均计算来进展特征的二次提取,这个过程既能降低特征维数,又可使得网络在识别时对发生平移、旋转的输入样本有较强的鲁棒性。卷积特征图和降采样特征图如图4所示。至此,输入图像数据通过不同层次的卷积和降采样操作,提取了不同阶层的特征。最后的特

25、征匹配环节,我们采用无加权的欧式距离作为相似性度量标准,完成两幅图像的相似度的计算。4目标检索完成相似度计算后,我们要将带有目标人物或者车辆的图片输入到系统中在参考图像库已经建成的前提下,然后等待可能含有目标人物或者车辆的图片从系统中输出。为了评价系统质量的优劣,我们有以下的指标:查准率和查全率。查准率就是指系统输出的含有目标人物或车辆的图像数目占系统输出的图像总数的比重,而查全率就是指系统输出的含有目标人物或车辆的图像数目占系统含有目标人物或车辆的图像数目的比重。当查准率和查全率都较高的时候,我们认为该系统的性能较好。5模型的改良与优化如需改良系统,还有两种主要方式:采用相似性度量法或者通过

26、重复训练法。采用相似性度量法可以更好地获得新的任务中的训练数据,从而提取图像中的特征;而重复训练法会充分利用不同检索任务中的数据来初始化卷积网络模型中的参数。第一种方式是使用分类标签进展重复训练,而另一种则是收集边带信息进展训练。3.重点难点1光照,视角,距离等方面的变化对于同一个人,如果我们采取不同的视角,则图片中会有不同的形状,而距离不同时,图像中会有不同的大小;光照强度不同时,亮度也会有所不同。此外,同一个人有可能会处于不同的环境中,穿不同的衣服,做着不同的动作,导致所见非所得这些因素给工程的实施带来了比拟多的问题。减小乃至消除外界因素的影响,成为提高系统性能的一大关键因素。2局部最优问题深度学习算法的目标函数,几乎全都是非凸的。而目前寻找最优解的方法,都是基于梯度下降的。稍微有点背景知识的人都知道,梯度下降方法是解决不了非凸问题的。有时候寻找到的并不是最值点而只是一个极值点。因此,如果找到最优解,将是深度学习领域,非常值得研究的课题。3计算复杂。计算复杂表达在两个方面,一是训练过程,二是检测过程。而这两个过程的计算复杂,根本原因都是庞大的参数规模造成的。如果能够找到一个好的方法,能够有效的降低计算复杂度,将是很有意义的。4其它潜在的难点以上三

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论