人工智能YOLOV2图像识别试验报告

上传人：s*** IP属地：天津上传时间：2022-05-05 格式：DOCX 页数：30 大小：926.42KB 积分：25 举报 版权申诉

免费预览已结束，剩余25页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第一章前言部分1.1课程项目背景与意义1.1.1课程项目背景视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断，和军事等领域中各种智能/自主系统中不可分割的一部分。由于它的重要性，一些先进国家，例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题，即所谓的重大挑战。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号，纹理和颜色建模，几何处理和推理，以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。作为一门学科，计算机视觉开始于60年代初，但在计算机视觉的基本研究中的许多重要进展是在80年代取得的。

2、计算机视觉与人类视觉密切相关，对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。科学技术的发展是

3、推动人类社会进步的主要原因之一，未来社会进一步地朝着科技化、信息化、智能化的方向前进。在信息大爆炸的今天，充分利用这些信息将有助于社会的现代化建设，这其中图像信息是目前人们生活中最常见的信息。利用这些图像信息的一种重要方法就是图像目标定位识别技术。不管是视频监控领域还是虚拟现实技术等都对图像的识别有着极大的需求。一般的图像目标定位识别系统包括图像分割、目标关键特征提取、目标类别分类三个步骤。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习的概念由Hinton等人于2

4、006年提出。基于深度置信网络提出非监督贪心逐层训练算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能。深度学习是机器学习中的一个新的研究领域，通过深度学习的方法构建深度网络来抽取特征是目前目标和行为识别中得到关注的研究方向，引起更多计算机视觉领域研究者对深度学习进行探索和讨论，并推动了目标和行为识别的研究，推动了深度学习及其在目标和行为识别中的新进展。基于这个发展趋势，我们小组选择了基于回归方法的深度学习目标识别算法YOLO勺研究。1.1.2课程项目研究的意

5、义众所周知，当前是信息时代，信息的获得、加工、处理以及应用都有了飞跃发展。人们认识世界的重要知识来源就是图像信息，在很多场合，图像所传送的信息比其他形式的信息更丰富、真切和具体。人眼与大脑的协作使得人们可以获取、处理以及理解视觉信息，人类利用视觉感知外界环境信息的效率很高。事实上，据一些国外学者所做的统计，人类所获得外界信息有80流右是来自眼睛摄取的图像。由此可见，视觉作为人类获取外界信息的主要载体，计算机要实现智能化，就必须能够处理图像信息。尤其是近年来，以图形、图像、视频等大容量为特征的图像数据处理广泛应用于医学、交通、工业自动化等领域。深度学习是机器学习中一种基于对数据进行表征学习的方法

6、。观测值（例如一幅图像）可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务（例如，人脸识别或面部表情识别）。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。目标检测对于人来说是再简单不过的任务，但是对于计算机来说，它看到的是一些值为0255的数组，因而很难直接得到图像中有人或者猫这种高层语义概念，也不清楚目标出现在图像中哪个区域。

7、图像中的目标可能出现在任何位置，目标的形态可能存在各种各样的变化，图像的背景千差万别，这些因素导致目标检测并不是一个容易解决的任务。这次课程项目，正是基于视觉、深度学习、目标识别而进行的，是一个热度很高的话题。基于深度学习的目标识别研究具有重大的意义，深度学习的目标识别算法对于未来能够使用目标检测和图像识别的手段运用于物联网、智能设备、生物制药经济调控等多领域有很大的作用。1.2国内外研究现状机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的学科。机器能否像人类一样能具有学习能力呢？1959年美国的塞缪尔（Samuel

8、）设计了一个下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。4年后，这个程序战胜了设计者本人。又过了3年，这个程序战胜了美国一个保持8年之久的常胜不败的冠军。这个程序向人们展示了机器学习的能力，提出了许多令人深思的社会问题与哲学问题。深度学习最近几年发展速度十分快，因此同时也推动了目标识别技术的发展，技术的革新总是相互影响的。目标检测是图像处理和计算机视觉的一个重要分支，在理论和实践上都有重大意义。近年来，随着物联网的高速发展与智能终端的广泛普及，目标检测技术成了机器视觉领域的研究热点，被国内外学者广泛关注。目标检测的研究主要包括了基于视频图像的目标检测和基于静态图片的目标

9、检测。本文主要讨论基于静态图片的目标检测算法，即在静态图片中检测并定位所设定种类的目标。基于静态图片的目标检测的难点主要在于图片中的目标会因光照、视角以及目标内部等变化而产生变化。针对以上的难点，国内外学者进行了很多尝试。目前提出的方法主要分为基于形状轮廓的目标检测算法和基于目标特征的检测方法。计算机视觉是指用计算机实现人的视觉功能，它的研究目标就是使计算机具有用过一幅或多幅图像认知周围环境的能力（包括对客观世界三维环境的感知、识别与理解)。运动目标检测作为计算机视觉技术的一个分支，就是对视场内的运动目标，如人或交通工具，进行实时的观测，并将其分类，然后分析他们的行为。目前，国际上许多高校

10、和研究所，如麻省理工学学院、牛津大学等都专门设立了针对运动目标检测的研究组或者研究实验室。美英等国家已经研究了大量的相关项目。一些著名公司和研究机构，如旧M、Microsoft、麻省理工学院等近几年来投入了大量的人力物力来进行智能监控系统的研究，部分成果已经转化为产品投入了市场。目前在国内的研究机构中，中国科学院北京自动化研究所下属的模式识别国家重点实验室视觉监控研究处于领先地位。他们在交通场景视觉监控、人的运动视觉监控和行为模式识别方面进行了深入研究。另外他们也总结了英国雷丁大学VIEWS勺车辆交通监控原型系统的研究经验，在之前的理论研究的基础上，自行设计并初步实现了一个拥有完全自主知识产

11、权的交通监控原型系统vstart(Visualsurveillancestar)。国内其他高校如上海交通大学、北京航空航天大学也对这方面进行了研究。尽管这样，目前在运动目标检测和视觉监控这方面仍然存在着许多不足：目前国内市场上所见到的大部分智能监控产品来源于国外，性能和可靠性不够，并且维护和安装问题需要外方全方位参加，给国家安全带来了巨大的隐患。目标之间互遮挡和人体自遮挡问题，尤其是在拥挤状态下，多人的检测更是难处理。1.3本论文结构本文是基于回归方法的深度学习目标识别算法YOLO勺研究。第一章：前言。主要介绍课程项目背景与意义、国内外研究的现状，以及本论文的结构。第二章：使用工具介绍及安装。

12、包括CentOS系统、OpenCVT具、CUDAff发环境、环境的搭建。第三章：YOLOJ法简介。包括YOLOJ法特点、核心思想和实现方法、以及YOLO的创新。第四章：训练数据采集与制作。包括训练数据的采集、训练数据的制作。第五章：训练配置、训练及测试训练效果。包括具体的训练配置、训练过程和测试训练效果。第六章：总结。包含对本次课程项目实践过程的感想与收获，以及对未来的展望。第二章使用工具介绍及安装2.1 CentOS系统CentOS(CommunityENTerpriseOperatingSystem)是Linux发行版之一，它是来自于RedHatEnterpriseLinux依照开放源代码

13、规定释出的源代码所编译而成。由于出自同样的源代码，因此有些要求高度稳定性的服务器以CentOS替代商业版的RedHatEnterpriseLinux使用。两者的不同，在于CentOS并不包含封闭源代码软件。CentOS我们有很多人叫它社区企业操作系统，不管怎么叫它，它都是linux的一个发行版本。CentOS并不是全新的linux发行版，在RedHat家族中有企业版的产品，它是RedHatEnterpriseLinux,CentOS是RHEL勺克隆版本，RHEL是很多企业采用的linux发行版本，需要向RedHat付费才可以使用，并能得到付过费用的服务和技术支持和版本升级。这个CentOS

14、可以像REHL一样的构筑linux系统环境，但不需要向RedHat付任何的费用，同样也得不到任何有偿技术支持和升级服务。CentOS很多特点：CentOS就是对RedHatAS进行改进后发布的，各种操作、使用和REDHA股有区别；CentOS完全免费，不存在REDHATAS4!要序列号的问题；CentOS独有的yum命令支持在线升级，可以即时更新系统，不像REDHATJB样需要花钱购买支持服务；CentOS修正了许多REDHATAS勺BUG基于开源的特性，Linux环境被很多技术人员和公司使用。Linux以它的高效性和灵活性著称，Linux模块化的设计结构，使得它既能在价格昂贵的工作站上

15、运行，也能够在廉价的PC机上实现全部的Unix特性，具有多任务、多用户的能力。我们这次的课程项目“基于深度学习的目标识别研究”也是在Linux环境下完成的，因此本次项目实现使用的是CentOS7.0系统。2.2 OpenCV工具OpenCV勺全称是:OpenSourceComputerVisionLibrary。OpenCV!一个基于(开源)发行的跨平台计算机视觉库，可以运行在Linux、Windows和MacOS操作系统上。它轻量级而且高效，由一系列C函数和少量C+类构成，同时提供了Python、RubyMATLA繇语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。OpenCN力于真

16、实世界的实时应用，通过优化的C代码的编写对其执行速度带来了可观的提升，并且可以通过购买Intel的IPP高性能多媒体函数库得到更快的处理速度。OpenCV是一个用于图像处理、分析、机器视觉方面的开源函数库。无论是做科学研究，还是商业应用，OpenCV都是一个理想的工具库。因为，对于这两者，它完全是免费的。该库采用C及C+邮言编写，该库的所有代码都经过优化，计算效率很高，因为，它更专注于设计成为一种用于实时系统的开源库。OpenCV采用C语言进行优化，而且，在多核机器上面，具运行速度会更快。它的一个目标是提供友好的机器视觉接口函数，从而使得复杂的机器视觉产品可以加速面世。该库包含了横跨工

17、业产品检测、医学图像处理、安防、用户界面、摄像头标定、三维成像、机器视觉等领域的超过500个接口函数。同时，由于计算机视觉与机器学习密不可分，该库也包含了比较常用的一些机器学习算法。图像识别、机器视觉在安防领域有所应用。并且在航拍图片、街道图片中，也要依赖于机器视觉的摄像头标定、图像融合等技术。近年来，在入侵检测、特定目标跟踪、目标检测、人脸检测、人脸识别、人脸跟踪等领域，OpenCV勺应用及其广泛，而这些，仅仅是其应用的冰山一角。一个典型的计算机视觉算法，应该包含以下一些步骤：(1)数据获取(对OpenC原说，就是图片)；(2)预处理；(3)特征提取；(4)特征选择；(5)分类器设计与训练；

18、(6)分类判别；而OpenCVT具对这六个部分,分别提供了API。2.3 CUDA开发环境随着显卡的发展，GPU来越强大，而且GPlfe显示图像做了优化。在计算上已经超越了通用的CPU如此强大的芯片如果只是作为显卡就太浪费了，因此NVidia推出CUDA1算平台，CUD/PComputeUnifiedDeviceArchitecture,是NVidia利用GPU台进行通用并行计算的一种架构，该架构使GPUfg够解决复杂的计算问题，它包含了CUDA旨令集架构（ISA）以及GPlft部的并行计算引擎。开发人员可以利用C语言、OpenCLFortran、C+等为CUDA构编写程序。（1）CUDM系架

19、构CUDA体系架构由两部分组成，分别是流处理器阵列（SPA和存储器系统。流处理阵列（SPA的结构又分为两层：TPC（线程处理器群）和SM（流多处理器）。GPU勺巨大计算能力来自于SPA中的大量计算单元。存储器系统由几个部分组成：存储器控制器（MMC、固定功能的光栅操作单元（ROP以及二级纹理操作。（2）CUD软行模型将CPU乍为主机（Host）,而GPU为协处理器（Coprocessor）或者设备（Device）,从而让GPK运行一些能够被高度线程化的程序。在这个模型中，CPlUfGPLB同工作，CPU5责进行逻辑性强的事务处理和审行计算，GPU专注于执行高度线程化的并行处理任务。一个完整的C

20、UD雁序是由一系列的设备端kernel函数并行步骤和主机端的用行处理步骤共同组成的。CUDA执行模型如下图：Grid（网格）运行在SPA;Block（线程块）运行在SM;Thread（线程）运行在SP上。CPUCPUSerialGrid1BlockGKCKGlockQ3忤叫2.0)国HKS步然：Bish%刮(111(21)户J1T-Block(1,1TLE(LG)n( (n口网Timiiliili*：*mXU恒*rtHD(inFW1由f-BirSjIds竭与rikund1Kernel不是一个完整的程序，而只是其中的一个关键并行计算步骤。Kernel以一个网格（Grid）的形式执行，每个网格由若

21、干个线程块（block）组成，每一个线程块又由若干个线程（thread）组成。在CUDA的架构下，一个程序分为两个部份：Host端和Device端。Host端是指在CPU上执行的部份，而Device端则是在显示芯片（GPU上执行的部份。Device端的程序又称为kernel。通常Host端程序会将数据准备好后，复制到显卡的内存中，再由显示芯片执行Device端程序，完成后再由Host端程序将结果从显卡的内存中取回。由于CPU存取显卡内存时只能透过PCIExpress接口，因此速度较慢，因此不能经常进行这类动作，以免降低效率。由于显示芯片大量并行计算的特性，它处理一些问题的方式和一般CPU是不同

22、的。主要的特点包括：（1）内存存取latency（等待时间）的问题：CPU通常使用cache来减少存取主内存的次数，以避免内存latency影响到执行效率。显示芯片则多半没有cache（或很小），而利KernelCodeKernelGT闻 M用并行化执行的方式来隐藏内存的latency（即当第一个thread需要等待内存读取结果时，则开始执行第二个thread,依此类推）。（2）分支指令的问题：CPU通常利用分支预测等方式来减少分支指令造成的流水线。显示芯片则多半使用类似处理内存latency的方式。不过，通常显示芯片处理分支的效率会比较差。因此，最适合利用CUDA处理的问题，是可以大量并行化

23、的问题，才能有效隐藏内存的latency,并有效利用显示芯片上的大量执行单元。使用CUDA时,同时有上千个thread在执行是很正常的。因此，如果不能大量并行化的问题，使用CUDA就没办法达到最好的效率了。在这个过程中，CPUS任的工作为控制GPIB行，调度分配任务，并能做一些简单的计算，而大量需要并行计算的工作都交给GPU实现。另外需要注意的是，由于CPU存取显存时只能通过PCI-Express接口，速度较慢，因此不能经常进行，以免降低效率。通常可以在程序开始时将数据复制进GPU显存，然后在GPU内进行计算，直到获得需要的数据，再将其复制到系统内存中。2.4环境的搭建一、项目源代码下载与安装

24、1.使用git把项目源代码下载到本地gitclonehttps:/ .测试识别对象：./darknetdetectcfg/yolo.cfgyolo.weightsdata/dog.jpgI在上述命令中，detect表示调用darknet的对象识别功能，cfg/yolo.cfg是配置文件，包含各层网络的参数、要识别的物体种类数等，yolo.weights是上一步下载的权重数据，data/dog.jpg是要进行对象识别的照片，照片内容如下图：执行命令:mydfelocBlhoitdarknet：5./darknetdetectcfg/yolo.cfgyolo.weightsdete/dog.jpg

25、layerfilterssxre0canv323x3/1m3x2x2/2canv643x3/3max2x2/4conv1283x3/5canv641X1/6canv1283x3/7max8canv2562x2/3x3/9conv12fl1x1/10canv2563x3/11max2x2/12canv5123x3/13canv2561X1/14can*5123x3/15canv2561X1/16conv5123x3/17max2x2/IBcanv10243x3/canv5121X1/20canv21canv22canv23conv10243X3/5121x1/10243x3/1023x3/102

26、43x3/161X1/2724canvrouteconvreorqroute22266662226666 ssss回片回999999955577773aa3J3J3J1111111999999955577773aa3J3J3J1111111608X3608X32304X32304X64152X64152X128152X64152X12876X12876X25676X12876X25638X25630X51260fix608i304X304xinput2 25 51 13X51219X51219X102419K51219X102419K512igX10241X102438x25638X51238

27、x25630conv4251x1/31detectionLoadingweightsfromyclo.data/dog.jpg;Predictedirdog:82truek:65%bieycli：85%1x38K51223SX38X54119X19K1280119x19K1O24weights.-Cone!0.350000secondsoutput60Sx32304X32304x64152X64152x128152x64152x12876x12676st25676x12B76X25638x25638x5123&x25638x51238X25638x51219X51219*102419x

28、51219X1024ISx51219X102419102419X102438x6419x若$19X102419x425XXXXXXXXXXMXXXXXXXXXXXMXXXXXXXXXXXXMXXXXXXXXXXXMXX84422226666888888999999990005555777733333311111111844222266668888889999999900055557777333333111111116 6331111331111fi999fi9990041 1上图显示检测过程在0.35秒内完成，这是安装完显卡驱动后运行的结果，在安装显卡驱动前，使用CPU!行图像检测，花费时

29、间大约为8秒。命令执行完成后,将会把识别结果生成到predictions.jpg,打开图片如下图所示：四、训练环境安装1.使用YUMK装OpenCVsudoyuminstallopencv2.安装显卡驱动及其开发工具包CUDAe装CUDA、须要有一个Nvidia的显卡,本机的显卡是GTX860MCUDAF载网址为：https:/ 该命令会打印gcc的版本，如果提示找不到命令则说明没有安装gcc：gcc-version安装Kernel-header和kernel-devel,这两个包的版本需要和本机的内核版本一致，安装命令如下：sudoyuminstallkernel-devel-$(unam

30、e-r)kernel-headers-$(uname-r)开始安装cuda,本次实验使用的是runfile安装。Nouveau是一个开源的3D驱动，安装Nvidia驱动之前需要先将其关闭。首先要把Nouveau加入黑名单，创建/etc/modprobe.d/blacklist-nouveau.conf文件并写入以下内容：blacklistnouveauoptionsnouveaumodeset=0重新生成内核initramfs:sudodracut-force重新启动计算机，在进入登录界面时，不要登录，按下ALT+F2进入命令提示符模式，使用root用户登录，然后使用init3命令进入多用户

31、模式开始安装Naidia驱动。执行以下命令开始安装CUDA./cuda_8.0.61_375.26_linux-run安装过程会提示是否安装CUDA：具箱、CUD刷子等，此次试验中选择安装。最后将cuda加入到环境变量中、重启，即完成安装。将cude加入到环境变量：exportPATH=/usr/local/cuda-8.0/bin$PATH:+:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64$LD_LIBRARY_PATH:+:$LD_LIBRARY_PATH3.安装完成OpenCq口CUDAf,需要修改YOLO勺Makefile文件

32、并重新编译。打开Makefile文件，将OPENCV=0fc为OPENCV=1将GPU=0fc为GPU=1并执行make命令重新编译。第三章YOLOT法原理3.1YOLO算法简介基于深度学习方法的一个特点就是实现端到端的检测。相对于其它目标检测与识别方法(比如FastR-CNN)将目标识别任务分类目标区域预测和类别预测等多个流程，YOLO等目标区域预测和目标类别预测整合于单个神经网络模型中，实现在准确率较高的情况下快速目标检测与识别，更加适合现场应用环境。YOLO为一种新的目标检测方法，该方法的特点是实现快速检测的同时还达到较高的准确率。作者将目标检测任务看作目标区域预测和类别预测的回归

33、问题。该方法采用单个神经网络直接预测物品边界和类别概率，实现端到端的物品检测。同时，该方法检测速非常快，基础版可以达到45帧/s的实时检测；FastYOLO可以达到155帧/s。与当前最好系统相比，YOLO目标区域定位误差更大，但是背景预测的假阳性优于当前最好的方法。人类视觉系统快速且精准，只需看一眼即可识别图像中物品及其位置。传统目标检测系统采用deformablepartsmodels(DPM)方法，通过滑动框方法提出目标区域，然后采用分类器来实现识别。近期的R-CNN类方法采用regionproposalmethods,首先生成潜在的boundingboxes,然后采用分类器识另U这些

34、boundingboxes区域。最后通过post-processing来去除重复boundingboxes来进行优化。这类方法流程复杂，存在速度慢和训练困难的问题。而YOLOJ法将目标检测问题转换为直接从图像中提取boundingboxes和类别概率的单个回归问题，只需一眼即可检测目标类别和位置。3.2 YOLO方法特点YOLOR用单个卷积神经网络来预测多个boundingboxes和类别概率，如图所示：1.Xtiizcmage.tintcuvolutiano)nwM&rk.*.NTMICKsuppre-SMon.本方法相对于传统方法有如下优点：(1)速度非常快。YOLOW测流程简单，

35、速度很快。基础版在TitanXGPU上可以达到45帧/s;快速版可以达到150帧/s。因此，YOLOT以实现实时检测。(2) YOLO采用全图信息来进行预测。与滑动窗口方法和regionproposal-based方法不同，YOLOS训练和预测过程中可以利用全图信息。FastR-CNN佥测方法会错误的将背景中的斑块检测为目标，原因在于FastR-CNN在检测中无法看到全局图像。相对于FastR-CNN,YOLCS景预测错误率低一半。(3) YOLOT以学习到目标的概括信息，具有一定普适性。采用自然图片训练YOLO采用艺术图像来预测。YOLQ

36、匕其它目标才测方法(DPMf口R-CNN准确率高很多。本方法有如下缺点：(1) YOLO对相互靠的很近的物体，还有很小的群体检测效果不好，这是因为一个网格中只预测了两个框，并且只属于一类。(2)对测试图像中，同一类物体出现的新的不常见的长宽比和其他情况是。泛化能力偏弱。(3)由于损失函数的问题，定位误差是影响检测效果的主要原因。尤其是大小物体的处理上，还有待加强3.3 YOLO的核心思想和实现方法1 .YOLO的核心思想YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归boundingbox的位置和boundingbox所属的类别。2 .YOLO的实现方法YOLO勺实现过程图解和

37、方法如下:(1)将一幅图像分成SxS个网格(gridcell),如果某个目标的中心落在这个网格中，则这个网格就负责预测这个目标。(2)每个网格要预测B个boundingbox,每个boundingbox除了要回归自身的位置之外，还要附带预测一个confidence值，这个confidence代表了所预测的box中含有目标的置信度和这个box预测的有多准两重信息，其值是这样计算的：Pr(目标)“IOU；黑(其中如果有目标落在一个gridcell里，第一项取1,否则取0。第二项是预测的boundingbox和实际的groundtruth之间的IOU值)。(3)每个boundingbox要预测(x

38、,y,w,h)和confidence共5个值，每个网格还要预测一个类别信息，记为C类。则SxS个网格，每个网格要预测B个boundingbox,还要预测C个categories。输出就是SxSx(5*B+C)的一个tensor。(注意：class信息是针对每个网格的，confidence信息是针对每个boundingbox的)。举例说明：在PASCALVOC,图像输入为448x448,取S=7,B=2,一共有20个类别(C=20)。则输出就是7x7x30的一个tensorThtImag#Divid*Th*ImagtgridcvlhbixMdon愉*irccrJc-n.TrainTh*N*tw很

39、To芦TiwihH91ylM产中MbU”ndboundingboacjoordmac-ji.整个网络结构如下图所示：(4)在测试的时候，每个网格预测的class信息和boundingbox预测的confidence信息相乘，就得至U每个boundingbox的class-specificconfidencescore:Pr(class|object)*Pr(object)*IOU器d=Pr(class尸IOU黑；等式左边第一项就是每个网格预测的类别信息，第二三项就是每个boundingbox预测的confidence。这个乘积即encode了预测的box属于某一类的概率，也有该box准确度的

40、信息。(5)彳马至U每个box的class-specificconfidencescore以后，设置阈值，滤掉得分低的boxes,对保留的boxes进行NMSt理，就得到最终的检测结果。3 .4YOLO的实现细节1.预训练：使用imageNet预训练，网络结构是前20层网络加上一个平均池化层和一个全连接层。2.预测：由于预测需要更加精细的像素，所以把输入扩展成448*448,并且增加了四个卷积层和两个全连接层。在最后一层预测中，需要预测概率和boundingbox,这里把boundingbox的预测归一化成0到1。Cori*.附6四川Lflytr2x2+2Con.LagrCon*.Laye

41、nMoKpcolLaX*r3K3婚M2x2+：1x1近我3处512Ma*pwlLoy*都36Cnrw.Lderi24-t2MKp*llyrCann.LaytrConn.Layer3.激活函数:最后一层的激活函数使用线性激活函数，而其他层使用函数：E,ii二0otherwise4 .误差传播：误差的计算采用简单的平方和误差函数。但是，从网络结构可以知道，预测概率的维数比预测boundingbox的维数要高，而且，在图片中大多的格子是没有物体的，这会使得它们的confidence趋于0。它们的贡献过大，会使得网络无法收敛。我们采用的一个办法就是加权，赋予不同的权值，对于预测boundingbox的

42、，而对于没有目标物体的格子的误差赋予权值。同时，对于大的box的小误差肯定要比小box的小误差影响更小，于是，采用对w,h,x,y取平方根的做法，因为平方根函数的图像随着x的增大会变得平缓。此外，一个网格可能会预测多个box,希望每个box负责专门的目标物体的预测。方法是，对于一个物体的truthbox,看哪个boundingbox的IOU更大，就让它负责这个box。公式为：S2BAooon!瑞备尸+(弧-灰尸=0j=O+入*E上:：(1j.iij仆L/Ji=i) )j=ti+4252口:丁(G-a)mj工口+ZZ折3(e)-仇尸i=0cCtfaswi(leakyReLU的激活R叫其中行对应格

43、子i如果有物体，那相应的boundingboxj负责这个物体n吗I的预测。tJ表示格子i中是否有物体。5 .训练方法：使用随机梯度下降法，以及dropout的方法。6 .4YOLO的仓I新YOLO#物体检测作为回归问题求解。基于一个单独的端到端网络，完成从原始图像的输入到物体位置和类别的输出。从网络设计上，YOL0ttRCNNFastRCNNiFasterRCNN的区别如下：（1）YOLOHI练和检测均是在一个单独网络中进行。YOLO没有显示地求取regionproposal的过程。而RCNN/FastRCNNR用分离的模块（独立于网络之外的selectivesearch方法）求取候选框（可能

44、会包含物体的矩形区域），训练过程因此也是分成多个模块进行。FasterRCNN使用RPN（regionproposalnetwork）卷积网络替代RCNN/FastRNN勺selectivesearch模块，将RPN成到FastRCNN检测网络中，得到一个统一的检测网络。尽管RPN与FastRCNN共享卷积层，但是在模型训练过程中，需要反复训练RPNR络和FastRCNIW络。（2） YOLO等物体检测作为一个回归问题进行求解，输入图像经过一次inference,便能得到图像中所有物体的位置和其所属类别及相应的置信概率。而RCNN/FastRCNN/FasterRCNNA检测结果分为两部分求

45、解：物体类别（分类问题），物体位置即boundingbox（回归问题）。RCNNFastRCNNFasterRCNNYOLOregionproposalmodulePNregionproposulmoduledetrztionnetworkYOLOnetworkftatureKtractkonFastRCNNfeatureextractionnetworkclasSificatioriiregression第四章训练数据采集与制作4.1训练数据的采集准备需要训练的图片：本次实验训练的是水果的识别，种类一共5种，分别是WaterMelon、StrawBerry、Orange、Pineapple、

46、Apple,每种水果图片约30-40张，总共有171张图片。图片全部从百度图片中下载，图片分辨率一般在400*300像素左右。将图片按照按照5位数字从00000递增开始命名，并将其全部放到一个文件夹中。4.2训练数据的制作1.下载并编译安装LabelImg,使用这个软件给171张水果图片标记对象位置和名称。0OO32jpg叩9OT034jpgOOOQDjpg00001jpg00003JpgOOOOBjpg00009,pgDOOLOjpgMM16.jpg00017jpg】1尊9fOClQ.jpgX)012jpg0W；3jpg000i4,jpg00015,JDC00021jpg000箝Jpg2.标

47、记完成后，Labellmg将会生成一个记录了对象名称和位置的xml文件，每张图片对应一个xml文件，xml文件内容如下。打开/mOOOBJ.xml除存IS_CXIcannotstlorerifleJ=ncefoLde口stImmgaw/I2Lfl000911erwe+/home/iryd/all/DstImage/09089Jpattcs-oun:*UnknoMy/MSiiWCAGdcfthA46gZhidth*-chiighil300i30/s毡1立MIIF产“白匕号广21。门11川P-？Unspec1fld4/*00MMrdr15史/KEZL-会止yiri的+31葺/iin140/-m白乂

48、syra/max*/object-smeu-wataruiel门二mw*Unspeciflad./poseDcdlifficultGbridbox85*/xfliin-Fil七ladymiridXTIL常舟符K：度；3,行L列工-插入3 .按照VOO据集的格式创建一下文件夹结构darknet项目目录Icfg配置文件存放目录一.I-src项目源代码I-VOCdevkitVOC数据集目录IIVOC2017数据标记年份Annitations存放xml标记文件I00000.xmlxml标记文件I00001.xml1xml标记文件Ixml标记文件ImageSets图片相关信息I-Main文件位置信息II

49、-train.txt保存了全部图片位置的文件JPEGImages需要训练的图片I00000.jpg水果图片I00001.jpg水果图片一.I00171.jpg水果图片labelslabels文件|-00000.txtlabels文件|00001.txt1IIIlabels文件I.|-00170.txtlabels文件4.YOLO不能识别xml文件，需要将其转化成其识别的格式。使用项目自带的voc_label.py脚本可以将xml格式转换成YOLO所需的label文件。打开voc_label.py，修改数据集年份，要识别的对象种类名称，以及xml文件存放位置等信息。文件内容如下图所示。该脚本同时

50、会生成上面目录结构中的train.txt文件。修改完成后运行，将会生成上面目录结构所示的labels文件。vtK-LitKlpy除存伸)I=_Dxm.：i-txril,etree,ElementIreeET-tpickleIriD&rti-in“),tllytdirfg电tuwd1-1ii4ii.i-Dr：iJoinsots=(Z0L7.train)ul已与ERE=ct,lwflTcrmHlonBfappleorargBrplnsapplfidefL.?r?(size,box:dw=j，号二工白dh-1./slze：.x-(box6+bcu1|/2.0y-lbox2+box3)/2.G

51、W-boxtl-DQXJ|-|toxr-1-1XI*CWW-y=y*dhh=h*dhreturntx0h】defLU-dwtiiirJtatc(yearrijiage_id)iln_fleapen(VOCdevkit/VOCTaa/Arrwtatlons/s.xml/悝drimage_ld)|aut_fneopen(0Cdvklt/VDC4aAflta|En.txt(y#artlnaga_ld)f1)trH-ET.parse416x416x32-416x416x322x2/2208x208x322conv643x3/1208x208x32-208x208x643max2x2/2208x208x

52、64-104x104x644conv1283x3/1104x104x64-104x104x1285conv641x1/1104x104x128-104x104x646conv1283x3/1104x104x64-104x104x1287max2x2/2104x104x128-52x52x1288conv2563x3/152x52x128-52x52x2569conv1281x1/152x52x256-52x52x12810conv2563x3/152x52x128-52x52x25611max2x2/252x52x256-26x26x25612conv5123x3/126x26x256-26x

53、26x51213conv2561x1/126x26x512-26x26x25614conv5123x3/126x26x256-26x26x51215conv2561x1/126x26x512-26x26x25616conv5123x3/126x26x256-26x26x51217max2x2/226x26x512-13x13x51218conv10243x3/113x13x512-13x13x102419conv5121x1/113x13x1024-13x13x51220conv10243x3/113x13x512-13x13x102421conv5121x1/113x13x1024-13x1

54、3x51222conv10243x3/113x13x512-13x13x102423conv10243x3/113x13x1024-13x13x102424conv25route10243x3/11613x13x1024-13x13x102426conv641x1/126x26x512-26x26x6427reorg28route/226x26x64-13x13x256272429conv10243x3/113x13x1280-13x13x102430conv501x1/131detection13x13x1024-13x13x50LearningRate:0.01,Momentum:0.9,

55、Decay:0.0005Resizing训练过程中会打印训练进度的信息，如下所示：Loaded:0.000000secondsRegionAvgIOU:0.160720,Class:0.231168,Obj:0.521430,NoObj:0.413074,AvgRecall:0.000000,count:2RegionAvgIOU:0.180606,Class:0.679878,Obj:0.386150,NoObj:0.408220,AvgRecall:0.000000,count:11: 186.851959,186.851959avg,0.000000rate,0.950000second

56、s,2imagesLoaded:0.000000secondsRegionAvgIOU:0.254033,Class:0.317158,Obj:0.520064,NoObj:0.409462,AvgRecall:0.200000,count:5RegionAvgIOU:0.241384,Class:0.085939,Obj:0.527829,NoObj:0.407437,AvgRecall:0.000000,count:12: 216.814362,189.848206avg,0.000000rate,0.550000seconds,4imagesLoaded:0.000000secondsR

57、egionAvgIOU:0.226418,Class:0.028838,Obj:0.529031,NoObj:0.421976,AvgRecall:0.000000,count:2RegionAvgIOU:0.001094,Class:0.286836,Obj:0.057044,NoObj:0.412083,AvgRecall:0.000000,count:13: 279.181519,198.781540avg,0.000000rate,0.550000seconds,6imagesLoaded:0.000000secondsRegionAvgIOU:0.161439,Class:0.111352,Obj:0.491796,NoObj:0.411375,AvgRecall:0.000000,count:5RegionAvgIOU:0.245507,Class:0.220506,Obj:0.330526,NoObj:0.407965,AvgRecall:0.000000,count:54: 250.851227,203.988510avg,0.000000rate,0.580000seconds,8imagesLoaded:0.000000seconds训练过程中会每5分钟生成一次训练数据文件到backup_myd/yolo-myd.backup,同时分

人人文库> 全部分类> 应用文书 > 作业报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能YOLOV2图像识别试验报告

文档简介

温馨提示

最新文档

评论

人工智能YOLOV2图像识别试验报告

文档简介

温馨提示

最新文档

评论

相关文档