毕业论文-基于面部表情识别的驾驶员疲劳状态检测方法研究_第1页
毕业论文-基于面部表情识别的驾驶员疲劳状态检测方法研究_第2页
毕业论文-基于面部表情识别的驾驶员疲劳状态检测方法研究_第3页
毕业论文-基于面部表情识别的驾驶员疲劳状态检测方法研究_第4页
毕业论文-基于面部表情识别的驾驶员疲劳状态检测方法研究_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第页绪论1.1课题研究的背景和意义疲劳是一个抽象的概念,是一种主观不适感觉,但客观上会在同等条件下,人会失去其完成原来所从事的正常活动或工作能力。由于从事一些重复动作次数较多的工作,导致身体机能下滑,从而引起一些不必要的事故。随着汽车保有量和道路交通里程的逐年增加,大量的交通事故也在逐年增加。在全球的范围内,疲劳驾驶是交通安全事故的重要原因之一。中国每年因为疲劳驾驶发生的交通事故在2500起左右,由于目前对疲劳驾驶仍然没有一个具体的认定标准,因而,实际上驾驶人因疲劳所引起的事故比例要高的多[]。因此,疲劳识别的检测系统在机动车驾驶过程中的作用尤为重要。数据化和科学化的检测方法能有效的避免事故的发生。疲劳表情是疲劳状态的一个明显的标志,和正常态的表情有十分显著的区别。所以本文课题就是使用疲劳表情识别。人体语言包括肢体语言和自然语言。人脸疲劳表情便是传递疲劳信息的语言之一,作为人机交互的重要基础的一部分,表情识别或者是疲劳表情识别是智能信息化的体现。传统的识别方法是提取出人脸特征进行归一化处理,从而进行权重分配和分类处理,然而已经训练和未训练的人脸识别的正确率有很大的区别,同时在实际生活中,由于环境的复杂以及人脸角度的不同等等因素,导致识别的准确率不够高。虽然有Gabor小波等较强鲁棒性的特征提取方法,但是在学习训练方面还是不尽如人意。因此本文选择使用深度学习的方法,利用无监督学习的特性,自动的获取脸部之间的潜在的非线性的特征,不需要进行监督学习。深度学习在复杂数据的处理上具有极佳的效果,在文本,图像和音频上具有良好的运用。然而对于深度学习的研究,目前还处于比较新的阶段,本文的研究也可以为深度学习做出一点贡献。同时也为机动车驾驶疲劳检测的方法提出一个途径。1.2国内外研究的现状关于疲劳驾驶表情识别,先提及表情识别的现状。人脸表情识别大多数是采用BP浅层学习网络进行来识别。在国内外的研究方向如下:第一种是对对图片进行预处理,这是该方法的一大特点,预处理能够提升识别的准确度。提取脸部特征,采用建立模型,包括ASM,AAM等或者对图像进行提取,采用Gabor,弹性图匹配法以及Fisher判别法等等。对于动态图片,还会使用光流法或者是特征点追踪法等。然后进行分类,采用BP神经网络或者K-最近邻学习法等等方法[],具体的方法综述可见文献[2]。第二种是对图像进行简单的预处理后,就不采用人工规则算法进行识别,而是采用深度学习的方法,建立隐含层,实现无监督学习。在解释深度学习之前,我们需要了解什么是机器学习。机器学习是人工智能的一个分支,但是在很长的一段时间里,机器学习几乎是人工智能的代名词。而学习能力是人工智能的基本特征,人工智能的研究第一个阶段是在五十年代中期就以学习机为主要内容开始,其中的学习内容是以建立神经模型的学习感知装置,著名的例子便是计算机利用学习模式战胜围棋大师从而大获全胜。第二阶段便是六十年代由参数学习改进成符号学习[]。著名的例子有Feigenbeum(1963)的言语学习模型,Winson(1970)的结构学习系统,而Waterman则发展了自适应系统,提出了联想规则。第三阶段就是八十年代末期开始到至今,期间产生了俩次浪潮,第一次浪潮是浅度学习,采用人工神经网络的方向传播算法(BP算法)。该算法能在大量数据的训练样本中寻找到隐藏的规律,从而对未知的事物进行预测。这种在统计的基础上进行机器学习的方法比起过去基于人工网络规则的系统方法又明显的优越性,例如支撑向量机(supportvectormachines),Boosting方法等等,然而BP算法只能是含有一层的浅层模型。第二次浪潮是在互联网飞速发展的情况下,对于大数据的更加复杂的分析要求逐渐提升。2006年,加拿大多伦多大学的教授Hinton和他的学生Salakhutdinov发表了一篇文章,从此开启了深度学习的大门[]。在这篇文献中,揭露了多层隐含层的优秀的特征学习能力,通过逐层初始化来克服深度学习训练网络的困难。模仿网络模型的形式,建立各层隐含层,通过转化到不同的特征空间来使得分类和预测更加精准。人脸的疲劳表情识别在不同的环境下是极具复杂特性的,首先在驾驶座位上,由于光线强度的变化的原因,人脸的特征表情也随之改变。其次,由于人类种族肤色的不同,本身的肤色差异也会干扰疲劳表情的识别,再之,由于驾驶座位的不同姿势和角度的不同,导致了不同的识别难度。在实际生活中,人脸的表情识别还受到像素和拍摄图像不清晰的影响。总之在实际生活运用中,疲劳驾驶表情识别的研究的道路还很长远。1.3面部疲劳表情识别的设计思路和研究内容本文研究对象是来自驾驶座位的驾驶人员的表情,因此不失一般性,我们必须考虑到驾驶员的驾驶环境的一般情况。一方面,在驾驶过程中,驾驶员的头部是会移动的,因而必须考虑到不同角度和姿势的脸部疲劳表情。另外一方面,在驾驶过程中,随着时间的变化,天气的变化以及建筑物的遮挡情况,光线的强弱是会改变的,这也必须考虑在内。本论文的章节安排如下:绪论,首要介绍了该课题的研究背景以及社会意义,同时介绍了研究该课题所使用的方法,分析国内外相关领域的研究成果。其次,介绍此课题的设计思路和设计过程中用到的方法。最后,交待整体论文的工作内容安排。深度学习,介绍了设计该课题的思路的学习方法,介绍了深度学习的基本思想和模型结构分类,初步的了解深度学习的运用。其中包括卷积神经网络,介绍了卷积神经网络的基本结构和中心思想。了解卷积神经网络的流程,同时介绍卷积神经网络的构建。基于卷积神经网络的疲劳表情识别,介绍了在CAFFE平台下,实现人脸疲劳驾驶表情识别的功能,介绍了实验模型结构,同时将课题实验结果展现出来,将实验模型和已知传统的模型,包括手写体模型和浅层学习模型进行对比,得出最后的结论总结和展望,对整体设计工作进行总结和分析,总结在这次课题中的教训和经验。总结工作和展望未来的发展。深度学习2.1深度网络神经学启发深度学习的概念来源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习是通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示[]。人们在面对大量的数据时候,能够很直观灵巧的进行数据采集和获取其中重要的信息。在人机智能飞速发展的今天,人们有意于模范人体神经网络模型来进行高效的获取信息和表示信息。神经科学的专家发现,哺乳动物在进行视觉信息处理时候,并没有对视觉信息进行预处理,而是通过一个复杂的层状神经网络,进而获取一个数据的展现的一个规则。图2.1视觉信号处理图换句话说,人脑并不是直接从视觉感官的投影直接进行识别物体,而是经过一个筛选,聚合的一个层状网络进行识别物体。所以视觉感官的功能并不是对物体投影的重新复现,而是对于图像的特征处理和采集。人体的神经系统的层次结构大大降低了视觉系统的处理数量工作量,同时保留有大部分重要的信息。在极具潜在复杂规则图像和音频以及文本方面,深度学习便能模仿神经网络的特点,获取其本质的特征。2.2浅层网络的局限性传统的机器学习网络,仅仅适用于单层非线性的浅层学习结构。对于传统浅层学习的模式,已经研究的十分的深入,同时也提出了许多的模型,这些模型包括传统的隐马尔科夫模型(HMM),支持向量机(SVM),以及仅含单隐含层的多层感知器(MLP)等。这些模型的共性就是仅仅将原始的输入转换到特定的空间来进行简单的处理结构。BP算法是经典的梯度下降并且随机选择初始值的多层网络计算训练算法,然而因为输入和输出之间的非线性关系,存在能量函数使得含有多个极小的非线性空间。于是搜索的方向仅仅是使往误差减少的方向进行,致使经常收敛到局部最小,网络层数的增加能够加重这种情况。因此对于BP算法来说,是不适合进行多层网络的计算。BP算法存在的问题如下[]:

(1)梯度从上而下越来越稀疏:从最顶层越往下,误差校正信号越来越小;

(2)会收敛到局部最小值:尤其是从远离最优区域开始的时候(这是由于随机值初始化会导致这种情况的发生);

(3)一般的,我们只能用有标签的数据来训练:然而大部分的数据是没标签的,而大脑可以从一开始就没有标签的的数据中学习;由文献[6]表明,BP算法是不适用于多层隐藏层的结构运算。正是这原因导致了深度学习的进展缓慢,从而使大多数机器学习实验和信号计算从神经网络转移到相对容易训练的浅层学习结构。当前的多数分类,辨别回归等学习方法总体可以概括是浅层结构学习算法,在面对有限样本和有限计算单元下极具良好的优势,但是在对复杂函数或者是复杂非线性关系表示方面,浅层结构算法的表示能力是十分苍白的而且受到很大的局限性的。深度学习可以通过有限的样本,从样本集的特征中学习到本质的特点,展现出和浅度神经网络不一样的表示能力。在复杂函数方面的具有强大的表征能力。2.3深度学习基本思想实际日常生活中,人们为了对一个对象的分类(可能是文档、或者图像或者音频等),首先第一项必须做的事情便是如何来表达一个对象,也就是必须抽取一些特征来表示一个对象,比如在文本的处理过程中,常常用词集合来表示一个文档,又或者把文档表示在向量空间中(称之为VSM模型),然后才能提出不同的分类算法来进行分类;又比如在图像处理过程中,可以使用像素集合来表示某个图像,又或者是二值化的形式来表示,特征选取得好坏对最终结果的影响非常巨大。因此,选取什么特征对于解决一个实际问题非常的重要。然而在实际应用中,这种繁琐的选取特征的规定方法具有一些不适用的地方,对于不同的图像集合也许就必须采用不同的提取特征的方法,这使得在一些比较复杂的图像上面的特征提取上面是十分的费力的,有效的提取特征的方法很大程度上就取决于经验和一定的运气成分。因此在现今对于系统自主学习特征的功能是存在一定的需求的。深度学习就为自主学习提供了途径。深度学习(DeepLearning)的另外一个别名,是UnsupervisedFeatureLearning。顾名思义,Unsupervised是不需要人干预的意思。换句话说,这个过程就是不需要人为的去选取特征。它能够实现自动学习特征的功能,因此统称为DeepLearning。深度学习的最基本核心的思想是将输入和输出看作为等同。具体来说,就是在某种程度上假设我们有一个系统C,它有n层结构(C1,...Cn),假设它的输入是I,输出是O,那么我们可以形象地表示为:I=>C1=>C2=>=>Cn=>O.图2.3深度学习思想那么在这过程中,如果输出O等于输入I,也就是简单的说输入I经过这个系统的一系列变化之后没有任何的信息损失,即在任何一层Ci,变化的信息都是原有信息(即输入I)的另外一种表示。按照这个思路,假设我们有一系列的输入I,比如文本或者是图像,经过一系列的系统处理之后,我们调整其中的参数,使得输出还是I。从中我们便能得到每一层的特征参数,即C1,C2等等。C1在上述中,我们是严格要求输入是等同于输出的。但是在实际中,输入和输出是不可能等同的,那么我们可以略微放松限制要求,使得输入和输出是尽可能在我们的预期误差范围内。正是这种输入和输出的限制的误差,就产生了深度学习的思想[]。实际上我们是将学习结构看成是一个网络,使用无监督学习对每一层进行pre-train,然后将每一层的预训练结果作为下一层的输入,层层递进,在这过程中需要监督学习去调整每一层的参数。直至达到模型最优型。C12.4深度学习的基本模型结构常见的基础浅层学习的结构基本上是“图像语义特征加分类器”这样的结构来完成对图像的分类识别。但是由于图像本身的复杂性例如颜色,角度,灰度等等一系列的复杂部分,底层的一些视觉特征仍然和顶层的特征表示存在一些差别。深度学习便存在使用大多数情况下的良好结构。常见的深度学习模型有AutoEncoder自动编码器,SparseCoding稀疏编码,RestrictedBoltzmannMachine(简称RBM)受限制波尔兹曼机,DeepBeliefNetworks(DBN)深信度网络,ConvolutionalNeuralNetworks(CNN)卷积神经网络。2.4.1自动编码器和稀疏编码人工神经网络(ANN)自身便是一个层次结构的系统,如果将输入I和输出O等同,那么训练调整的中间层的参数,便得到I的多种表示方式,即每一层都是I的表示形式。如果在原有的特征中加入这些已经学到的中间层的权重,那么将大大提高分类的正确率。将对比之前的分类的各个算法效果更好。这便是自动编码(AutoEncoder)。然而自动编码自身带有固有的问题,例如它只是简单的将输入复制重现到输出上,虽然能完美的重现输出,但是本质上并没有提取出任何有意义的特征[]。因此在此之上我们可以加一些约束条件得到新的学习方法(SparseAutoRncoder),也就是在约束每一层的大部分的结点都是0,少数不为0,这样就可以得到稀疏自动编码器。稀疏自动编码思想就是上述2.3中提及的将输入和输出的相等的条件放宽,放松这样的限制,然后使用线性方程中的概念,也就是让O=W1xb1+W2xb2+...+Wnxbn,其中bi是基值,Wi是系数,于是就自然的引出一个值得优化的问题就是Min|I-O|。这些系数和基值就是输入的另外有一种不一样的表示方式。在学习过程中求解这些基值和系数和最优化的问题就是SparseCoding。这方法能隐性的学习到潜在的对象的基函数和系数函数。2.4.2受限制波尔兹曼机RestrictedBoltzmannMachine受限制波尔兹曼机是实质是有俩层结构[]。在此我们假设有俩个部分的层次图。层与层之间存在连接,但是每一层的节点之间不存在任何的连接。第一层是输入层,第二层是隐含层。并且我们假设隐含层和输入层的所有节点都是随机的二值量节点,即该节点的取值只能是0或者是1.同时假设该节点的分布满足玻尔兹曼分布。也就是p(v,h)满足Boltzmann分布(v是输入层,h隐含层)。我们称之为RestrictedBoltzmannMachine。图RBM结构图由于该结构是二部图,因而在已知输入层v的情况下,所有的隐藏节点之间是条件独立的(因为节点之间不存在连接),即p(h|v)=p(h1|v)…p(hn|v)。相同的道理,在已知隐含层h的情况下,v是条件分布的。所以在当前v和h满足波尔兹曼分布的时候,就能通过输入v求解出隐含层h,再通过条件分布的概念,反向求解出可视层v,进而可以调整参数,将隐含层和输入层调整至一致。这样从另外一个方面上,隐含层便是输入层的另外一种表示,也可以将其看成是可视层的一种特征。这同时也应用了2.3中的DeepLearning的思想。图RBM推导过程至于输入可视层和隐含层之间的权值如何确定,这涉及到一些数学分析和概率论极大似然问题,这里就不做详细介绍。2.4.3深信度网络在2.4.2中提及到RBM网络是一个简单的层模型,然而在实际中RBM无法完美的将一些原始数据表达出来,那么需要我们使用更加多层的结构来表达高层数据。那么可以运用RBM的思想,将隐含层的个数增加。DeepBeliefNetworks(DBNs)深信度网络是一个含有多个隐含层的概率模型,每一层从前一层的隐含单元中获得高度相关联的联系。图2.4.3RBM和DBN结构图2.4.3是一个深信度的网络示意图,深信度网络相邻俩层之间都能分解成一个单独的受限玻尔兹曼机,同样层间存在连接,但层内的单元间不存在连接。因此一个DBNs可以看成是多个RBM的累积。通过RBM的学习方法,学习到每一层的参数,包括连接权值和隐含层的权值。逐层从最底层到最高层进行训练,这一系列的过程称为预训练,也就是pre-train。然后将原始数据输入作为监督数据,采用极大似然的方法,对整个网络进行细致的微调。2.4.4卷积神经网络本次实验采用卷积神经网络的方法进行学习。卷积神经网络ConvolutionalNeuralNetworks是第一个真正意义上成功训练出多层网络结构的学习算法。它利用空间关系减少了所需学习的参数数目,从而提高一般前向BP算法的训练性能。卷积神经网络是为了最小化数据的预处理要求而作为一个深度学习架构提出。在卷积神经网络中,图像的一小部分(局部感受区域)作为层级结构的最低层的输入,将信息依次传输到不同的层,每层通过一个数字滤波器从各个特征中获取最显著的一个。这个方法能够获取对平移、缩放或者是旋转不变的观测数据的显著特征。卷积神经网络最大的显著特点便是权值和感受野共享、这一特征将其要训练的参数大大减少,从而大幅度提高训练效果和速度。卷积神经网络概述卷积神经网络是近些年来发展起来的并且引起广泛重视的一种高效识别的方法。它是十分成功的多层网络算法。由于卷积神经网络的算法避免了对图像的复杂的预处理,例如归一化,去噪等等一系列的处理,可以直接输入原始图像,因而得到了广泛的应用和研究。卷积神经网络最大的特点是局域感受野,权值共享以及次抽样。这三个方法的实现可以识别位移,缩放以及旋转不变的图像[]。感受野局域化在BP神经网络中,每一层的神经元节点和线性一维的排列形式。层和层之间实现的是去全连接。在卷积神经网络中,层和层之间的神经元节点不再是全连接,而是局部连接或者称之为感受野局域化。感受野局域化是指卷积神经网络的相邻的俩个层之间,每一网络层的神经元只有一部分是和上一层的一小部分的领域是连接在一起的,其余的部分没有连接。通过感受野的局域化,每一个的神经元可以提取出上一层的初级视觉特征,比如方向线段,端点特征[]。图感受野局域化示意图权值共享权值共享是减少参数训练的一大优点。权值共享网络结构能够使卷积神经网络更类似于生物神经网络,大大降低了网络模型的复杂性,减少了参数权值的数量。该优点在输入图像是多维图像时展现的明显,能够使图像直接作为网络的输入,不需要进行多次处理,避免了传统识别算法中复杂的特征提取和数据重建过程。图权值共享示意图最大池采样层关于卷积神经网络的另外一个概念便是最大池采样层。在数据经过卷积层时,若将所提到的特征进行分类器训练,那么会产生一个很严重的问题,就是会产生极大的计算量。比如,在对于36x36大小的图片,在卷积层定义500个5x5大小卷积核滤波器,每一个卷积核和图像滤波就会产生一个(36-5+1)x(36-5+1)维数的卷积特征图像。从而得到32x32x500=512000维的卷积特征。这样的规模的分类器的学习效果是十分差的,容易出现过拟合现象,得不到满意的结果。因此在得到大量维数的卷积特征时,我们必须进行对卷积的特征的降维,因此采用最大池采样的方法来实现该功能。最大池采样顾名思义就是实现最大化的采样,我们将featuremaps划分为多个相同大小nxn的区域且不相交。将这些区域中的最大或者是平均的特征来做代表,实现卷积特征的降维,从而更加的容易分类。最大池采样是特征分辨率减少的一个方法。通过采样将上一层的featuremaps分辨率降低,减少节点数量。一般的,卷积后通常伴随着是一个采样pool层,用来减少计算时间和空间,同时保持了结构上的基本不变性。Softmax回归函数Softmax回归函数是有监督学习算法,是在逻辑回归的延拓,目的是为了多分类的问题提供解决途径[]。目标训练的种类一般在俩种以上。研究表明,Softmax回归在MNIST手写体数字识别方面具有极佳的分类效果,该模型是对0-9十个数字进行识别分类。该算法可以和深度学习结合使用。逻辑回归中训练样本是m个带标签的样本组成{(,),(),...,()},其中输入的特征。由于逻辑回归是为了解决二分类的方法,因此在分类标签中,{0,1}。在此假设函数如下:(2.1)调整θ,使得它能最小化代价函数(2.2)然而在Softmax回归函数中,我们需要面对的是俩个以上的多种分类问题,因此{0,1,2,...,k}.对于训练样本集合x,我们可以用假设函数j来对每一个类型的概率值p(y=j|x).故而假设函数要估计出一个k维的向量来表示该k个估计的概率值的,那么可以表示成(2.3)其中是模型所具有的参数,是为了将概率进行归一化处理,使所有的概率和为1.将θ用一个kx(n+1)的矩阵表示,变如下:(2.4)现在对Softmax回归函数进行分析,以下的函数是逻辑回归函数的推广。(2.5)从上公式可以看出,Softmax回归函数和逻辑回归函数具有十分相似的地方,不同的是Softmax回归函数将样本x分类为类别j的概率为:(2.6)Softmax的代价函数的梯度公式如下:(2.7)增加了第二项的权重衰减项后,代价函数就成为一个凸函数,有效的防止了在优化过程中进入局部收敛。通过最小化代价公式J(θ),实现Softmax分类模型。卷积神经网络总体结构形式卷积神经网络的核心是卷积层和池采样层的交互存在。该模型通过极小误差方法来最小化损失函数。在卷积神经网络训练过程中,分为俩个阶段。第一阶段,向前传播阶段:从样本集中取一个样本(X,Y),将X输入网络;计算相应的实际输出Op。在此阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是网络在完成训练后正常运行时执行的过程。在此过程中,网络执行的是计算(实际上就是输入与每层的权值矩阵相点乘,得到最后的输出结果)。第二阶段,向后传播阶段。算出实际输出Op与相应的理想输出Yp的差。卷积神经网络通过反复的迭代运算训练来提高精度,下图是卷积神经网络的整体结构图:图卷积神经网络框架图一般的,卷积神经网络的前面几层是卷积层和池采样层交替构成,高层是全连接层所对应的隐含层和Softmax逻辑回归分类器,当然,最后的高层部分也可以使用支持向量机来对图像进行分类。本文的第三章所采用的卷积神经网络模型便是用Softmax逻辑回归对人脸疲劳表情做识别。基于卷积神经网络的疲劳表情识别3.1人脸疲劳识别库简介本次实验的人脸疲劳识别的数据库是笔者自己亲自收集到的疲劳图像,将人脸表情分成清醒,走神和疲劳三种状态。由于自己收集的疲劳图像的逼真程度不够高,部分的图像识别率甚至用自己去分辨都有些困难。故而在自己收集的基础上又添加了部分从其他表情库收集来的疲劳表情图像。疲劳表情图像包括从Feret,yale表情数据库中筛选出来的,还有自己拍摄的图像。其中训练样本集为400张图片,其中包括清醒状态200张,走神状态150张,疲劳状态50张。测试样本25张,清醒状态10张,走神状态8张,疲劳状态7张。训练样本和测试样本采用不一样的人,使得测试结果更加的准确。3.2关于Caffe平台本次课题采用Caffe平台进行实验,Caffe平台使由贾杨清博士开发研究出来的一个平台,适用于深度学习。该平台适用于计算构架CNN相关算法的框架,脚步编写方便,可塑性强,运算速度高效,是卷积神经网络学习的一个优秀的平台。3.3表情识别深度网络模型本次课题,采集到的疲劳图像将其进行归一化到136x136的输入大小。新构建的模型共有九层,不包含输入层。首先经过C1卷积层,一共含有12个featuremaps,也就是有12个卷积滤波器,产生12个特征图。卷积核大小为5x5。featuremaps相同层共享权值,而不同层之间权值不同,并且每个滤波器5x5=25个unit参数和一个bias参数,一共12个滤波器。因而C1层共有12x(5x5+1)=312个参数,共有312x132x132=30371328个节点。接着是经过S2的池采样层,经过C1层和S2层后,特征图像大小为66x66,特征图中每个单元和C1层中的对应的特征图2x2领域相连接。S2的pooling层是对C1中的2x2区域内的像素求和再加上一个偏置,然后将这个结果再做一次映射(Sigmoid等函数),因而相当于对S1做了降维,S2中的每个点对应C1中2x2的区域。区域中的四个元素首先相加,再乘以系数,再加上偏差。所以此处共有12x(1+1)=24个参数。S2中的每个像素都与C1中的2x2个像素和1个偏置相连接,故有12x5x66x66=261360个节点。经过C3卷积层,含有32个featuremaps,卷积大小为5x5,特征图片大小变为62x62。经过S4采样层,特征图片大小变为31x31,参数共有32x2=64个,共有31x31x32x5=153760个连接。经过C5卷积层,特征图片大小为27x27,含有50个featuremaps。经过S6采样层,含有14x14大小的特征图像,共有50个featuremaps然后是ip1卷积层。之所以不称之为全连接层是因为特征图像大小还是10x10,而不是1x1。最后的单元数是8x10x10=800个单元。ip2层有3个单元,对应的便是三种表情状态。最后一层便是输出层,将得到的特征向量输出到SoftMax逻辑回归函数进行识别分类。将模型改成这样的原因在于本课题中疲劳表情的分类只有三种,因而最后一层的featuremaps的数量就从120改成50,前面的卷积核数量也相应进行调整。本次实验中,基础学习率为0.01。3.4各层之间的可视化将各个层之间可视化有助增强对该实验的理解。首先我们来测试一张清醒的图片,如下是一张典型的清醒的人脸表情图。图3.4.1清醒表情图经过各层之后,便有如下处理图像(C5的卷积层由于模糊,故不在这里展示):图3.4.2C1层卷积图3.4.3C3层池采样可以看出,该模型很好的提取出了该脸部表情的特征。最后输出的判断直方图如下:图4.5.4输出分布直方图可以由上判断出直方图大概分布在0到1之间。根据一系列的计算,可以生成判断的概率。由下图可知,判断出1的概率最大(标签设定中1是清醒,2是走神,3是疲劳,各标签的比率总和为1)。图4.5.5最终判断折线图3.5实验数据结果3.5.1训练次数与正确率关系表3.5.1可以看出随着训练次数的增加,识别的正确率也随之增加,最后趋于稳定。可见该网络是十分的稳定的。训练次数300400500600700800900正确率70.3179.0980.1382.5483.0583.3383.33表3.5.1训练次数与正确率3.5.2错误识别数据分析由3.5.1可知,实验识别率达到83.33%,但是仍然存在一部分的错误数据识别。因此进行每一张图片的验证。在测试样本中,具体情况如下表:误识别误识别清醒走神疲劳清醒20走神31疲劳00正确表情表3.5.2混淆数据表正确表情由上表明显的可知,在大部分的判别失误出现在走神和清醒的判别,如下图所示,此为判别失败的图片:图3.5.2错误判别图片从错误图片上来看,可以分析这些图片的走神的同时其实混合着部分清醒的脸部特征,或者在清醒的同时,眼部的位置让该模型判断为走神表情。在多重混合的表情特征中会出现失误判断,这也是无法避免的情况。尤其肉眼去观察大脑也会立马无法判断出其单属某个表情。3.5.3实验模型和手写体模型对比本次实验的模型,是在著名的手写体识别模型的基础上进行改进,改进前和改进后的CNN模型作为对比,增加了一层卷积层和一层池采样层。对于疲劳人脸测试来说,改进后的模型准确率更加的高。改进后的卷积识别模型和原手写体模型的实验结果如下表:网络类型手写体模型实验模型识别率77.4383.33表3.5.3两种网络类型比较3.5.4iP1层对该卷积神经网络模型的影响实验中发现iP1层的个数是对正确率有一定的影响力。因而对其进行定量分析。ip1层卷积核数目20151085识别正确率78.2179.0979.4383.3378.62表3.5.4ip1层卷积个数对网络模型影响从表3.5.4可以得知,最后一层的网络featuremaps的个数对正确率的影响是存在的。当个数在一定范围内时候,正确率靠近这个值时正确率是不断增加的。但是在远离这个值时,正确率就会下降。当然这和要训练分类的类别有关。最后的连接层的图像是10x10,因而卷积核数量控制在10以内能够将最后长生的结点控制在百位数量级,从而减少函数的冗余和判断的失误。3.5.5与其他模型的比较在实验过程中,将实验疲劳表情卷积模型和其他的浅层学习的模型做比较。第一种模型是将脸部图片映射到低维空间,然后使用PCA算法进行分类,寻找测试图片最接近的训练图片[]。由于将其变成疲劳表情的识别存在难度,故而使用它的数据库将自己的模型带入来分辨各个表情情况。测试图片一共31张,训练样本50张。同样的实验过程,第二种模型是采用Gabor小波滤波进行表情特征提取,采用Adaboost方法进行分类。同时对图像进行加噪声和没加噪声俩种图像进行和浅度学习的做法进行结果对比。图3.5.5未加噪声和加噪声表情对比结果如下:项目手写体模型PCAAdaboost实验模型未加噪声0.7280.8160.8610.803加噪声0.7250.7420.8070.812表3.5.5多模型比较实验分析:在图片未加

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论