基于非下采样Contourlet变换的人脸表情识别算法研究(共13页)_第1页
基于非下采样Contourlet变换的人脸表情识别算法研究(共13页)_第2页
基于非下采样Contourlet变换的人脸表情识别算法研究(共13页)_第3页
基于非下采样Contourlet变换的人脸表情识别算法研究(共13页)_第4页
基于非下采样Contourlet变换的人脸表情识别算法研究(共13页)_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于(jy)非下采样Contourlet变换(binhun)的人脸表情(bioqng)识别算法研究贾函龙作者简介:贾函龙(1988-),男,辽宁丹东人,学士,助理实验师,主要研究方向: 工业自动化编程、图像处理; 王金芳 王金芳(1986-),女,河北保定人,硕士,工程师,主要研究方向:图像处理、电子线路设计。 黄利飞 黄利飞(1988-),男,河南安阳,硕士,工程师,主要研究方向:图像处理。(1 辽宁机电职业技术学院,辽宁 丹东 118000;2 燕山大学 电气工程学院,秦皇岛0662002;3杭州筹图科技有限公司 ,杭州310000)摘要:本文研究了非下采样Contourlet变换在人脸表

2、情识别中的应用,并设计了相应的算法流程。首先将人脸表情图像分割为最能表征表情信息的眼睛和嘴巴两个部分,然后利用非下采样Contourlet变换对分割的局部图像进行特征提取,最后使用极限学习机进行分类,并与BP神经网络进行对照实验。研究结果显示,表情分类平均准确率可达86.57%,比BP神经网络的分类方法平均准确率高出7.43%。而在执行速度方面,极限学习机却是BP神经网络的11.09倍,表明了本实验方案的高效性和可行性。 关键词:人脸表情识别;非下采样Contourlet变换;极限学习机;BP神经网络中图分类号: 文献标识号:Facial expression recognition base

3、d on the next sampling Contourlet transform algorithm researchJia Hanlong1, Wang Jinfang2, Huang Lifei3 (1 Liaoning Mechatronics College, Liaoning Dandong, 118000, China;2 Yanshan University, Qinhuangdao, 066200, China;3Hangzhou ChouTou Tech Co. LTD, Hangzhou, 310000, China)Abstract: this paper stud

4、ied the next sampling Contourlet transform in the application of facial expression recognition, and the corresponding algorithm design process. Facial expression of the image segmentation is the most can represent the expression information of the eyes and the mouth of two parts, and then use the sa

5、mpling Contourlet transform under the division of local image feature extraction, finally using extreme learning machine for classification, and compared with the BP neural network control experiment. The results showed that expression classification accuracy can reach 86.57% on average, than the BP

6、 neural network classification method of average accuracy higher than 7.43%. In the speed of execution method, extreme learning machine is 11.09 times that of the BP neural network show that the efficiency and feasibility of the experiment scheme.Key words: facial expression recognition; The next sa

7、mpling Contourlet transform; Extreme learning machine; The BP neural network引言(ynyn) 人脸表情含有丰富的人体行为信息(xnx),可以直观的反应一个人的心理状态。随着人机交互的研究日益得到人们(rn men)关注,人脸表情识别已经成为模式识别领域一个极具研究意义的分支。目前,应用于表情识别的方法有基于gabor小波特征的方法,基于主动形状模型(ASM)和主动外观模型(AAM)的方法,基于流形的方法等。典型的人脸表情提取主要包括人脸表情的预处理,特征提取与选择和人脸表情分类三个主要步骤。其中,表情特征的提取与选择是

8、人脸表情识别步骤中最关键的一步。如何将人脸表情预处理得到的高维数据进行快速有效的降维,是表情识别系统的核心,也是目前为止最难于有效解决的关键所在。Gabor小波可以提取多尺度、多方向的空间频率特征,在人脸识别和表情识别的应用技术中,已经取得了一定的成绩。Contourlet变换也是一种多尺度、多方向的变换,早在2002年,Martin Vetterli和M.N.Do就研究了该算法。该变换是基于小波多尺度分析的思想基础研究的一种新的多尺度多方向分析方法。该变换不仅可以实现任意方向和尺度的分解,具有同小波变换一样的优势,而且由于其在图像轮廓特征和纹理信息方面的独到的提取和描述,因而在图像处理领域具

9、有较为广泛的应用。然而,该变换在轮廓波采样过程进行了下采样转换,因此失去了平移不变性,导致在图像的恢复变换时,会造成伪吉布斯失真。为此,A.L.Cunha等人研究了非下采样Contourlet变换 ,由于取消了变换过程中的下采样,从而有效地抑制了伪Gibbs失真。鉴于Contourlet变换的缺陷,A.L.Cunha等人提出了NSCT变换。该变换是由非下采样金字塔分解 (Nonsubsampled Pyramid,NSP)和非下采样方向性滤波器组(Nonsubsampled Directional Filter Banks,NSDFB)组成的。非下采样金字塔分解通过一个双通道的滤波器组,可将信

10、号分解成一个多通和多个带通部分。1 表情图像预处理 由于拍摄环境的复杂性以及人体自身的运动,获取的人脸表情信息会受到一些干扰。因此预先对要进行特征提取和特征选择的图片(tpin)进行人脸特征区域的定位,人脸区域的几何归一化以及直方图均衡化,是有很重要的意义的4。JAFEE人脸表情库后预处理前后的图像如图1和图2所示,每行分别对应一个人的7种表情,分别为愤怒(fnn)、厌恶、恐惧、高兴、中性、悲伤和惊奇。图1 JAFFE库部分人脸表情(bioqng)图像Fig.1 JAFFE library part of facial expression image图2 经过预处理后的表情图像实例Fig.2

11、 After pretreatment of face image instance 人脸特征区域的定位采用基准特征结合仿射变换5的方法,该方法可以估计左右瞳孔的位置,然后依据左右瞳孔的坐标来确定人脸的位置,从而实现对人脸特征区域的定位。几何归一化是指图像经过尺度变换,得到统一大小的校准图像,即具有相同的高和宽,这样可以使图像在后期特征提取和特征选择阶段上具有相同的特征维数,从而简化运算。直方图均衡化可以消除部分光线和光照强度的影响,使图像动态范围增大,对比度更加扩展,有助于提高识别率。2 Contourlet变换与非下采样Contourlet变换 Contourlet变换是一种新的图像二维表

12、示算法,它的基本思想是首先用一个类似小波的多尺度分解描述出轮廓段,然后将图像数据拉普拉斯金字塔变换(Laplacian Pyramid,LP)和二维方向滤波器组(Directional Filter Bank,DFB)进行多尺度、多方向的变换。LP变换的基础是高斯金字塔,这是通过对原始图像循环进行高斯低通滤波和下采样来完成的,下采样的过程相当于带通滤波器,这样就形成了从上到下有层次的金字塔样式的图像分解,LP变换的主要功能是将图像分解为低频系数子带和高频系数子带。从根本上说,图像是由一个数值矩阵组成的。矩阵相邻的像素点可以组成短小的线条,而多个线条的聚集(jj)就形成图像的基本轮廓和纹理特性,

13、因此引入DFB滤波器组的作用就是基于方向的角度对图像进行从粗分辨率到细分辨率的特征提取。DFB滤波器组首先将LP变换得到的高频分量抽样进行多方向分解,然后通过将分布在同一方向的奇异点,合成一个系数,用类似于线段的基结构表征图像的边缘细节等几何特征,实现对图像信息的稀疏逼近。对低频子带重复上述LP和DFB分解过程即可实现(shxin)图像的多尺度多方向分解。LP分解的每一层将图像分解为高频(o pn)部分和低频部分,而DFB的优点是对于高频部分的表现更加优秀,这也就是两则叠加之后的Contourlet变换更具有优异性的原因。但是由于该变换在LP变换的分解和重构滤波器的过程中,带宽均大于。因此,对

14、滤波后的图像进行缩减下采样会产生频谱混叠。频谱混叠会削弱了Contourlet变换的方向选择性,因为同一方向的信息会在几个不同的方向子带中再次出现。同时,Contourlet变换的下采样也使该算法失去了平移不变性。鉴于Contourlet变换的缺陷的较为明显,A.L.Cunha等人提出了NSCT变换。该变换是由非下采样金字塔分解 (Nonsubsampled Pyramid,NSP)和非下采样方向性滤波器组(Nonsubsampled Directional Filter Banks,NSDFB)组成的。非下采样金字塔分解通过一个双通道的滤波器组,可将信号分解成一个多通和多个带通部分。NSCT

15、变换可以由两步组成,先将图像经非下采样金字塔分解滤波器分解为低频图像矩阵系数部分和高频图像矩阵系数部分,再由非下采样方向性滤波器将高频图像矩阵系数部分分解为若干个子带方向(见图3)图3 NSCT变换(binhun)分解示意图Fig.3 NSCT transform decomposition diagram在NSP分解过程中由于没有下采样环节,所以NSCT变换具有平移不变性,这就增强了图像特征信息的方向选择性,更好地在多尺度(chd)多方向上实现了纹理特征的描述。 因为上述两个步骤中滤波器组的下采样(ci yn)因子全部去除了,所以不会导致图像的错位,这就是该变换满足平移不变性的原因。运用该变

16、换进行图像的NSCT变换分解后,同Contourlet变换一样,会得到一个低频子带和若干个高频子带,而且随着子带层数的增加,细节被逐渐放大。 (a) 原图 (b)低频子带 (a) The original image (b) The low frequency subband (c) 第一层两个方向上的高频子带(c) The first layer of high frequency subband of two directions(d) 第二层两个(lin )方向上的高频子带(d) The second two directions on the high frequency subban

17、d(e) 第三层两个方向(fngxing)上的高频子带(e) the third layer of high frequency subband of two directions图4 人脸表情(bioqng)图像的三层分解Fig.4 The three layers of decomposition of facial expression images将JAFEE人脸表情库中的一幅图像进行NSCT变换三层分解之后,如图4所示,仔细观察图像的细微之处,我们可知,低频子带的图像系数矩阵主要描述了人脸五官的基本轮廓,对原始图像进行了低频滤波之后,图像变得模糊不清,而高频子带的图像系数矩阵则主要描

18、述了人脸五官的更细节的轮廓及纹理等信息。如第二层四个方向上的高频子带信息较为细腻的从不同方向描述了口、眼、鼻子的细节特征,验证了随着子带层数的增加,细节纹理等被逐渐放大,如第三层高频子带信息描述了更加细微的对光照等外部因素鲁棒性强的细节特征。在采用支持向量机或者极限学习机进行分类的时候,考虑该变换的平移不变性,分解次数太多会导致维数灾难。也考虑到各层子带所描述和包含的信息量,取三层NSCT变换分解,且各层方向数目为2,4,2的时候,较为理想。3. 非下采样Contourlet变换表情识别图5 非下采样Contourle变换在表情(bioqng)识别中的框架图Fig.5 The next sam

19、pling Contourle transform in facial expression recognition in the frame在人脸表情识别系统中,人脸的每个部位(bwi)对表情识别的贡献率是不同的。研究表明,眼睛和嘴唇部位,对人脸表情的识别,起着决定性的作用。因此,本算法将人脸表情分割成含有丰富表情的眼睛部位和嘴唇部位两个部分。本文在人脸表情识别技术中NSCT算法,先用该算法进行人脸表情关键区域的特征选择,其中,在人脸表情的非下采样Contourlet特征融合之后,因为维数较大(如选取JAFFE人脸表情库的210幅图片,特征提取然后融合之后可达210*101025维),直接带

20、入分类器的话,会引起维数灾难,而且会极大的降低分类器的分类效率。为此,在把特征提取之后的数据引入分类器之前,应先进行数据压缩,以避免维数灾难。本文引入PCA方法进行维数约简。然后引入主成分分析算法进行特征提取,最后采用极限学习机(extreme learning machine,简称ELM)进行表情分类,并与BP神经网络分类算法进行识别(shbi)正确率和识别效率的对比。4 极限(jxin)学习机(ELM)2004年,新加坡南洋理工大学的黄广斌副教授研究极限学习机(Exteme Learning Machine,ELM)算法。该算法是一种简单小巧、速度极快的单隐层前馈神经网络学习算法。传统的神

21、经网络学习算法,比如BP神经网络,不仅容易产生局部最优解,而且(r qi)在训练时,需要人为设置大量的训练参数。极限学习机则小巧迅速的多,具有学习速度快且泛化性能好的优点,这是因为该算法简洁在只需要提前人为(rnwi)设置网络的隐层节点数目,在算法运行过程中不仅不需要调整网络的输入权值和隐元的偏置大小,而且最后只产生唯一的最优解。因此,近年来,ELM也已经成为神经网络研究领域的一个研究热点,并成功应用于手写数字识别、人脸识别、时间序列预测等领域。以下介绍ELM算法的工作原理。已知给定N个不同的样本D=(xi ,yi)|xi Rn, yi Rn , i=1,2,3,,M。ELM算法是前馈神经网络

22、,主要用于训练单隐含层,这点与BP神经网络不同,BP神经网络可以手动设置隐含层数目。那么,该神经网络的数学模型可以表述为: (1)其中,M表示隐含层的结点个数。上式可以简称成 (2)其中,H为隐层输出矩阵,表达式为: (3) (4) (5)在式(3)中,行代表训练样本所有隐结点(ji din)的输出。ELM算法是一种速度极快的单隐层前馈神经网络学习算法。其算法根据相关原理可以较为简略(jinl)的总结为如下几步:第一步,通过随机初始化的方式(fngsh),对偏置和权值进行随机赋值。这一步由于不需要调整网络的输入权值和隐元的偏置大小,大大提高了ELM算法的运行速度。第二步,计算隐含层输出矩阵H。

23、利用公式(4),求得训练样本所有隐节点的输出,并将其计算成矩阵的形式。第三步,近似求解权值,通过式,即可求得计算隐含层到输出层的权值。5实验结果运用非下采样Contourle变换的方法,对人脸表情图像进行特征提取,并用PCA算法进行特征选择,最后以BP神经网络和极限学习机(ELM)进行分类。本章实验中所使用的数据库是日本的JAFFE表情库,该图像库由有10个女性的7种表情(生气、厌恶、恐惧、高兴、悲伤、惊讶和中性),共计213幅图像组成。本算法选取每人每种表情3幅,七种表情共210幅表情图像来进行实验。将每幅人脸表情图像经过几何归一化、直方图均衡化等预处理后,可以得到每幅像素点为130130的

24、统一大小的图像。实验采用三层NSCT变换分解,且各层方向数目为2,4,2,并将“PKVA”作为默认的滤波器。所以,每张人脸表情经变换后可以得到7个子带特征信息。为了做到与人无关的表情识别,在表情的分类环节,引入BP神经网络和ELM算法进行对照试验,并且随机选择每类表情的25幅表情图像作为训练集,其余5幅表情图像作为测试集。实验中BP神经网络和ELM算法的激励函数都是S型函数。实验重复10次以降低随机性。 表1 JAFFE数据库人脸表情识别率 (%) Table.1 JAFFE facial expression recognition database (%)方法12345678910平均识别

25、率BP-NN74.2994.2971.4371.4374.2980.0085.7177.1482.8680.0079.14ELM85.7191.4388.5782.8682.8694.2982.8677.1488.5791.4386.57由表1我们可以看出,经过非下采样Contourle变换提取后,使用极限学习机的表情分类平均准确率可达86.57%,比使用BP神经网络的分类方法平均准确率高出7.43%。而在执行时间方面,如表2所示,BP神经算法执行十次的平均时间为6.82s而,ELM算法仅为0.92s,我们可知极限学习机的速度(sd)BP神经网络的11.09倍,可见ELM算法的高速性和高效性。

26、 表2 JAFFE数据库人脸表情(bioqng)识别的执行时间 (s)Table.2 the execution time of the JAFFE facial expression recognition database (s)方法12345678910平均执行时间BP-NN9.829.509.709.609.719.519.609.729.509.829.65ELM0.870.860.840.850.900.850.940.860.850.840.87本文还分析了各类表情识别的相关分布,如表3所示。我们可以的看到,分类正确率最低的是恐惧和厌恶,分别只有76%和80%。在恐惧表情的分类中

27、,表情大多被错分为(fn wi)厌恶和愤怒,在厌恶表情的分类中,表情大多被错分为愤怒和恐惧。可以表明这四种表情在JAFFE库上的表情单元的相近性,以致于无法使用NSCT变换提取出精确的表情特征。表3 JAFFE表情库六类基本表情识别分布Table.3 JAFFE expression library distribution of six basic facial expression recognition表情类别识别次数识别率(%)愤怒厌恶恐惧高兴悲伤惊奇愤怒481100096.00厌恶540302080.00恐惧233801076.00高兴000453290.00悲伤013341282.

28、00惊奇000204896.00在六种基本(jbn)表情的实验分类结果中,可以通过绘制直方图来更加简明的进行对比分析,如图6所示。各类表情中分类正确率最高的愤怒、惊奇和高兴,分别达到了96%,96%和90%。各种表情的识别率相对来说都是比较高,这表明了本算法(sun f)在实现表情正确分类上的有效性。图6 人脸六种表情(bioqng)基本表情的识别率Fig.6 Face six basic facial expression recognition rate expressions本文所提方法比所提方法提高了8%-12%,如表4所示,显示了文献报道中不同的方法在JAFFE表情数据库中的识别率,

29、可知本文所研究的方法的测试结果优于文献报道结果进一步表明了本算法的有效性。 表4 不同方法在JAFFE库上的识别率 (%)Table.4 different methods on the JAFFE library recognition rate (%)算法识别率Gabor滤波器+SVM79.10基于Gabor和LBP集成79.40Contourle变换+LPP+SVM75.24本文算法86.576 结论及展望本文研究将NSCT变换用于人脸表情的特征提取,最后使用极限学习机进行分类,并将实验结果与BP神经网络算法进行对比。详细描述了实验结果中各类表情的识别率,通过各类表情识别率都比较高的结果,表明本方法的有效性和高效性。NSCT算法中,并没有对NSCT各层分解方向数目做具体的探讨;在表情分类时,ELM算法和BP神经网络各自(gz)的参数寻优并没有深化,因此(ync)对NSCT算法各层分解方向数目(shm)做具体的探讨,进行深化的参数寻优,有望进一步提高识别效果。参考文献1 Huang G, Zhou H. Extreme learning machine for regression and multiclass cassificationJ. Systems,Man, and Cybernet

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论