《模式识别原理与应用》课件第13章_第1页
《模式识别原理与应用》课件第13章_第2页
《模式识别原理与应用》课件第13章_第3页
《模式识别原理与应用》课件第13章_第4页
《模式识别原理与应用》课件第13章_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第13章图像识别13.1图像识别的基本原理13.2人脸识别13.3签名识别13.4车牌识别习题13.1图像识别的基本原理如图13-1所示,一个图像识别系统主要包括三个部分:图像信息的获取、特征提取和分类判决。图像信息的获取就是把图片、底片、文字图形等用扫描设备变换为电信号以备后续处理;特征提取就是抽出能反映事物本质的特征;分类判决是根据所提取的特征做出分类结论的过程。其中,特征提取和分类判决关系密切。图13-1图像识别流程框图

1.统计图像识别方法统计图像识别方法以统计模式识别为基础,采用特征向量描述图像模式,根据决策函数进行模式判决分类。不同的决策函数对应不同的模式分类方法。目前主要的统计图像识别方法有两类:基于似然函数的模式分类方法(例如Bayes判决准则、Fisher判决准则等)和基于距离函数的模式分类方法(例如KNN方法)。

2.结构图像识别方法结构图像识别方法以结构模式识别为基础,采用形式语言理论的概念描述图像模式。它分析图像的结构,把复杂结构的图像看成是由简单的子图像所组成,又把最简单的子图像作为基元,从基元的集合出发,按照一定的文法(构图规则)去描述较复杂的图像。在结构图像识别中,给定一个输入模式基元串,判别其是否被文法识别器(又称自动机)接受。

3.模糊图像识别方法

模糊图像识别方法以模糊模式识别为基础,采用模糊集合的概念代替确定子集,从而得到模糊的识别结果。模糊图像识别利用模糊信息进行图像模式决策分类,使计算机或机器带有接近人类的智能。

4.神经网络图像识别方法神经网络图像识别以神经网络模式识别为基础,利用人工神经网络的学习能力和容错性进行图像识别。神经网络分类器不需要对输入的模式做明显的特征提取,网络的隐含层本身就具有特征提取的功能,特征信息体现在隐含层连接的权值之中。此外,神经网络的并行结构决定了它对输入模式信息的不完备或特征的缺损不敏感。图像识别的应用十分广泛,例如,身份认证中的人脸识别、虹膜识别、指纹识别和签名识别,办公自动化中的光学字符识别,交通管制中的车牌识别,机械加工中零部件的识别、分类,从遥感图片中分辨农作物、森林、湖泊和军事设施,气象观测数据或气象卫星照片准确预报天气等。13.2人脸识别人脸识别技术就是利用计算机技术从人脸图像中分析提取出有效的识别信息来“辨认”身份的技术。人脸识别已成为计算机视觉和模式识别领域最具挑战的研究内容之一。人脸识别技术广泛应用于智能人机接口、视频会议系统、犯罪身份识别、有效证件的核对、各种安全检测及机器视觉监控等领域。人脸识别方法大致可分为几何特征法、模板匹配法和模型法。

(1)几何特征法是通过提取人脸的几何特征,包括人脸部件归一化的点间距离和比率以及人脸的一些特征点(如眼角、嘴角、鼻尖等),构成二维拓扑结构进行识别。人脸识别要求所构造的几何特征既要清晰区分不同对象人脸的差异,又要对光照背景条件不敏感。常规的几何特征量很难满足这些要求,从而该方法的识别效果不理想。

(2)模板匹配法是利用人脸的全局特征,根据人脸模板和相关参数来进行识别的。这种方法简单易行,但对人脸角度、大小和光照条件这些全局特征非常敏感,对人脸本质区别的细节特征并不敏感。模板匹配法优于几何特征法。

(3)模型法是通过统计分析和匹配学习找出不同人脸之间的区别。该方法包括特征脸方法(Eigenface)、费歇尔脸(Fisherface)方法、神经网络方法和HMM方法等。与模板匹配法相比,模型法的模板是通过样本学习获得的,而非人为设定的。因此,该方法从原理上更为先进合理,实验中也表现出更好的检测和识别效果。特征脸方法是建立在主分量分析(PrincipleComponentAnalysis,PCA)基础上的;费歇尔线性判别(FisherLinearDiscriminantAnalysis,FLDA)使类间离散度矩阵和类内离散度矩阵之间的判别式的比率达到最大;费歇尔脸方法是PCA与FLDA的结合。

本节以一种基于支持向量机和小波变换的人脸识别方法为例,介绍人脸识别。首先利用小波变换把人脸图像分解为3层;然后,把费歇尔脸方法分别应用到不同分辨率上的3个低频子图,得到3个分类结果;最后,利用SVM网络融合3个分类结果,得到最终的分类决策。13.2.1费歇尔脸方法费歇尔脸方法是PCA与FLDA的结合,它包含两步:先利用PCA把人脸模式从高维图像空间映射到低维空间,然后利用FLDA根据特征向量进行判别。假设一幅人脸图像是一个2-Dp×q阵列,把图像zi按列的顺序拉直为一个d=p×q维的列向量。Z={z1,z2,…,zN}为训练集合,包含N个图像。协方差矩阵定义为(13-1)其中(13-2)令e1,e2,…,er为R的r个最大特征根对应的特征向量,以它们为列向量组成矩阵E=(e1,e2,…,er)。把原始图像集合Z={z1,z2,…,zN}投影到PCA变换空间,得到相应的特征向量集合Y={y1,y2,…,yN},其中(13-3)在第二步中,把FLDA应用于Y={y1,y2,…,yN}。假定训练集合的N个图像包含m类。类间离散度矩阵定义为(13-4)类内离散度矩阵定义为(13-5)其中:Ni为第i类Ci包含的样本个数;为所有样本的均值;

为第i类Ci的均值。最优投影矩阵为正交列向量组成的矩阵,使类内离散度矩阵的判别式达到最小,同时使类间离散度矩阵的判别式达到最大,即(13-6)其中,w1,w2,…,wm-1为SB和SW的广义特征向量,对应m-1个最大广义特征根η1,η2,…,ηm-1,即(i=1,2,…,m-1)(13-7)由于SB是m个矩阵之和,其中每个矩阵的秩至多为1,因此,SB的秩至多为m-1。训练图像zi的特征向量vi为yi在FLDA-变换空间的投影:(i=1,2,…,N)(13-8)对于一幅测试图像,利用上式提取其特征向量,然后与训练图像的特征向量进行比较,得到分类结果。一般使用最近均值原则:计算测试图像的特征向量与每一类训练图像的特征向量的均值之间的距离,选择最近的类别作为识别结果。在费歇尔脸方法中,为了确定r,把协方差矩阵R的特征根λi(i=1,2,…,d)按降序排列,选择r为满足下式的最小的k:(13-9)其中,P为接近于1的常数。13.2.2小波分解小波分解是一种有效的多分辨分析工具,它把信号分解为不同的频段。利用小波变换,先对一幅图像的行作低通滤波和高通滤波,再对列作低通滤波和高通滤波,得到一个低频近似子图和3个高频细节子图,如图13-2所示。图13-2二维小波分解的结构示意图其中,H和L分别表示高通滤波和低通滤波,“↓2”表示2取1的抽样。分解一层时,得到4个子图(LL1,LH1,HL1,HH1);作第二层分解时,用同样的方式对低频近似子图LL1进行分解,也得到4个子图(LL2,LH2,HL2,HH2);作第三层分解时,用同样的方式对低频近似子图LL2进行分解,也得到4个子图(LL3,LH3,HL3,HH3);依次类推,图像的3层小波分解示意图如图13-3所示。图13-4是灰度图像Lena512×512,图13-5是Lena的小波分解(分解3层)。图13-3图像的小波分解示意图图13-4

Lena512×512的原图图13-5

Lena512×512的小波分解13.2.3基于小波变换与SVM的人脸识别

假定训练集合为Z={z1,z2,…,zN},包含m个类别。算法由以下三步组成:

(1)利用小波变换把图像分解为3层,得到3个近似图像LL1、LL2和LL3。一般采用Daubechies小波滤波器。把原始训练集合Z={z1,z2,…,zN}转换为3个训练集合,即把同一分辨率的子图构成一个训练集合。

(2)把费歇尔脸方法分别应用于3个训练集合,得到3个分类器:分类器1、分类器2和分类器3。在PCA变换中,为了确定r,取P=95%。计算测试图像的特征向量与训练图像的特征向量的欧氏距离,并把它们转换成隶属度:(i=1,2,3;j=1,2,…,N)(13-10)其中:i是3个分类器的编号;j为训练图像的编号;dij为第i个分类器中测试图像的特征向量与第j个训练图像的特征向量的欧氏距离;为第i个分类器的平均距离。第i个分类器中,测试图像属于第k个类的隶属度为(i=1,2,3;k=1,2,…,m)(13-11)其中:Ck为第k类的样本集合;Nk为Ck中样本的个数。对于固定的分类器i,最大隶属度原则是指,选择k0满足:(13-12)把测试图像识别为第k0类。

(3)利用SVM网络融合上述3个分类器。给定测试图像,对于分类器i(i=1,2,3),得到m个隶属度μik(k=1,2,…,m),构成1个隶属度向量。3个隶属度向量连接成为1个尺寸为3m的隶属度特征向量。训练SVM网络来融合3个分类器的结果,其输入为隶属度特征向量,输出为输入图像所属的类别号。选择FERET数据库“b”中40个个体,其标号为1141~1180。对于每个个体,选取7幅图像:ba,bj,bk,bd,be,bf和bg。它们是8bit人脸灰度图像,具有不同的姿态和明暗变化。原始图像的尺寸为384×256,将其降为192×128。在每一次实验中,对每个个体随机选择6幅图像作为训练集合,剩下的一幅作为测试图像。做100次识别实验,统计识别率的均值和方差。采用db4把图像分解为3层,并考虑边界效应,得到LL1、LL2和LL3,它们的尺寸分别为99×67、53×37和30×22。表13-1给出了费歇尔脸方法的不同分类规则的结果,包括最大隶属度原则(LM)、最近均值原则(NM)和SVM分类原则。测试图像包括原图、LL1、LL2和LL3。SVM分类中,核函数采用多项式函数,用一对一的方法解决多类问题。实验结果表明,基于小波变换与SVM的人脸识别优于不同分类规则下的费歇尔脸方法,包括最大隶属度原则(LM)、最近均值原则(NM)和SVM分类原则。13.3签名识别13.3.1签名图像预处理与特征提取

在脱机签名识别中,特征可以从签名图像的各种信息载体中提取,这些信息载体包括灰度签名、二值签名、签名骨架以及签名轮廓。通过灰度滤波、归一化、二值化和细化等预处理操作,可以得到归一化的只包含签名轨迹的灰度签名、归一化的二值签名和归一化的签名骨架。图13-6给出了一幅签名图像的预处理结果。图13-6签名图像的预处理结果(a)原签名图像;(b)归一化的二值签名;(c)归一化的灰度签名;(d)归一化的签名骨架

1.伪动态特征人们在书写签名时,运笔过程的轻重缓急及笔划的方向都形成了一定的习惯,对应的签名图像的灰度级的分布也具有一定的稳定性,根据这一点可以从签名图像的灰度信息中提取伪动态特征。伪动态特征包含高灰度区域和灰度重心两组特征。前者是个五维向量,其各维分别对应高灰度区域面积占整个签名面积的比例,以及根据归一化二值签名重心划分的四个子区域的高灰度区域面积占整个高灰度面积的比例。后者为归一化灰度签名图像重心的相对横坐标和相对纵坐标。签名中灰度较高的区域称为高灰度区域,它代表签名笔划中书写力度较大的区域,如重笔、顿笔及笔划交叉重叠的部分。高灰度区域是根据一定的阈值从归一化的灰度签名图像中提取出的。为了使高灰度区域的提取具有适应性(与签名时用笔、纸无关),可用动态阈值法获取阈值,该阈值取为前景灰度频率峰值的70%处对应的两个灰度中较大的一个。高灰度特征定义为高灰度区域的像素点数与灰度签名中前景像素点的比值。根据对应的二值签名的重心,把归一化的灰度签名图像分为4个矩形区域。按上面的定义,提取四个子区域的高灰度特征,这样得到的五个高灰度特征构成了一个五维的特征向量。特征向量的每维取值在0~1之间,并具有大小、平移不变性。高灰度特征从归一化的灰度签名中提取得到。签名骨架方向灰度特征是将笔划方向与灰度相结合。其提取方法是统计归一化的灰度骨架签名上各点在水平(0°方向)、垂直倾斜(90°方向)、正倾斜(45°方向)和负倾斜(135°方向)四个方向上的累计灰度,由此形成一个四维向量(G1,G2,G3,G4),然后将其归一化到0~1之间,即得到签名骨架方向灰度特征:(13-13)

2.Zernike矩特征

Zernike矩特征取的是阶为10的前36个Zernike矩,是一个36维的向量。复数Zernike矩是从Zernike多项式得到的:(13-14)(13-15)其中:ρ为从(x,y)到形状质心的半径;θ为ρ与x轴之间的夹角;n、m为整数,满足n-|m|为偶数且|m|≤n。Zernike多项式为单位圆(x2+y2≤1)内一组正交的复值函数完备集。阶(order)为n、重(repetition)为m的复数Zernike矩定义为(x2+y2≤1)(13-16)这里*表示复数共轭。直到阶为10的前36个Zernike矩如表13-2所示。由于Zernike基函数的定义域在单位圆内,因此在计算Zernike矩之前,必须指定此单位圆。在实现时,将所有的形状都归一化到单位圆内。单位圆以形状质心为中心,这就使得到的Zernike矩具有平移和尺度不变性。仅利用Zernike矩的幅度作为形状描述,可得到旋转不变性。再将得到的幅度除以形状质量将其归一化到[0,1]区间。

Zernike矩的思想与傅里叶变换的思想是类似的,即将信号扩展为正交基序列的组合。然而,在计算Zernike矩描述符时不需要知道边界信息,因此它更适用于描述复杂形状。和傅里叶描述符一样,也可以构造任意高阶的Zernike矩,这就克服了高阶几何不变矩很难构造的缺点。对形状表示的准确程度依赖于从扩展式中截取的矩数目。

3.几何特征

几何特征是从归一化的签名骨架中提取的,包括签名骨架的相对面积、宽高比、水平和垂直方向的相对重心、基线偏移量和笔画倾斜度。

1)签名骨架相对面积签名骨架相对面积是归一化二值签名骨架中黑色像素点的数量与总像素数的比值,它从一个侧面反映了签名中的笔画特征。

2)签名图像宽高比签名图像宽高比就是归一化的签名外边框的高度与宽度之比。一个人签名的高度和宽度之比是相对稳定的,可以将其作为一个特征用于身份识别。由于经过预处理得到的归一化二值签名骨架已经去除了四周的背景区域,故直接用归一化二值签名骨架的高度除以宽度即可得到签名图像宽高比。之所以用高度除以宽度,是因为一般签名都是宽大于高,这样可以使得宽高比的取值在0和1之间。

3)签名骨架水平和垂直方向的相对重心签名骨架水平和垂直方向的重心由下式计算得到:(13-17)(13-18)其中:M、N分别是归一化的二值签名骨架图像的宽度和高度;b(x,y)是归一化的二值签名骨架中位置(x,y)处的值,若该点在签名骨架上,则取值为1,否则取值为0。将得到的重心分别除以宽度和高度,即可得到水平和垂直方向的相对重心。

4)基线偏移量(BLS)基线偏移量表明签名轨迹相对于水平方向的整体偏离程度。可简单地把归一化的二值签名骨架分成等宽的左右两部分,以两子图像重心的纵坐标差值作为基线偏移量。这样得到的基线偏移量在0上下取值,且其值一般不会超过高度的一半,为将其归一化到0和1之间,将纵坐标之差除以签名高度,然后将这个比值加上0.5,即得到最终的基线偏移量:(13-19)其中:和分别是右半部分签名和左半部分签名的重心;N是签名的高度。

5)笔画倾斜度笔画倾斜度包括垂直像素比和正倾斜像素比,它们分别是通过统计垂直像素和正倾斜像素占签名骨架像素的比例得到的。对骨架上的任一点(x,y),若(x,y-1)处的像素点也在骨架上,则认为(x,y)是一个垂直像素;若(x+1,y-1)处的像素点也在签名骨架上,则认为(x,y)同时也是一个正倾斜像素。统计所有的垂直像素和正倾斜像素即可得到对应的笔画倾斜度。13.3.2基于证据理论融合的签名识别在脱机签名识别中,只使用基于单一特征的神经网络分类器一般难以取得理想的识别效果。要获得满意的性能,有必要综合利用反映签名不同特性的各类特征来训练神经网络。但是,如果简单地将多类特征直接输入单个神经网络分类器进行训练,会导致网络规模过大,从而使网络的训练变得非常困难,甚至成为一件难以完成的事情。一个合理的解决方法是使用多个小规模的神经网络分类器针对不同类别的特征分别进行训练,然后组合多个小规模神经网络分类器的判决得到最后的识别结果。这样做可以降低网络规模,从而降低训练复杂度,同时也可以获得较高的性能。

1.基于证据理论融合的签名识别流程基于证据理论融合的签名识别流程如图13-7所示。首先,从签名图像的三种信息载体中提取三种识别用特征:伪动态特征、Zernike矩特征和几何特征;然后,将这三种特征分别输入BP神经网络分类器得到3个初步识别结果;最后,以这3个结果为证据,利用证据理论对它们进行融合,得到最终识别结果。图13-7基于证据理论融合的签名识别流程

2.BP神经网络分类器对于伪动态特征、Zernike矩特征和几何特征,利用每种特征分别训练一个单隐含层的BP神经网络分类器,每个分类器的输入节点数由对应的特征维数决定,而输出节点数则是签名的类别数。由此构造的3个BP神经网络分类器的输入层节点数分别是7、36和7,输出层节点数则为25,对应签名的类别数。

3.证据理论融合只使用一种特征得到的正确识别率一般难以达到实用要求,需要综合利用从签名图像中提取的多种特征以提高系统识别率。我们将每种特征对应的神经网络分类器的输出作为一条证据,利用证据理论对来自不同分类器的识别结果进行融合,从而得到最终的识别结果。分类器的输出有三个层次,分别是抽象层输出、排序层输出和度量层输出。神经网络分类器的输出结果在度量层上,比抽象层输出和排序层输出能够提供更多的信息。同时,考虑到分类器本身的可靠性不可能达到100%,我们把不可信的部分赋值给整个辨识框架。假设一个神经网络分类器在测试集上得到的正确识别率是εr,则认为该分类器的输出结果的可靠程度为εr,而其对整个辨识框架的支持度则被认为是1-εr。设T1,T2,…,TM为总的签名类别数,共M类,令辨识框架Θ={T1,T2,…,TM}。若一个神经网络分类器的可靠度为εr,分类器的输出为y1,y2,…,yM,将其归一化为y′1,y′2,…,y′M,即可得到该分类器对应的证据m:(13-20)(13-21)利用Dempster证据理论合成公式分别对三个分类器提供的三条证据进行合成,得到新的证据m。也可以采用如下改进的证据理论合成公式,则n个证据m1,m2,…,mn的合成结果为(13-22)(13-23)其中,m∩(A)为证据的交运算:(13-24)为证据之间的冲突概率;这里,把证据冲突概率按各个命题的平均支持程度加权进行分配,即(13-25)q(A)为证据对A的平均支持程度。由于组合后的新证据的焦元是单元素集,因此对应的信任函数为(13-26)取具有最大信任度函数对应的类别作为融合后的识别结果。

4.实验结果实验所用的一个测试签名数据库包括不同年龄段的17位男性、8位女性,共25人,每人8个签名,共200个签名。对每个人的8个签名,取其中的6个签名作为参考签名,另外2个用于测试。随机生成参考集与测试集,并重复多次实验,取平均识别率作为实验结果。表13-3给出了10次实验的结果,作为比较,表中同时给出了各种特征分别通过BP神经网络分类器得到的识别结果。由表13-3可以看出,基于证据理论的融合签名识别方法能有效提高系统的正确识别率,并且,利用改进的合成公式得到的识别结果要好于基本合成公式(Dempster)。13.4车牌识别13.4.1车牌识别系统简介如图13-8所示,车牌识别系统主要由三部分组成:图像输入、牌照定位与分割、字符识别。图13-8车牌识别系统流程图图像输入是指利用摄像机获取包含车辆的图像。在摄像机前方的检测点安装传感器,当汽车通过检测点时,传感器向主机发出信号,系统自动摄下车辆的图像,并将图像输入计算机。牌照定位与分割是在包含车辆的图像中找到牌照区域的位置,并把牌照区域分割出来,得到牌照图像。牌照定位决定其后的车牌字符识别,因此牌照定位是识别系统的关键。字符识别就是采用光学字符识别(OCR)技术对牌照图像进行识别,得到车牌号码,包括汉字、英文字母和阿拉伯数字。在牌照识别中,需要利用光学字符识别(OCR)技术识别出牌照图像中的印刷体汉字、英文字母和阿拉伯数字,得到车牌号码。可以根据目前标准车牌中字符的具体排列顺序,设计不同的分类器。其中:印刷体汉字包括各省、直辖市的简称或军警;英文字母为26个大写字母;阿拉伯数字为0,1,…,9。光学字符识别先要使识别系统学习待辨识字符的特征,然后再利用这些先验知识对输入图像进行判决,得到字符的识别结果。字符的特征包括平面上的点阵位置特征、频率特征、投影特征、语义特征等。光学字符识别已经比较成熟,达到了实用水平。下面简要介绍车牌图像定位分割。13.4.2车牌图像定位分割算法

经过大量实验数据发现,所有车辆牌照具有以下特征:

(1)目前车辆牌照的具体排列格式是由一个省份汉字(军警牌则为其他字)后跟字母或阿拉伯数字组成的7个字序列。标准车牌的具体排列格式是:X1X2·X3X4X5X6X7,X1是各省、直辖市的简称或军警,X2是英文字母,X3X4是英文字母或阿拉伯数字,X5X6X7是阿拉伯数字。除第一个汉字外,字母或数字的笔画在竖直方向都是连通的。

(2)车辆牌照区域牌底与牌字颜色相差较大,边缘非常丰富。

(3)车辆牌照子图像区域长高比例一定,车牌原始尺寸每个字宽45mm,字高90mm,间隔符宽10mm,每个单元间隔12mm。根据汽车牌照的特点,需要充分利用这些特征,并结合一系列图像处理,对车辆牌照进行定位与分割。车辆牌照定位与分割算法的关键步骤主要包括灰度化、灰度拉伸、边缘检测与模板匹配。

1.灰度化

为了便于后续的快速图像处理,以及对不同颜色的车辆牌照进行统一处理,需要把摄像头拍到的含车辆的图像由24位真彩色转化成灰度图。一般采用现行标准的平均值法:其中:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论