版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章引言人脸识别技术的应用与难点人脸是自然界存在的一种特殊的、复杂的视觉模式,它包含着极其丰富的信息。首先,人脸具有一定的不变性和唯一性,人脸识别是人类在进行身份确认时使用的最为普遍的一种方式,其次,人脸图像还能提供一个人的性别、年龄、种族等有关信息。人类在人脸识别中所表现出来的能力是令人惊异的,但是让计算机能够识别人脸,却是非常困难的问题。迄今为止,人脸识别的认知过程和内在机理仍然是一个未解之谜,如何实现一个自动的人脸识别系统仍然是一个悬而未决的难题。从上个世纪六十年代以来,随着计算机和电子技术的迅猛发展,人们开始利用计算机视觉和模式识别等技术对人脸识别进行研究。近年来,随着相关技术的不断发展和实际需求的日益增加,人脸识别已经引起了越来越多的关注,成为了信息处理和人工智能等领域研究的热点之一,新的研究成果和实用系统也不断涌现。人脸识别技术的广泛应用一项技术的问世和发展与人类的迫切需求是密切相关的,飞速发展的社会经济和科学技术使得人类对安全(包括人身安全、隐私保护等)的认识越来越重视。人脸识别的一个重要应用就是人类的身份识别。一般来说,人类的身份识别方式分为三类:a.特殊物品,包括各种证件和凭证,如身份证、驾驶执照、房门钥匙、印章等;b.特殊知识,包括各种密码、口令和暗号等;c.人类生物特征,包括各种人类的生理和行为特征,如人脸、指纹、手形、掌纹、虹膜、DNA、签名、语音等。前两类识别方式属于传统的身份识别技术,其特点是方便、快捷,但致命的缺点是安全性差、易伪造、易窃取。特殊物品可能被丢失、偷盗和复制,特殊知识容易被遗忘、混淆和泄露。相比较而言,由于生物特征是人的内在属性,具有很强的自身稳定性和个体差异性,因此生物特征是身份识别的最理想依据。基于以上相对独特的生物特征,结合计算机技术,发展了众多的基于人类生物特征的身份识别技术,如NDA识别技术、指纹识别技术、虹膜识别技术、语音识别技术和人脸识别技术等。表1-1为各种生物识别技术的综合比较。表1-1各种生物特征识别技术的综合比较生物识别技术在上个世纪己经有了一定的发展,其中指纹识别技术己经趋近成熟,但人脸识别技术的研究目前还处于起步阶段。指纹、虹膜、掌纹等识别技术都需要被识别者的配合,有的识别技术还需要添置复杂昂贵的设备。人脸识别则可以用已有的照片或是摄像头远距离捕捉图像,无须特殊的采集设备,系统的成本低。并且自动人脸识别可以在当事人毫无察觉的情况下即完成身份确认识别工作,这对反恐怖活动等有非常重大的意义。由于人脸识别技术具有如此之多的优势,因此它的应用前景非常广阔,已成为最具潜力的生物特征识别技术之一。本文将人脸识别技术的各种应用及其特点总结在表1-2中。表1-2人脸识别技术的应用人脸识别最初的应用源于公安部门关于罪犯照片的存档管理和刑侦破案。现在该技术在安全系统、商业领域和日常生活中都有很多应用,主要有以下几类应用:1.刑侦破案。当公安部门获得罪犯的照片后,可以利用人脸识别技术,在存储罪犯照片的数据库中找出最相像的人作为嫌疑犯,极大的节省了破案的时间和人力物力。还有一种应用就是根据目击证人的描述,先由专业人员画出草图,然后用此图到库里去找嫌疑犯。罪犯数据库往往很大,由几千幅图像组成。如果这项搜索工作由人工完成,不仅效率低,而且容易出错,因为人在看了上百幅人脸图像后,记忆力会下降,而由计算机来完成则不会出现此问题。2.证件验证。身份证、驾驶执照以及其他很多证件上都有照片;现在这些证件多由人工验证完成。如果应用人脸识别技术,这项工作就可以交给机计算机完成,从而实现自动化及智能管理。当前普遍使用的另一类证件是用符号或者条形码标记的,比如信用卡。这类卡的安全性比较低,可能遗失、被窃取,使用场合(比如自动提款机)的安全性也比较差。如果在这类卡上加上人脸的特征信息,则会大大改善其安全性能。3.入口控制。需要入口控制的范围很广,它可以是重要人物居住的住所、保存重要信息的单位,只要人类觉得安全性比较重要的地点都可以进行入口控制,比较常用的检查手段是核查证件。人员出入频繁时,保安人员再三检查证件是很麻烦的,而且证件安全性也不高。在一些保密要求非常严格的部门,除了证件外,已经使用了生物特征识别手段,如指纹识别、掌纹识别、虹膜识别和语音识别等。人脸识别与这些技术相比,具有直接、方便和友好的特点。当前计算机系统的安全管理也备受重视,通常使用由字符和数字组成的口令(Password)进行使用者的身份验证,但口令可能被遗忘,或被破解,如果将人脸作为口令,则既方便又安全。4.视频监控。在银行、公司、公共场所等处设有24小时的视频监控,如何对视频图像进行筛选分析,就需要用到人脸检测、跟踪和识别技术。除了以上应用外,人脸识别技术还可以用于视频会议、机器人的智能化研究等方面。尤其从美国事件后,人的身份识别问题更是提升到了国家安全的角度,如何利用人脸信息迅速确定一个人的身份成了各个国家重点研究的技术。人脸识别技术的难点虽然人类可以毫不困难地根据人脸来辨别一个人,但是利用计算机进行完全自动的人脸识别,仍存在许多困难。人脸模式的差异性使得人脸识别成为一个非常困难的问题,表现在以下方面:1.人脸表情复杂,人脸具有多样的变化能力,人的脸上分布着五十多块面部肌肉,这些肌肉的运动导致不同面部表情的出现,会造成人脸特征的显著改变;2.人脸随年龄而改变,随着年龄的增长,皱纹的出现和面部肌肉的松弛使得人脸的结构和纹理都将发生改变;3.人脸有易变化的附加物,例如改变发型,蓄留胡须或者佩戴帽子和眼镜等饰物;4.人脸特征遮掩,人脸全部、部分遮掩将会造成错误识别;5.人脸图像的畸变,由于光照、视角、摄取角度不同,可能会造成图像的灰度畸变、角度旋转等,降低了图像质量,增大了识别难度。所以很难从有限张人脸图像中提取出反映人脸内在的、本质的特征。另外人脸识别还涉及模式识别、图像处理、计算机视觉、生理学和心理学等学科领域。这诸多因素使得人脸识别至今仍是一个有待深入研究,极富挑战性的课题。同时一个成功的、具有商用价值的快速的人脸识别系统将会给社会带来极大的影响。人脸识别技术的发展与现状人脸识别的研究可以追溯到20世纪60年代末,最早的研究见于文献。Bledsoe以人脸特征点的间距、比率等参数为特征,建成了一个半自动的人脸识别系统。人脸识别的发展大致经过了三个阶段,其中伴随发展了多样的人脸识别技术。人脸识别技术发展的三个阶段第一阶段一非自动识别阶段:主要研究如何提取人脸识别所需的特征。通过简单的语句描述人脸数据库成为待识别人脸设计逼真的摹写来提高面部识别率。这是需要手工干预的阶段。此阶段以Bertillon、Allen和Parke为代表。在Bertillon系统中,用了一个简单的语句与数据库中的某一张脸相联系,同时与指纹识别相结合,提供了一个较强的识别系统。为了提高面部识别率,Allen为待识别人脸设计了一种有效逼真的摹写,Parke则用计算机实现了这一想法,并且产生了较高质量的人脸灰度图模型。在此阶段,识别过程全部依赖于操作人员,所以不是一种自动识别的系统。第二阶段一人机交互阶段:这一阶段虽然实现了一定的自动化,但还需要操作员的某些先验知识,仍然不是一个完全自动的识别系统。此阶段的代表性工作有:Goldstion、Harmon和Lesk等人用几何特征参数来表示人脸正面图像。他们采用21维特征矢量表示人脸面部特征,并设计了基于这一表示法的识别系统。Kaya和Kobayashi则采用了统计识别的方法,用欧氏距离来表示人脸特征,例如嘴和鼻子之间的距离,嘴唇的高度,两眼之间的距离等。更进一步的,设计了快速且有一定知识引导的半自动回溯识别系统,创造性的运用积分投影法从单幅图像上计算出一组脸部特征参数,再利用模式分类技术与标准人脸相匹配。Kanad的系统实现了快速、实时的处理,是一个很大的进步。总的来说,上述方法都需要利用操作员的某些先验知识,始终摆脱不了人的干预。第三阶段一自动识别阶段:这一阶段真正实现了机器自动识别,产生了众多人脸识别方法,出现了多种机器全自动识别系统。近十余年来,随着高速度、高性能计算机的发展,人脸识别方法有了较大的突破,提出了多种机器全自动识别系统。近年来,人脸识别技术研究也非常活跃,除了基于K一L变换的特征脸方法与奇异值特征为代表的代数特征方法取得了发展外,人工神经网络、隐马尔可夫模型·小波变换等也在人脸识别研究中得到了广泛的应用,而且出现了不少人脸识别的新方法。本文将在节介绍人脸识别的主要内容与方法。国内外发展现状目前,国外对人脸识别问题的研究比较多,其中比较著名的有MTI、CMU、Cornell和Rockfeller等,MPEG标准组织也已经建立了专门的人脸识别草案小组。国际上发表的相关论文数量也大幅度增长,EIEE的著名国际会议,如EIEEInternationalConferenceonAutomaticFaceandGestureRecognition、InternationalConferenceonImageProcessing、ConferenceonComputerVisionandPatternRecognition等,每年都有大量关于人脸识别的论文。截至2005年3月,EIEE/IEE全文数据库中收录的关于“face”的文章8916篇,其中有关“facerecognition”的3280篇,约占%,并且每年的文献呈急剧上升趋势。同样在工程索引El中,至2005年3月,共有81657篇有关“face”的文献,数目是惊人的,并且2000年后快速增长。国内对人脸识别领域的研究起步较国外晚,但近十年来呈现飞速发展,据中国期刊网统计,1996年至2005年3月,有关“人脸”的文献1467篇,其中人脸识别领域的文章494篇,并且再近几年获得快速增长,也预示人脸识别领域得到快速发展。目前国内大部分高校有人从事人脸识别相关的研究,其中技术比较先进的有中科院自动化所、清华大学、浙江大学等。人脸识别的主要方法自动人脸识别技术(AFR)就是利用计算机技术,根据数据库的人脸图像,分析提取出有效的识别信息,用来“辨认”身份的技术。人脸识别技术的研究始于六十年代末七十年代初,其研究领域涉及图像处理、计算机视觉、模式识别、计算机智能等领域,是伴随着现代化计算机技术、数据库技术发展起来的综合交叉学科。人脸识别的视觉机理近几年的研究表明,人类视觉数据处理是多层次的过程,其中最低层的视觉过程(视网膜功能)起到信息转储作用,即将大量图像数据转换为较为抽象的信息,这一任务由视网膜中的两类细胞完成:低层次的细胞对空间的响应与小波变换作用类似,高层次的细胞则依据低层次细胞的响应,而作出具体的线、面乃至物体模式的响应。这表明在视觉处理过程中,神经元并不是随便的、不可靠的把视觉图像的光照强度投射到感觉中枢,它们可以检测模式单元,区分物体的深度,排除无关的变化因素,并组成一个令人感兴趣的层次结构。人脸识别不仅有着以上普通视觉过程的特点,而且具有以下独特之处。1.人脸识别是大脑中一个特有的过程。针对人脸识别,大脑中存在一个专门的处理过程;2.在人脸感知与识别过程中,局部特征与整体特征均起作用。若存在明显的局部特征,整体特征将不起作用;3.不同的局部特征作用对识别的贡献也不同。在正面人脸图像中,头发、人脸轮廓、眼睛以及嘴巴对识别和记忆有着重要影响,鼻子的作用则不是很重要。但在侧面人脸识别中,鼻子对特征点的匹配很有作用。通常来讲人脸的上部比下部对识别作用更大些;4.不同空间频率上信息的作用不同。低频信息代表了整体的描述,高频信息包含了局部的细节。对于性别的判断,仅利用低频信息就足够了,对于身份识别没有高频信息就无法完成;5.光照对视觉有影响。有实验表明,从人脸底部打光会导致识别困难;6.动态信息比静态信息更利于识别。研究还发现,对熟悉的人脸,人类的识别能力在动态场景中要高于静态场景;7.十岁以下的儿童识别人脸较多的采用显著特征,而较少的使用整体分析;8.不同的种族。性别的人脸识别的难易程度不同,这可能因为不同类型的人脸图像具有不同的特征;9.面部表情的分析与人脸识别并行处理。通过对脑部受损的病人研究表明,表情的分析与识别虽有联系,但总体来说是分开处理的。人脸识别是一种复杂的信息处理任务,它的研究涉及计算机技术、心理学和神经生理学。视觉机理、心理学和神经生理学的研究结果无疑将非常有益于人脸识别技术的发展,这些结论对于设计有效的识别方法起到了一定启发作用。但除少数文献外[24],机器识别人脸的研究还是独立于心理学和神经生理学的研究的。人脸识别系统的组成在人脸识别技术发展的几十年中,研究者们提出了多种多样的人脸识别方法,但大部分的人脸识别系统主要由三部分组成:图像预处理、特征提取和人脸的分类识别。一个完整的自动人脸识别系统还包括人脸检测定位和数据库的组织等模块,如图1-1。其中人脸检测和人脸识别是整个自动人脸识别系统中非常重要的两个技术环节,并且相对独立。下面分别介绍这两个环节。图1-1人脸识别系统框图人脸检测与定位检测图像中是否有人脸,若有,将其从背景中分割出来,并确定其在图像中的位置。在某些可以控制拍摄条件的场合,如警察拍罪犯照片时将人脸限定在标尺内,此时人脸的定位很简单。证件照背景简单,定位也比较容易。在另一些情况下,人脸在图像中的位置预先是未知的,比如在复杂背景下拍摄的照片,这时人脸的检测与定位将受以下因素的影响:1.人脸在图像中的位置、角度、不固定尺寸以及光照的影响;2.发型、眼镜、胡须以及人脸的表情变化等;3.图像中的噪声等。特征提取与人脸识别特征提取之前一般需要做几何归一化和灰度归一化的工作。前者是指根据人脸定位结果将图像中的人脸变化到同一位置和大小;后者是指对图像进行光照补偿等处理,以克服光照变化的影响,光照补偿能够一定程度的克服光照变化的影响而提高识别率。提取出待识别的人脸特征之后,即可进行特征匹配。这个过程是一对多或者一对一的匹配过程,前者是确定输入图像为图像库中的哪一个人(即人脸识别),后者是验证输入图像的人的身份是否属实(即人脸验证)。以上两个环节的独立性很强。在许多特定场合下人脸的检测与定位相对比较容易,因此“特征提取与人脸识别环节”得到了更广泛和深入的研究。近几年随着人们越来越关心各种复杂的情形下的人脸自动识别系统以及多功能感知研究的兴起,人脸检测与定位才作为一个独立的模式识别问题得到了较多的重视。本文主要研究人脸的特征提取与分类识别的问题。主要的人脸识别方法人脸识别技术作为模式识别领域的一个研究热点,每年都有许多相应的研究成果发表,并且涌现出各种各样的识别方法,可以说信息处理领域的各种新方法的研究和算法的改进都尝试在人脸识别中得到应用。文献对近十年来人脸识别领域取得的成果进行了总结。人脸识别方法的分类,根据研究角度的不同,可以有不同的分类方法,这是研究人脸识别方法首先遇到的问题。本文在深入研究国内外人脸识别技术的发展和研究成果的同时,将已有的不同的分类方法做一个比较,目的是希望能从不同角度认识人脸识别问题,在较全面的了解各种方法优缺点的基础上,给本文的人脸识别方法提供研究方向。根据输入图像中人脸的角度,人脸识别技术可分为基于正面、侧面、倾斜人脸图像的人脸识别。由于实际情况的要求,对人脸正面模式的研究最多,这也是本文的研究内容。根据图像来源的不同,人脸识别技术可分为两大类:静态人脸识别和动态人脸识别。静态人脸识别,即人脸来源为稳定的二维图像如照片。如果人脸的来源是一段视频图像,则人脸识别就属于动态人脸识别。在头部运动和表情变化状态下的人脸识别都可以看作动态人脸识别,如视频监视中的人脸识别。动态人脸识别具有更大的难度:首先,视频输出的图像质量较差:其次,背景较复杂,目前对动态人脸识别的研究还局限于简单背景,较少人物的情况,对静态人脸识别的研究比较多。本文的研究也是基于静止图像的。根据人脸识别技术的发展历史,人脸识别方法大致可分为基于几何特征的人脸识别方法、基于模板匹配的人脸识别方法和基于模型的人脸识别方法。a.基于几何特征的人脸识别方法这是人脸识别技术发展中,应用最早的方法。该方法是通过提取人脸的几何特征,包括人脸部件的归一化的点间距离、比率以及人脸的一些特征点,如眼角、嘴角、鼻尖等部位所构成的二维拓扑结构进行识别的方法。所构造的几何特征既要清晰区分不同对象人脸的差异,又要对光照背景条件不敏感,常规的几何特征量很难满足这些要求。因此该方法识别效果不理想。b.基于模板匹配的人脸识别方法基于模板匹配的方法,主要是利用计算模板和图像灰度的自相关性来实现识别功能。一般基于人脸的全局特征,利用人脸模板和相关参数如灰度的相关性来进行检测和识别的。Berto在中将基于几何模型的人脸识别方法和模板匹配进行了全面比较后,得出结论:前者具有识别速度快和内存要求小的优点,但在识别率上后者要优于前者。增加几何特征对于基于几何特征的人脸识别方法只能轻微的提高识别率,因为要提高几何特征的提取质量本身就十分困难,而且随着图像质量的下降和人脸遮挡的引入,基于几何特征的人脸识别效果会大幅下降。总之,认为模板匹配法要优于几何特征法。c.基于模型的人脸识别方法通过统计分析和匹配学习找出人脸和非人脸,以及不同人脸之间的联系。该方法包括特征脸法(Eigenface)、神经网络方法(NN)、隐马尔可夫模型方法(HMM)和支持向量机(SVM)等方法。和模板匹配的方法相比,基于模型方法的模板是通过样本学习获得,而非人为设定。所以该方法,从原理上更为先进合理,实验中也表现出更好的识别效果。根据人脸表征方式(即特征提取)的不同,还可以将人脸识别技术分为三大类:基于几何特征的识别方法、基于代数特征的识别方法和基于连接机制的识别方法。a.基于几何特征的人脸识别方法该方法在上文中已有阐述,它将人脸用一个几何特征矢量表示,用模式识别中层次聚类的思想设计分类器达到识别目的。该方法的困难在于没有形成一个统一的、优秀的特征提取标准。由于人面部的模式千变万化,即使是同一个人的面部图像,由于时间、光照、摄影机角度等不同,也很难用一个统一的模式来表达,造成了特征提取的困难。不过,由于现在各种优秀特征提取算法(如动态模板、活动轮廓等)的提出,使得人脸的几何特征描述越来越充分。而且在表情分析方面,人脸的几何特征仍然是最有力的判据。b.基于代数特征的人脸识别方法这类识别法仍然是将人脸用特征矢量表示,只不过用的是代数特征矢量。该方法在实际应用中取得了一定的成功。由于代数特征矢量(即人脸图像向各种人脸子空间的投影)具有一定的稳定性,识别系统对不同的倾斜角度,乃至不同的表情均有一定的鲁棒性。所以,也说明了这种方法对表情的描述不够充分,难以用于表情分析。c.基于连接机制的人脸识别方法这类识别法将人脸直接用灰度图(二维矩阵)表征,利用了神经网络(NeuralNetwork,NN)的学习能力及分类能力。这种方法的优势在于保存了人脸图像中的纹理信息及细微的形状信息,同时避免了较为复杂的特征提取工作。而且,由于图像被整体输入,符合格氏塔(Gestalt)心理学中对人类识别能力的解释。与前两种识别方法相比,基于连接机制的识别法具有以下明显不同:信息处理方式是并行而非串行;编码存储方式是分布式。但由于原始灰度图像数据量十分庞大,因此神经元数目通常很多,训练时间很长。另外,完全基于神经网络的识别法在现有的计算机系统(冯一诺伊曼结构)上也有其内在的局限性。神经网络虽然有较强的归纳能力,但当样本数目大量增加时,其性能可能会严重下降。本文根据人脸表征方法与特征综合方式的不同,认为将人脸识别方法分为基于几何特征的方法、基于模板匹配的方法和基于统计学习的方法,比较合适。此分类方法即符合人脸识别技术发展的历史,又将人脸特征提取与分类识别有机的结合在一起。识别人脸主要依据那些在不同个体之间存在较大差异,而对于同一个人比较稳定的特征,具体的特征形式和综合方式(分类方式)的不同决定了识别方法的不同。图1-2列出了主要的人脸特征与综合方法。早期静态人脸识别方法研究较多的是基于几何特征的方法和基于模板匹配方法。目前,静止图像的人脸识别方法主要是基于样本通过统计学习识别人脸的方法,主要研究方向有:基于代数特征的识别方法,包括特征脸(Eigenface)方法和隐马尔可夫模型(HMM)方法;基于连接机制的识别方法,包括一般的神经网络方法和弹性图匹配(ElasticGraphMatching)方法,以及以上方法的一些综合方法。基于统计学习的方法属于基于整体的研究方法,它主要考虑了模式的整体属性。因为基于整体的人脸识别不仅保留了人脸部件的拓扑关系,而且也保留了各部件本身的信息。文献认为基于整个人脸的分析要优于基于部件的分析,理由是前者保留了更多信息。对于基于整个人脸的识别而言,由于把整个人脸图像作为模式,那么光照、视角以及人脸尺寸会对人脸识别有很大的影响,因此如何能够有效的去掉这些干扰就尤为关键。神经网络的方法在人脸识别上有其独到的优势,即它避免了复杂的特征提取工作,可以通过学习的过程获得其它方法难以实现的关于人脸识别的规律和规则的隐性表达。但是NN方法通常需要将人脸作为一个一维向量输入,因此输入节点庞大,降维就显得尤为重要。根据文献对于自组织神经网络方法的分析,认为可采用自组织神经网络的P个节点来表达原始的N个输入(P<N),但由于将P个节点进行分类,其识别的效果仅相当于提取人脸空间特征向量后进行的识别分类,因此采用此类神经网络进行识别的效果只能是特征脸的水平。除此之外,由于人脸处在高维空间,如一幅不大的100x100的图像为10000维,这样神经网络的输入节点将很庞大,因此实际训练网络的参数繁多,实现起来很困难。神经网络方法的优点是可以针对特定的问题进行子空间设计,比如用于人脸检测、性别识别、种族识别等(不属于本文的研究内容)。鉴于以上考虑,本文未对此方法进行重点研究。图1-2可以提取的各种人脸特征,图下方为各种特征的综合方式通过对不同的人脸识别分类方法的总结,多视角的、全面的介绍了主要的人脸识别方法。从对人脸识别方法的分析中可以看出,每种方法各有其优缺点,因此一些学者倾向于将多种方法综合起来,或同时利用不同种类的特征,图1-2为人脸图像可以提取的特征以及可能的特征综合方法。在对各种人脸识别方法进行理论分析后,本文主要研究基于统计学习的、整体的人脸识别方法,包括特征脸法、基于独立分量分析的人脸识别方法和基于隐马尔可夫模型的人脸识别方法,并尝试新的特征提取和分类方法。人脸识别测试数据库人脸识别是近年来研究的热点,各国研究人员提出了各种新的识别算法,为测试和比较各种识别技术的优缺点及其识别率的高低,世界各研究机构都建立了各自的人脸测试和测评数据库,下面介绍一些著名的标准数据库。英国ORL(O一OliverttiResearchLaboratory)人脸数据库ORL人脸图像库是由英国剑桥011vetti实验室从1992年4月到1994年4月期间拍摄的一系列人脸图像组成,共有40个不同年龄、不同性别和不同种族的对象。每个对象10幅图像共计400幅灰度图像组成,图像尺寸为92xlZl,图像背景为黑色。其中人脸部分表情和细节均有变化,例如笑与不笑,眼睛睁着或闭着,戴或不戴眼镜等,人脸姿态也有变化,其深度旋转和平面旋转可达20度,人脸的尺寸也有最多10%的变化。该库是目前使用最广泛的标准数据库,它含有大量的比较结果。英国Manchester人脸数据库该数据库由30人的690幅图像组成,图像有不同的光照和背景特征,而且对于每个人而言,前后两张照片之间的时间间隔至少为3周。训练集对光源有一定的约束。虽然Manchester人脸数据库远比ORL数据库全面,但因发表的比较结果不够多,从而远不如ORL数据库使用广泛。Yale耶鲁人脸库该数据库包括15人每个人11幅正视图,每幅图像具有不同的面部表情、有或者无眼镜,这些图像在不同光照条件下拍摄。该库的特点就是光照变化显著,且有面部部分遮掩。欧洲M2VTS多模型数据库该库是用来作为多模型输入的通路控制实验,它包括37个人的序列人脸图像。每人的5幅图像间隔一个星期,每个图像序列包括从右侧轮廓(-90度)到左侧轮廓(90度)之间的图像,而且拍摄时每个人用他们的母语从一到九数数。该库主要用于测试多模式身份识别。美国FERET(FaceRecognitionTechnology)人脸数据库FERET人脸数据库是目前最大的人脸数据库,由美国军方研究实验室提供,其中每人的图像数目不等,有些人提供了更多不同视点和不同表情的照片。该数据库中不包含戴眼镜的照片,拍摄条件也有一定的限制。人脸大小约束在规定范围内。1996年6月,该数据库己存储了1199个人的14126幅图像,而且逐年增加。但到目前为止,该数据库并未提供运动图像系列或包含语言信息。FERTE数据库的最大缺点是非美研究机构的获取不便。其他数据库还有CMU(CarnegieMellonUniversity)正面人脸数据库,MIT单人脸数据库等。不同的人脸数据库,图像的质量和内容也是不同的,为了客观的、全面的测试人脸识别方法的性能,考虑不同因素对识别方法的影响,本文的人脸识别方法主要应用了ORL、Manchester、Yale和部分FERET人脸数据库进行测试。
第2章基于隐马尔可夫模型的人脸识别方法引言隐马尔可夫模型(HiddenMarkovModels,HMM),起源于二十世纪六十年代后期,属于信号统计理论模型,能够很好的处理随机时序数据的识别与检测。PCA与ICA作为统计理论的信号处理技术,目的是将观察到的数据进行某种线性变换,从而用低维的子空间参数描述高维的数据特征。隐马尔可夫模型是将随机时序数据的统计特性,用一个模型的参数来描述,模型参数通过训练样本的统计学习获得。HMM最早应用在语音识别中,若将时序序列看成应用对象的特征序列,HMM也可以应用到其他领域,如音频处理、手写体识别、图像与视觉处理等,参考Olivier所写的“TenyearsofHMMs”。根据人脸由上至下各个区域具有自然不变的顺序,这一稳定的相似共性,个人特征仅表现在上述组成部分的形状及其相互连接关系不同,即可用一个一维HMM(1D-HMM)表示人脸。进一步研究表明人脸水平方向从左至右也具有相对稳定的空间结构,因此可将沿垂直方向划分的状态分别扩充为一个1D-HMM,共同组成了一个P2D-HMM。该模型可以更加精确的描述和定义具体人脸的个人特征,是较好的描述和识别人脸的数学模型。采用P2D-HMM进行人脸识别时,精确度增加了很多,识别率提高了,训练和识别的复杂度也增加了很多,所以考虑继续改善其模型结构。支持向量机(SupportVectorMahcines,SVM)源于统计学习理论,它使用结构风险最小化(SRM)原理构造决策超平面使每一类数据之间的分类间隔最大。所以本文使用SVM取代高斯分布函数或者状态映射矩阵建立与HMM的混合模型,每个人脸器官通过VSM进行识别,混合模型的总体结构仅相当于一个1D-HMM,减少了训练识别的时间,但获得了与P2D-HMM相当的识别精度。本章首先介绍了HMM是如何由Markov链发展而来的,并且介绍了二者的区别和MHM的基本理论,包括HMM的模型和HMM中涉及的三大问题;其次介绍了基于HMM人脸识别方法的基本原理和系统概况;然后分别介绍了基于1D-HMM的人脸识别方法、基于P2D-HMM的人脸识别方法以及基于ICA特征和SVM/HMM的人脸识别方法,本章最后比较了不同模型的识别性能。隐马尔可夫模型的理论基础隐马尔可夫模型属于信号统计理论模型,能够很好的处理随机时序数据的识别与预测。HMM是由马尔可夫链(Markov链)发展而来的。马尔可夫链马尔可夫链是马尔可夫随机过程的特殊情况,即Markov链是状态和时间参数都离散的Markov过程。从数学上,可以给出如下定义:随机序列Xn,在任一时刻n,它可以处在状态θ1,θ2,…,θN,且它在m+k时刻所处的状态为qm+k的概率,只与它在m时刻的状态qm有关,而与m时刻以前它所处状态无关,既有:(4-1)(2-2)其中,ql,q2,…,qm,…,qm+1∈(θ1,θ2,…,θN)。则称Xn为Markov链,并且称(2-3)为k步转移概率,当pij(m,m+k)与m无关时,称这个Markov链为齐次Markov链,此时(2-4)以后若无特别申明,Markov链就是指齐次Markov链。当k=1时,pij(1)称为一步转移概率,简称为转移概率,记为aij,所有转移概率aij,1≤i,j≤N可以构成一个转移矩阵,即(2-5)且有(2-6)由于k步转移概率Pij(k)可由转移概率aij得到,因此,描述Markov链的最重要参数就是转移概率矩阵A。但A矩阵还决定不了初始分布,即由A求不出q1=θi的概率,这样,完全描述Markov链,除A矩阵外,还必须引入初始概率矢量∏=(π1,…,πN),其中(2-7)显然有(2-8)实际中,Markov链的每一个状态对应于一个可观测到的物理事件,比如天气预测中的雨、晴、雪等,那么根据这个天气预报的Markov链模型,可以计算出各种天气(即状态)在某一时刻出现的概率。但更普遍的情况下,实际的状态并不能直接观测到,所以隐马尔可夫模型由此发展起来。隐马尔可夫模型隐马尔可夫模型是在马尔可夫链的基础之上发展起来的。由于实际问题比Markov链模型描述的更为复杂,观察到的事件并不是与状态一一对应的,而是通过一组概率分布相联系,这样的模型就称之为HMM。HMM是一个双重随机过程,其一是Markov链,它是最基本的随机过程,描述状态的转移。另一个随机过程描述状态和观察值之间的统计对应关系。这样,以观察者的角度,只能看到观察值,而非Markov链模型中的观察值与状态一一对应的关系,因此,不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性。HMM可看作由两层构成:a.隐含层,它由有限个状态,状态转移矩阵A和初始状态概率分布∏组成;b.映射层,它表示每个状态对应观测数据的映射,可以用状态变换矩阵B,或者一系列概率密度函数表示,分别对应离散的HMM和连续的HMM。根据人脸至上而下,从左至右下具有的共性结构,本文采用1D-HMM和P2D-HMM描述人脸,下面分别介绍组成1D-HMM和P2D-HMM的主要参数。1D-HMM由N,A,B,∏参数组成,简写为λ={N,A,B,∏}。各参数的含义如下:•N,表示模型的状态个数;•A={aij},其中1≤i,j≤N,表示状态转移概率矩阵;•B={bj(∙)},其中1≤j≤N,表示输出概率函数;•∏={πj},其中1≤j≤N,表示初始状态概率分布。己知模型λ,观察序列O=o1…oT,Q为所有可能状态序列的集合,观察序列的联合概率计算如下式:(2-9)P2D-HMM可看作是1D-HMM的扩充,即在1D-HMM的每个状态中嵌入一个1D-HMM,该状态被改称为超状态。P2D-HMM由N,A,∏,Λ参数组成,简写为兄={N,A,∏,Λ}。各参数的含义如下:•N,表示垂直方向超状态的个数;•A={aKJ},其中1≤k,j≤N,表示超状态转移概率矩阵;•∏={πJ},其中1≤j≤N,表示超状态的初始概率分布;•Λ={λJ},其中1≤j≤N,表示嵌入每个超状态的ID-HMM,每个λJ都具有一标准的1D-HMM所必需的参数;•NJ,表示状态个数;•Aj={aKjJ},其中1≤k,i≤NJ,表示状态转移概率矩阵;•BJ={bij(∙)},其中1≤i≤NJ,表示输出概率函数;•∏J={π1J},其中1≤i≤NJ,表示初始状态概率分布。已知模型λ,观察序列O=o11…oTrTs,QY为垂直方向的所以可能状态,QXj为超状态j对应的水平方向的所以可能状态,联合概率的计算如下式:(2-10)其中,隐马尔可夫模型中的三大问题欲使所建立的隐马尔可夫模型能解决实际问题,以下三个问题必须加以解决:问题1:己知观察序列O和模型λ={N,A,B,∏},如何计算由此模型产生此观察序列的概率P{O|λ}问题2:己知观察序列O和模型λ={N,A,B,∏},如何确定一个合理的状态序列,使其能最佳的产生O,即如何选择最佳的状态序列Q=q1,q2,…,qT问题3:如何根据观察序列不断修正模型参数A,B,∏,使P{O|λ}最大问题1实质上是一个模型评估问题,因为P{O|λ}反映了观察序列与模型吻合的程度。在模式识别中,可以通过计算、比较P{O|λ},从多个模型参数中选择出与观察序列匹配的最好的那个模型,这也是HMM用于模式识别的原理所在。为了解决这个问题,前人已研究出了“前向一后向”算法(Forward-BackwardAlgorithm)。问题2的关键在于选用怎样的最佳准则来决定状态的转移。一种可能的最佳准则是:选择状态qi,使它们在各t时刻都是最可能的状态,即(2-11)有时存在这样的问题:如出现不允许的转移,即aij=0,那么,对这些i和j所得到的状态序列就是不可能状态序列。也就是说,上式得到的解只是在每个时刻决定一个最可能的状态,而没有考虑整体结构,相邻时间的状态和观察序列的长度等问题。针对这个缺点要求人们研究一种在最佳状态序列基础上的整体约束的最佳准则,并用此准则找出一条最好的状态序列。目前,解决这个问题的最好方案是Vietbri算法。问题3实质上就是如何训练模型,估计、优化模型参数的问题。这个问题在三个问题中最难,因为没有解析法可用来求解最大似然模型,所以只能使用叠代法(如:Baum一Welch算法)或使用最佳梯度法。在和节中,本文将以不同HMM的人脸识别方法为例具体介绍“前向一后向算法”、Vitebri算法和Baum-Welch算法在模式识别中的具体应用,有关以上三种算法的详细内容可以参考文献[60]。隐马尔可夫模型的类型根据观测值的取值不同,HMM可分为离散的和连续的。本文节介绍的HMM,如果其观测值是M个离散可数的观察值中的一个,则称之为离散HMM,某个状态qj对应的观察值的统计特性是由一组概率bJK,k=1,…,M来描述。连续的MMH,指观察值的可能取值只能用一个概率密度函数bJ(q)表示。根据状态转移的类型不同,HMM可分为遍历的(Ergodic)和从左到右的(Left-to-right,又称从上至下的Top-to-bottom)。前者表示状态转移是任意的,可以到本身和其他所有状态,如图2-1(a)。后者表示状态转移只限于本身和下一个状态,如图2-1(b)。人脸由于各个区域(头发、额头、眼睛、鼻子和嘴巴)具有自然不变的顺序,通常采用从左到右型的HMM。图2-1几种典型的马尔可夫链示意图(a)四状态遍历型马尔可夫链(b)四状态由左至右型马尔可夫链基于隐马尔可夫模型的人脸识别方法概述基于HMM人脸识别的基本原理根据人脸由上至下各个区域(头发、额头、眼睛、鼻子和嘴巴)具有自然不变的顺序,个人特征仅表现在上述组成部分的形状及其相互连接关系不同,即可用一个1D-HMM表示人脸,如图2-2(a)。上述人脸5个部分的人脸特征对应HMM的状态序列,状态的出现及其转移可用模型中的概率矩阵描述,提取图像的象素点亮度值(或其他特征)作为观测序列。对于既定的人脸,所对应的HMM应当是唯一的。进一步研究表明人脸水平方向从左至右也具有相对稳定的空间结构,因此可将沿垂直方向划分的状态分别扩充为一个1D-HMM。垂直方向的状态就称为超状态,水平方向嵌入的状态就称为子状态,共同组成了一个P2D-HMM,如图2-2(b)图2-2用HMM建立人脸模型的基本原理图(a)1D−HMM人脸模型(b)P2D−HMM人脸模型基于HMM人脸识别的系统概述基于HMM的人脸识别系统,必须首先选择HMM的结构(是1D-HMM,还是P2D-HMM)。HMM的结构不同使得特征提取、模型训练和识别中基本算法和系统结构都会有所不同,但关于图像的预处理和最后的决策方法都是相同的。本文首先介绍对输入图像的预处理和决策方法,关于特征提取、模型训练的具体算法将在基于1D-HMM和P2D-HMM人脸识别方法时分别介绍。图2-3为基于HMM人脸识别系统的原理图,其中“CommonHMM”代表人脸的普遍结构,由训练集中所有人脸图像获得,它的作用主要有以下两个方面:一作为各个对象的人脸模型训练的初始化参数,可以极大提高收敛速度;二是完成对人脸库中不存在的新对象(NewSubject)的拒识(Reject)。如果输入的是一幅彩色图像,比如RGB颜色模式图像,预处理阶段首先将其转换为YCbCr颜色模型,然后进行肤色初筛,得到人脸的可能区域,最后归一化成方块灰度图像后,就可以用条状或块状窗进行一定步长的遍历扫描,提取特征序列了。本文采用层次结构的判决来完成人脸的识别,如图2-4。首先通过计算特征序列O在“CommonHMM”模型参λcommon下的概率P(O|λcommon),判别是否人脸。若是,再计算特征序列在各个对象MHM模型参数λi下的概率P(O|λi),与P(O|λcommon)比较,判别是否库中己有对象的人脸,若是,输出max{P(O|λi)}的对象标号i。图2-3人脸识别系统原理图图层次结构的决策原理图基于一维隐马尔可夫模型的人脸识别方法上文介绍了用HMM建立人脸模型的基本原理和基于MHM人脸识别系统的概况,以下介绍关于基于1D-HMM人脸特征提取、模型训练的具体算法。特征提取1D-HMM对人脸图像区域提取观察序列,采用条状窗口从上至下的遍历扫描,如图2-5。有文献采用每个窗口所含象素的灰度值作为观察向量,维数太高,且对影响识别的光线、角度等因素敏感。所以本文选取每个窗口的K-L变换(即PCA)系数作为观察向量。也可以提取二维离散傅立叶变换(即2D-DCT)系数作为观察向量。考虑到K-L变换系数是均方误差意义下的最佳变换,实验中识别效果比2D-DCT系数略好些。所以本文在结构较简单的1D-HMM人脸识别中提取CPA系数作为观察向量。而在基于P2D-HMM人脸识别中,本文提取2D-DCT系数作为特征向量,主要鉴于与JPGE图像压缩标准兼容,且有快速算法。图2-5条状窗口对图像从上至下的遍历扫面示意图图2-6由左至右依次为头发,额头,眼睛,鼻子和嘴对应的典型KLT系数条状窗口扫描得到的象素灰度值,排列成一列向量,维数为LxX,所有的M个样本构成(LxX)xM的矩阵。求得它的协方差矩阵和前十个最大的特征根,重新构造特征空间。提取的特征就为扫描窗所含象素灰度值在这个特征空间的投影的系数。图2-6就是对应人脸特征区域(如头发、额头、眼睛、鼻子和嘴)的典型观察向量。模型训练扫描整幅图像得到T个观察向量,构成观察序列。为了使得观察序列能与真实的状态转移对应起来,还必须对用Viterbi算法和K均值聚类对序列分段。Viterbi算法用来寻找观测序列O=(ol,o2,…,oT)对应的最佳状态序列Q=(q1,q2,…,qT),并且计算在最佳状态序列条件下的概率。定义变量:(2-12)具体算法如下:a.初始化:(2-13)b.递推:(2-14)(2-15)c.终止:(2-16)d.最佳状态序列:(2-17)本文将已分段的序列输入初始化的HMM,首先用Forward-Backward算法求得前向概率αi(j)和后向概率βi(j),再用Buam-welch算法进行反复参数重估直至收敛,这样就得到训练人脸样本的HMM。重估过程如下:定义ξi(i,j)表示在己知观察序列O和模型λ的情况下,t时刻处于状态i,t+1时刻处于状态j的概率,定义γi(i)为给定观察序列O和模型λ的条件下。t时刻处于状态i的概率。表示在观察序列中,从状态i出发的状态转移次数的期望,表示观察序列中,从状态i到j的状态转移次数的期望,可知(2-18)(2-19)模型中的三个参数的重估结果如下式:(2-20)然后计算P(O|λ),反复重估参数至收敛,得到训练样本的1D-HMM人脸模型。分类识别HMM本身就是一个分类器。以ORL人脸库为例,首先划分训练集和测试集,然后将训练集中的图像分对象分别训练,得到每个对象的人脸HMM模型。人脸识别时,测试集中任取一幅图像,先通过条状窗扫描获得观测序列,即提取的人脸特征,然后用Forward-Backward算法计算待测区域提取的观察向量在不同对象的1D-HMM参数下的概率,实际中一般用Viterbi算法计算概率,这样运算速度比较快。最后通过比较概率的大小即可作出决策。分析基于1D-HMM的人脸识别过程,影响识别效果可能有以下因素:状态数N、窗口宽度L,扫描重叠宽度M。文献[62]就以上因素对人脸识别性能进行了详细比较和分析,本文也认为取5个状态分别对应人脸的前额、眼睛、鼻子、嘴和下巴,描述和代表人脸的宏观特征理论是比较合理的,识别性能也最好。并且对于窗口宽度L,只要重叠宽度M足够大,对识别性能影响不大。重叠宽度大,识别效果好,通常取M=L-1。本文的识别系统最终选取N=5、L=8、M=7的扫描方式。基于伪二维隐马尔可夫模型的人脸识别方法P2D-HMM最早应用在字符识别中,后来证明用它描述二维图像也是行之有效的。图2-2所示的拓扑结构说明了用P2D-HMM建立人脸模型的原理,它和用1D-HMM人脸模型的区别在于它不但能表现人脸从上至下的空间结构,还能表现水平方向从左至右的空间结构,表现在HMM结构中使用1D-HMM替代超状态的概率分布。同时因为水平方向的状态变化仅限于超状态内,所以分析处理比真正二维的隐马尔可夫模型(2D-HMM)简单。文献[62]中曾对不同状态数的模型人脸识别性能进行了详细比较和分析。本文选取5个超状态分别对应人脸的宏观特征,每个超状态内嵌入的状态分别提取人脸的局部区域特征,嵌入状态数取(3,6,6,6,3)的结构具有较好的识别精度,如图2-2(b)。图2-7块状窗对图像从左到右、从上至下的遍历扫描示意图X为图像的水平像素点总数;Y为图像的垂直像素点总数;M为从上到下遍历扫描的步长;Q为从左到右遍历扫描的步一长;L为从上至下扫描的块状窗口在垂直方向的长度;P为从上至下扫描的块状窗口在水平方向的长度;T为遍历扫描的窗口数;为了更好的提取人脸的二维空间特征,P2D-HMM观察序列采用块状窗遍历扫描方法,如图2-7。在人脸图像和可能含人脸的待检测区域,用含象素点数为PxL的扫描窗从左到右、由上至下滑动,获取观察图像块。相邻窗口在垂直方向和水平方向分别有M行、Q列重叠。如果直接取采样窗内的象素点灰度值构造观察向量,同样存在维数太大,易受噪声干扰的缺点。本文选取8x8的扫描窗,做2D-DCT变换,得到8x8的2D-DCT系数。DCT变换如下式:用三角窗取DCT系数矩阵的前15个系数,就得到了一个观察向量。若采用16x16的扫描窗,得到的识别效果与8x8相近,但是8x8的扫描窗与JEPG标准兼容,观察向量维数少。这样提取DCT系数作为观察向量,对JPEG压缩的人脸图像可以直接在压缩域进行识别,无需解压,如图2-8。图2-8压缩域上人脸识别示意图本文训练时采用75%的重叠扫描,M=8,Q=6。识别时,重叠扫描为零,直接使用压缩域的参数,获得较好的识别效果,这与前人所研究所讨论的相符。训练基于P2D-HMM的人脸模型和训练1D-HMM的人脸模型类似,用块状窗遍历扫描得到观察序列后,对观察序列进行Viterbi分段,Buam-Welch算法重估参数。由于P2D-HMM在每个超状态中嵌入了一个1D-HMM,所以具体算法有所不同。基于I以特征和SMV/1翎以的人脸识别方法采用P2D-HMM进行人脸识别时,精确度增加了很多,识别率最高可达100%,(基于ORL人脸库)。但是因为它将16-30个子状态嵌入到4~5个超状态中,训练和识别的复杂度也增加了很多。将SVM引入HMM,建立SVM/HMM的混合人脸识别模型可以简化P2D-HMM的结构,同时保证识别精度不变。SVM源于统计学习理论,它使用结构风险最小化(SRM)原理构造决策超平面使每一类数据之间的分类间隔最大。与HMM和ANN相比,SVM具有以下优势:训练过程中,分类模型自动构造,不需要事先指定;SVM可以在小样本训练前提下完成;采用SRM原理,SVM训练的结果使其识别的实际风险小,而非仅仅经验风险小。SVM/HMM的混合模型最早使用在语音识别中。我们将SVM/HMM应用于人脸识别,用SVM的输出取代高斯分布函数或者状态映射矩阵(离散码本)建立与HMM的混合模型。每个人脸器官通过SVM进行分类,混合模型相当于一个1D-HMM。所以在保证识别率的前提下,SVM/HMM模型较简练,减少了分析识别的时间。由于ICA提取的人脸特
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 贵州城市职业学院《操作系统概论》2023-2024学年第一学期期末试卷
- 2025年江苏省安全员C证考试(专职安全员)题库附答案
- 2025山东省建筑安全员A证考试题库
- 饲草种植加工基地建设项目可行性研究报告-畜牧业需求持续扩大
- 贵阳人文科技学院《过程设备机械基础》2023-2024学年第一学期期末试卷
- 2025年江苏省安全员B证考试题库及答案
- 广州现代信息工程职业技术学院《用户调研》2023-2024学年第一学期期末试卷
- 广州铁路职业技术学院《园艺作物育种学总论》2023-2024学年第一学期期末试卷
- 2025年-辽宁省安全员-C证考试(专职安全员)题库附答案
- 2025辽宁建筑安全员-B证考试题库及答案
- 2024年国投信托有限公司招聘笔试参考题库含答案解析
- 自身免疫性肝炎的护理查房
- 《卜算子-黄州定慧院寓居作》理解性默写(含答案)
- 少先队大队辅导员胜任力模型研究
- 人才队伍建设实施方案
- 建设项目管理费用(财建2016504号)
- 德钦县云岭乡、佛山乡部分村落生活垃圾处置工程环评报告
- 毒理学基础期末考试试题整理大全附答案
- 瑞幸咖啡案例分析
- LDA型电动单梁起重机参数
- 寒假安全教育主题班会PPT-
评论
0/150
提交评论