(模式识别与智能系统专业论文)基于实时人脸识别的身份鉴别系统研究.pdf_第1页
(模式识别与智能系统专业论文)基于实时人脸识别的身份鉴别系统研究.pdf_第2页
(模式识别与智能系统专业论文)基于实时人脸识别的身份鉴别系统研究.pdf_第3页
(模式识别与智能系统专业论文)基于实时人脸识别的身份鉴别系统研究.pdf_第4页
(模式识别与智能系统专业论文)基于实时人脸识别的身份鉴别系统研究.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

济南大学硕十学位论文 摘要 人脸识别,即通过对人脸图像的分析来确定人的身份,是一种新兴的生物识别技 术。相对于其他生物识别技术,例如,指纹识别、虹膜识别等,人脸识别的优点在于: 这种识别不需要被测对象特意的配合,在某些情况下,被测对象甚至都没有必要知道 这种识别系统的存在,因此,这种系统的存在并不会对人们的日常生活造成很大的影 响。正是由于具有这个优点,人脸识别的概念一经提出,就引起了极大的关注。人脸 识别的研究内容已经涉及图像处理、模式识别、计算机视觉和人工智能等多个领域。 本文所要研究的是如何构建一个能够实时识别视频图像中人脸的身份的鉴别系 统。本文研究的内容比较广泛,既包括人脸识别的各项相关技术,又涉及如何综合这 些技术来形成一个完整的系统。本文主要研究内容包括: 1 、人脸检测。要对图像中的人脸进行识别,首先要做的是从图像中把人脸所在 的区域分割出来,即进行人脸检测。本文首先简要介绍了早期比较常用的人脸检测技 术;然后,比较详细的介绍了曾经被广泛研究的基于肤色的人脸检测技术;最后,重 点论述了我们所设计的系统中所采用的基于a d a b o o s t 算法的层级式人脸检测策略。 我们选择这种方法的原因在于:它检测的速度很快,能够满足实时处理的要求,并且 也有相当高的检测精度。 2 、人脸识别。这一部分主要包括两部分的内容:人脸特征提取和分类器设计。 这两部分中前者更加重要。能否从维数很高的人脸图像数据中提取出有用的识别信 息,是整个人脸识别系统成败的关键。本文首先介绍了在模式识别各个领域都有广泛 应用的基于主成分分析( p c a ) 的特征提取策略;然后,介绍了特别强调类内和类间 信息的基于线性判别式分析( l d a ) 的特征提取策略;最后,针对p c a 和l d a 算法的 弱点,我们提出了自己的改进策略:基于全局搜索策略的p c a 和基于全局搜索策略的 l d a 。在前一种方法里,我们利用全局搜索策略来构建类区分能力更好的特征空间; 在后一种方法中,全局搜索策略则被用来弥补经典l d a 算法不能被应用于小样本问题 的缺陷。我们在多个标准人脸图像库中测试我们的方法,取得了良好的效果。在我们 设计的系统中,也实际应用了这些方法。在分类器设计方面,我们首先介绍了比较简 单的基于距离函数的分类器;然后,讨论了相对复杂但分类能力较强的基于神经网络 的分类器。我们的系统最终采用的是适应能力很强的基于r b f 神经网络的分类器。 i 幕于实时人脸识别的身份黪别系统研究 3 、系统的集成。介绍如何将人脸识别的各个部分组合成一个整体,并展示了我 们设计的系统的运行流程。我们的系统实时性强,识别率高,并且能够同时识别出一 幅图像中多个人脸的身份。 关键词:人脸检测,人脸识别,全局搜索,主成分分析( p c a ) ,线性判别式分析( l d a ) 济南人学硕十学位论文 a b s t r a c t f a c er e c o g n i t i o n ( f r ) i so n ek i n d o fn e w l yd e v e l o p e db i o m e t r i ei d e n t i f i c a t i o n t e c h n i q u e ,w h i c hr e c o g n i z e sp e r s o n sb a s e do nf a c ei m a g e s c o m p a r e dw i t ho t h e r t e c h n o l o g i e s ,s u c ha sf i n g e r p r i n tr e c o g n i t i o n , i r i sr e c o g n i t i o na n ds oo n ,f rc o u l df i g u r e o u tp e o p l e si d e n t i f i c a t i o nw i t h o u ts p e c i a lc o o p e r a t i o n ,w h i c hi sa ne x c e l l e n ta d v a n t a g e t h e r e f o r e ,i ti n t e r e s t sm a n yp e o p l eo n c ea n n o u n c e d t h er e l a t e df i e l d so ff ri n c l u d e s : i m a g ep r o c e s s i n g , p a t t e r nr e c o g n i t i o n ,c o m p u t e rv i s i o n ,a r t i f i c i a li n t e l l i g e n c ea n ds oo n i ti si n t r o d u c e di nt h i sp a p e rt h a th o wt ow o r ko u tar e a l - t i m ei d e n t i t yd i s t i n g u i s h i n g s y s t e mb a s e do nf r t h e r e f o r e ,o u rp a p e ri n v o l v e sa l lt e c h n o l o g i e sr e l a t e dw i t hf r ,t h e m a i np o i n t so fw h i c ha r el i s t e db e l o w 1 、f a c ed e t e c t i o n ( f d ) f di st h ef i r s ts t e po ff r i nt h i sp a p e r ,f i r s t l y , e a r l yd e v e l o p e d d e t e c t i o nt e c h n o l o g i e sa r ei n t r o d u c e d ;s e c o n d l y , f da l g o r i t h m sb a s e do ns k i nc o l o ra r c d i s c u s s e d ,w h i c hh a v eb e e nw i d e l yr e s e a r c h e dd u r i n gt h ep a s tt i m e ;a tl a s t ,w e l l - k n o w n c a s c a d eb a s e do na d a b o o s ta l g o r i t h mw h i c hi su s e di no u rs y s t e mi sp r e s e n t e d i ti sg o o d a tr e a l - t i m ed e t e c t i o n ,w h i c hi sj u s tw h a tw ew a n tt of o rr e a l - t i m ep r o c e s s i n g 2 、f a c er e c o g n i t i o n ( f r ) f rc o n s i s t so ft w om a i np a r t s ,n a m e l y , f a c i a lf e a t u r e e x t r a c t i o na n dc l a s s i f i e rd e s i g n ,a n dt h ef o r m e ri sm u c hm o r ei m p o r t a n tt h a nt h el a t t e r w h i c hi st h ec r i t i c a ls t e po ft h ew h o l es y s t e m i nt h i sp a p e r , f i r s t l y , w i d e l yu s e dp r i n c i p l e c o m p o n e n ta n a l y s i s ( p c a ) i si n t r o d u c e d ;s e c o n d l y , l i n e a rd i s c r i m i n a n ta n a l y s i s ( l d a ) i s p r e s e n t e d ,w h i c he m p h a s i z e sw i t h i n c l a s sa n db e t w e e n - c l a s s ,e s p e c i a l l y ;a tl a s t ,o u ro w n d e s i g n e dg l o b a ls e a r c hp c a a n dl d aa r ep r e s e n t e d ,w h i c ha r ea i m e da ti m p r o v i n gt h e w e a k n e s s e so fp c aa n dl d a , r e s p e c t i v e l y t h ef o r m e rc o u l df i n db e t t e rc l a s s r e l a t e d f e a t u r es p a c e ,a n dt h el a t t e rh e l pl d at os o l v es m a l ls a m p l es i z ep r o b l e m t h o s es t r a t e g i e s h a v e b e e nt e s t e do ns e v e r a ls t a n d a r df a c ed a t a b a s e s a n dt h e n ,c l a s s i f i e r sb a s e do nd i s t a n c e f u n c t i o n sa n dn e u r a ln e t w o r ka r ed i s c u s s e d i no u rs y s t e m ,ac l a s s i f i e rb a s e do nr b f n e u r a ln e t w o r ki su s e d 3 、s y s t e mi n t e g r a t i o n i nt h i sp a r t ,h o wt oi n t e g r a t ea f r s y s t e mi si n t r o d u c e d ,a n do u r o w ns y s t e mi sd e m o n s t r a t e d ,w h i c hi sg o o da tr e a l - t i m ea n da c c u r a t er e c o g n i t i o n t h i s m 基于实时人脸识别的身份! ;剔系统研究 s y s t e mc o u l di d e n t i t ys e v e r a lp e r s o n s i no n e p i c t u r e k e y w o r d s :f a c ed e t e c t i o n ,f a c er e c o g n i t i o n ,g l o b a ls e a r c h ,p r i n c i p l ec o m p o n e n ta n a l y s i s ( p e a ) ,l i n e a rd i s c r i m i n a n ta n a l y s i s ( l d a ) i v 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律责任由本人承担。 论文作者签名:象盟亟 e t 期:丝竺堑:翌 关于学位论文使用授权的声明 本人完全了解济南大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借鉴;本人授权济南大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:名奎盈弓二导师签名:婢日期: 济南大学硕j j 学位论文 第一章引言 1 1 人脸识别的研究意义及其研究现状 人脸识别是图像分析与理解最重要的应用之一,也是人类开发自身生物特征的又 一次伟大尝试。所谓人脸识别,就是利用计算机分析人脸视频或者图像,并从中提取 出有效的识别信息,最终判别人脸对象的身份。 对这一问题可以进行一个笼统的描述:获取一个场景的视频图像或静态图像,然 后利用一个已知的人脸数据库来鉴别这个场景中人员的身份。 由于人脸识别涉及模式识别、图像理解、生物学、认知科学、心理学等诸多领域, 因此人脸识别的概念一经提出就引起众多学者的广泛关注。人脸识别的研究可以追溯 到2 0 世纪6 0 年代末期【1 1 。随着人们对人机交互、图像理解、自动身份识别的要求的 提高,人脸识别技术获得了飞速发展。但是,真正人脸识别技术的发展是在2 0 世纪 的8 0 9 0 年代【2 】,促进这一发展的原因是计算机硬件成本的下降。 近年来,特别是“9 1 1 恐怖袭击事件后,由于各方面对安全保障系统的迫切需 求,人脸识别的研究变得非常热门。各种关于人脸识别的研究成果也层出不穷,这其 中既包括新技术的提出、经典理论的改进,也包括多种理论的综合。在国外,还出现 了针对人脸识别专门召开的国际会议,例如,a f g r ( t h ei n t e r n a t i o n a lc o n f e ;r e n c e so n a u t o m a t i cf a c ea n dg e s t u r er e c o g n i t i o n ) 和a v b p a ( t h ei n t e r n a t i o n a lc o n f e r e n c e so n a u d i o a n dv i d e o b a s e dp e r s o n a u t h e n t i c a t i o n ) 。这一研究方向之所以能够吸引如此多 的注意力,在本质上,是由于这一领域蕴含着无限的商业价值:在这个科技飞速发展 的时代,人们迫切需要一种全新的安保技术:这种技术能够确保每个人的安全,而与 此同时,这种技术又能不打扰每个人的正常生活。其他的安保技术,例如,指纹识别、 视网膜和虹膜扫描等,虽然这些技术目前已经十分可靠,然而这些技术得以应用的前 提是必须得到参与人的合作,也就是要不可避免的影响人们的正常生活。但在这个个 人生存空间越来越受重视的时代,这一点恰恰是很多人所厌恶的。在参考文献【3 】中, p j p h i l i p s 等人详细讨论了利用各种生物特征进行识别的优缺点。 目前,在高新技术发展最为迅速的美国,有许多研究组织在从事人脸识别方面的 研究,这些研究受到军方、警方及大公司的高度重视和资助。美国军方每年还专门组 基于实时人脸识别的身份苍别系统研究 织人脸识别技术竞赛以促进这一领域的发展。 各项相关技术的研究背景,详见各相关章节。 1 2 人脸识别系统的组成 从整体上看,一个完整的人脸识别系统应该包括两个主要的部分:人脸检测和人 脸识别【4 l ( 有的文献也将人脸识别中的特征提取单独作为一个部分【5 】) 。人脸识别系统 的结构见图i i 。人脸检测是指对于任意一幅给定的图像,采用一定的策略对其进行 搜索以确定其中是否含有人脸,如果是则返回人脸的位置及大d d 6 1 。人脸识别则是指 利用已知的人脸身份数据库来鉴别被测图像中人脸的身份。这两个部分是紧密相联 的,人脸检测是人脸识别的基础,如果人脸检测的效果不理想,那么再好的人脸识别 策略都是空谈,而反过来,如果人脸识别的效果不理想,即使有完全精确的人脸检测 方法,最终的系统还是无法正确判断出被检测人的身份。这两部分前后相继,密切联 系,在技术上也有很大交叉,有些文献也将这两部分综合起来进行讨论( 常见于多种 经典识别方法的结合) 【7 ,剐。为了能够更清晰的展示整个人脸识别系统的结构,本文 将在随后的章节中分别对这两部分进行详细的介绍。 被测图像 - - - - - 图i 1 人脸识别系统的组成 1 3 研究的目的、内容和章节安排 输出身份 判别结果 - - - - - 本文主要的研究目标是构造一个能实时鉴别出被测人身份的识别系统( 重点研究 人脸识别的各项相关技术) 。所谓实时鉴别,就是指,利用已知人脸身份的数据库, 对摄像头实时捕获的视频图像信息立刻做出反应:如果其中没有人脸,则不进行操作; 如果其中有人脸,则圈出人脸所在区域,并给出图中人的身份。本文所要解决的主要 问题包括如下几个方面: i 如何实时获取摄像头所拍摄的视频图像信息; 2 济南大学硕十学位论文 2 如何判断所获取的视频图像中是否有人脸的存在,并进行有效的人脸检测; 3 如何对人脸检测系统输出的人脸图像信息进行身份的识别; 4 如何综合各项相关技术,最终形成一个有效的身份鉴别系统; 在以上的四个问题中,非常幸运,第一个问题现在已经解决。因为,软件开发商 们已经提供了可以直接使用的开发包来完成视频获取的功能,例如w 和 d i r e c t s h o w 。这些工具的使用十分便利,因此在这里就不详细论述了,本文的研究重 点主要放在后三个问题。本文的章节安排如下: 第二章主要介绍如何评价一个人脸识别系统的好坏,并简要介绍了人脸识别研究 中常用的人脸图像数据库和评测协议; 第三章主要解决问题2 。这一章首先总体介绍了各种常见的人脸检测策略,而后 重点讨论了我们设计的系统中所使用的基于a d a b o o s t 算法的层级式人脸检测策略。 第四章是本文的重点,主要解决问题3 ,即介绍如何进行人脸识别。这一章分两 大部分:人脸的特征提取和分类器设计。虽然前者是决定人脸识别成败的关键,但后 者的重要性同样不能被忽视。 第五章解决问题4 ,进行系统集成。 第六章总结全文,并分析存在的问题。 3 济南大学硕十学位论文 第二章人脸识别系统的评价标准 在介绍如何构建一个人脸系统之前,有必要先介绍一下如何评价一个系统的好 坏,以便于我们始终有正确的目标作为研究指引。 2 1 评价一个识别系统的标准 决定一个识别系统优劣的因素有很多,不能只靠笼统的错误率来衡量,通常需要 特别考虑的因素包括: 1 、识别系统衡量指标 错误拒绝率( 错误拒绝合法用户的几率) 、错误接受率( 错误接受非法用户的几 率) 和交叉错误率( 错误拒绝率和错误接受率的交叉结果) 。错误接受率通常被认为 是衡量生物特征验证设备发生错误几率的主要指标,而交叉错误率则是衡量设备准确 率的主要指标。越敏感的设备,错误拒绝率就越高,而越不敏感的设备,错误接受率 就越高。 2 、速度 大部分应用领域需要在线实时地检测人脸,如人脸识别、人脸跟踪和可编程视频 监控等,这就对系统的处理速度提出了很高的要求。 3 、鲁棒性 系统的鲁棒性反映了一个系统在各种条件下的适应能力。 2 2 标准人脸库和评测协议 拥有一个放之四海而皆准的评价标准来评测五花) k f - 的人脸识别理论和方法是 每一个从事这方面研究的人的梦想,因为,各自为战的评价标准不利于客观的评价各 个方法的好坏,更不利于学科的整体发展。 然而,非常遗憾,人脸识别这一问题的本质特点决定了它是与具体的应用环境紧 密相联系的。而对于不同的应用环境,评价方法显然是有差别的,例如,对于单一背 景和复杂背景,情况显然是不同的;对于光照均匀和非均匀,情况也是有所差异的。 因此,无论人们怎样努力,所得出的评价标准都只能是基于统计的,不可能找出一种 能对每一具体问题都能做出恰如其分评价的标准。 5 基于实时人脸识别的身份鉴别系统研究 从以往对o c r ( 光学字符识别) 和指纹识别系统的评价方法【9 ,l o 】中可以了解到, 要对基于图像的身份鉴别方法进行有效评价,就必须获取大量的测试图像,而且用于 进行测试的样本图像必须要与实际应用中所遇到的图像尽可能相似。 在过去的数十年中,科研人员已经搜集和整理了许多具有代表性的图像数据库, 这些数据库都尽力使人脸图像多样化,目的就是为了尽可能真实的模仿真正的识别情 景。比较著名的数据库包括:f e r e t 1 1 1 ,a t & t 1 2 1 ,y a l e ,a rf a c e s 【1 3 】等。目前,大 多数的图像库都是免费提供给世界各地的科研人员使用的( 获取有些库需要进行书面 申请) ,这些前辈的无私奉献是人脸识别技术能够以惊人速度向前发展的源动力。 正如前面所说的,由于这些图像库所面向的应用背景不同,他们所强调的内容, 所设计的图像的变化风格都是不同的。 2 2 1f e r e t 人脸图像库 图2 1f e r e t 人脸库图像示例 为了促进人脸识别更快更好的发展,从1 9 9 3 年到1 9 9 7 年,由美国国防c t d 囊翥纛震 纛黼 一 一, 蠡赚 济南大学硕士学位论文 ( c o u n t e r d r u g t e c h n o l o g yd e v e l o p m e n t ) 计划支持并由美国国防部高等研究计划局出 面主持并实施了f e r e t ( t h e f a c i a lr e c o g n i t i o nt e c h n o l o g y ) 计划。f e r e t 图像库就 是这个计划实施时所采集的。这个图像数据库后来被广泛的应用于人脸识别算法的训 练和测试。最初,这个图像库中共有1 4 0 5 1 幅8 位灰度人脸图像( 后来,科研人员又 对这个图像库进行了极大的扩充) ,这些图像中既有正面的人脸图像,也有左侧面和 右侧面的人脸图像。图2 1 展示了f e r e t 图像库中的一些图片。 2 2 2a t & t 人脸图像库 图2 2 a t & t 人脸库图像示例 a t & t 人脸图像库( 即o r l - o l i v e t t ir e s e a r c hl a b o r a t o r y 或o l i v e t t i 人脸库) ,是 a t & t 剑桥实验室( a t & tl a b o r a t o r i e sc a m b r i d g e ) 采集构建的。采集的时间是1 9 9 2 年4 月至1 9 9 4 年4 月。构建这个图像库最初的目的是帮助研究该实验室的一个人脸 识别项目。这个项目的研究是由a t & t 剑桥实验室与剑桥大学工程系( c a m b r i d g e 7 基于实时人脸识别的身份鉴别系统研究 u n i v e r s i t ye n g i n e e r i n gd e p a r t m e n t ) 的语音、视觉及机器人技术研究组( s p e e c h ,v i s i o n a n dr o b o t i c sg r o u p ) 联合进行的。 a t & t 图像库由4 0 个人的人脸图像组成,每个人有1 0 幅不同的图像。在这些人 各自的1 0 幅图像中有许多大小不定的变化,例如光照的变化,面部表情的变化( 睁 眼或闭眼、笑或不笑) ,以及面部细节的变化( 戴眼镜或不戴眼镜) 。而且,其中一些 人的图像还是在不同的时间获取的。在这个库中,每幅图像的大小都是9 2 x 1 1 2 ( 其 中每个像素的灰度等级均为2 5 6 ) ,所有图像的背景相同,且都是正脸图像( 有些人 脸图像有些许侧向移动) 。图2 2 展示了a t & t 图像库中的一些图片。 2 2 3y aie 人脸图像库 9 窖营圆囊:誊量5- 薏一 固窖孽 盆岔9 口量雷9 雷 图2 3y a l e 人脸库图像示例 y a l e 人脸库包含1 5 个人、共1 6 5 幅灰度图像。每人各有1 1 幅图像,图像大小为 3 2 0 x 2 4 3 ,这些图像的表情或拍摄光线略有不同。这个数据库中,每个人的1 1 幅图像 的拍摄情况分别是:光线从中间照射时、戴眼镜时、高兴时、光线从左边照射时、不 戴眼镜时、自然表情时、光线从右边照射时、悲伤时、疲劳困倦时、惊讶时和眨眼时。 图2 3 是y a l e 库的一些示例图片。 翟露固瓷窖 o ,峨i 一 济南人学硕,i j 学位论文 2 2 4 常用人脸图像库汇总 除了以上介绍的3 个人脸图像库,还有一些标准人脸库也非常常用。表2 1 汇总 了常用的一些图像库【1 4 1 。 表2 1 常用人脸图像库汇总 图像库名r g b - 灰度图像大小库中人数每人图像数条件变化 a rf a c ed a t a b a s er g b5 7 6 x 7 6 81 2 62 6 i ,e ,o ,t 7 0 m ,5 6 f r i c h a r d sm n d a t a b a s er g b4 8 0 x 6 4 01 5 46 p ,0 8 2 m ,7 4 f c v ld a t a b a s er g b 6 4 0 x 4 8 01 1 4 7 p ,e 1 0 8 m ,6 f 1 1 圮y a l ef a c cd a t a b a s eb 灰度 6 4 0 x 4 8 01 05 7 6 p ,i r 1 1 圮y a l ef a c ed a t a b a s e灰度3 2 0 x 2 4 31 5 1 1 i c 1 4 m ,1 f p i ed a m b a r g b 6 4 0 x 4 8 668“d8 p ,i ,e 1 1 圮u m j s tf a c ed a t a b a s e 灰度 2 2 0 x 2 2 02 01 9 - 3 6p a t & t o r l 灰度 9 2 x 1 1 24 0 1 0 岫d a t a b a s e 灰度 2 5 6 x 2 5 61 07e 乃eh u m a ns c a nd a t a b a s e 灰度 3 8 4 x 2 8 62 3确 n e u n i v e r s i t y o f o u l u灰度4 2 8 x 5 6 91 2 51 6 i p h y s i c s b a s e df a c ed a t a b a s e x m 2 1 s d br g b5 7 6 x 7 2 02 9 5p f e r e tr g b ,灰度2 5 6 x 3 8 4 p ,i ,e ,i o ,t 表中,“条件变化”列中的符号的含义为:i ( i l l u m i n a t i o n ) - 光线;p ( p o s e ) 姿态;e ( e x p r e s s i o n ) - 表情;o ( o c c l u s i o n ) - 遮挡;i o ( i n d o o r o u t d o o r ) 一室内室外;t ( t i m e ) 时间延迟。 2 2 5 评测协议 科研人员也提出了一些指导如何进行测试的标准测试协议,例如,基于f e r e t 图像库的f e r e t 协议和基于x m 2 v t 图像库的x m 2 v t 协议。这些标准协议的一个 9 基于实时人脸识别的身份签别系统研究 共同的特点是,他们都要求针对具体的评测目的,组建具体的测试图像子集,并且会 通过一系列的子测试来实现对一个系统的完整评价,具体内容详见参考文献【5 】。这 些标准的出台,极大地促进了人脸识别理论体系的发展和完善,是人脸识别发展过程 中里程碑式的进步。 1 0 济南人学硕仁学位论文 第三章人脸检测 人脸检测是一个复杂的、具有挑战性的模式检测问题。人脸图像具有相当丰富的 变化,克服这些变化造成的干扰是一项极具挑战性的任务。可以将这些变化大体归为 两类: 一类是人脸自身的主动变化,具体包括: 1 、人脸具有相当复杂的细节变化,包括不同的外貌如脸形、肤色等,以及不同 的表情如眼、嘴的开与闭等; 2 、人脸的遮挡,如眼镜、头发和头部饰物以及其他外部物体等。 另一类则是由于获取图片时外在条件的不同而引起的变化,包括: 1 、由于成像角度的不同造成人脸的多姿态,如平面内旋转、深度旋转以及上下 旋转,其中深度旋转影响较大; 2 、光照的影响,如图像中的亮度、对比度的变化和阴影等; 3 、图像的成像条件,如摄像设备的焦距、成像距离,图像获得的途径等。 这些困难都为解决人脸检测问题增加了难度。 本章将具体介绍各种流行的人脸检测技术,分析他们的优缺点,并在最后重点介 绍我们开发的系统中所采用的基于a d a b o o s t 算法的实时人脸检测技术。 由于人脸检测的对象是视频图像或静态图像,因此,在讨论具体的人脸检测算法 之前,有必要简略介绍一下主流的图像处理技术,毕竟这些技术是进行人脸检测的基 础。 3 1 图像处理技术基础 3 1 1 边缘检测 图像边缘对于图像识别和计算机分析十分有用。借助图像边缘能勾画出目标物 体,使观察者一目了然;图像边缘同时也蕴含了丰富的内在信息( 如方向、阶跃性质、 形状等) ,是图像识别中非常有价值的重要属性。从本质上说,图像边缘是图像局部 特性不连续性( 灰度突变、颜色突变等) 的反映,它标志着一个区域的终结和另一个 区域的开始。 边缘提取首先要检测图像局部特征的不连续性,然后再将这些不连续的边缘像素 1 1 幕于实时人脸识别的身份糁别系统研究 连成完备的边界。边缘的特性是沿边缘走向的像素变化平缓,而垂直于边缘方向的像 素变化剧烈。从这个意义上来说,提取边缘的算法就是检出符合边缘特性的边缘像素 的数学算子。 边缘检测算子检查每个像素的邻域并对灰度变化率进行量化,通常也包括方向的 确定。有很多方法可以使用,其中大多数是基于方向导数模板求卷积的方法。 由于我们常常无法事先确定轮廓的方向,因而挑选用于轮廓增强的微分算子时, 必须选择那些不具有空间方向性和具有旋转不变性的线性微分算子。最基本的一类边 缘检测算子是微分算子类。包括:r o b e r t 边缘检测算子、s o b e l 边缘检测算子、p r e w i t t 边缘检测算子、k r i s c h 边缘检测算子、l a p l a c i a n 边缘检测算子、梯度算子等。除了 l a p l a c i a n 算子,其他的算子都是基于一阶方向导数在边缘处取极大值这一变化规律。 r o b e r t 采用的是对角方向相邻的两个像素之差。s o b c l 算子有一定噪声抑制能力,在 检测阶跃边缘时得到的边缘宽度至少为两个像素,它不依赖于边缘方向,是一个标量 而不是向量,具有旋转不变即各向同性的性质。在图像处理中经常被用来提取图像的 边缘。l a p l a c i a n 算子基于的是二阶导数的零交叉。微分算子类边缘检测方法的效果 类似于空间域的高通滤波,有增强高频分量的作用,因而对噪声敏感。具体介绍如下: 1 、r o b e r t 边缘检测算子 采用对角方向相邻的两个像素之差。边缘定位准,对噪声敏感。r o b e r t 算子为: r0 1 1 ll l _ 10i lj 2 、s o b e l 边缘检测算子 两个卷积核形成的s o b e l 边缘检测算子如下。图像中的每个点都用这两个核做卷 积,一个核对垂直方向边缘影响最大,而另一个对水平方向边缘影响最大。边缘检测 算子的中心与中心像素对应,进行卷积运算,两个卷积核的最大值作为该点的输出位。 运算结果为一幅边缘幅度图像。在边缘检测中,s o b e l 算子对于像素的位置的影响做 了加权,加权平均边宽之2 像素,因此效果更好。 匮; 1 2 r 一12 l l0 0 l i 12 l 济南大学硕f j 学位论文 雕】 r 一1 1 l l0 0 i l1 1 l 4 、k r i s c h 边缘检测 以下8 个卷积核组成了k r i s c h 边缘检测算子。图像中的每个点都用8 个掩模进 行卷积,每个掩模都对某个特定边缘方向做出最大的响应,所有8 个方向中的最大值 作为边缘幅度图像输出。最大响应掩模的序号构成了边缘方向的编码。k r i s c h 边缘检 测算子为: 【墨三墨】【三三三】【三三重】 _ 3 3 1 1 05l 55i j 【孑享孑【;三】【5 三三三【三三三】 5 、梯度 图像处理中最常用的微分方法是求梯度。对于图像删) , 一个矢量。 梯度的模定义为: g f ( i ,朋= 【庠) z + 萍) z 】v : d i o l 它在点( 撕) 处的梯度是 ( 3 1 ) 对于离散图像,可用差分法近似上述公式,得到: g f ( i ,_ ) 】= 【,g ,j ) 一f ( i - l , j ) 2 + 【,( f ,j ) - f ( i ,j - 1 ) 2 ,2 ( 3 2 ) 这是双方向一次微分运算。为了便于编程和提高运算,在某些情况下可进一步简 化为: g f ( i ,棚= i ,( f ,j ) - f ( i - 1 , j ) l + i f ( i ,j ) - f ( i ,卜1 ) i ( 3 3 ) 利用差分运算时,图像的第一行和第一列的像素的梯度无法求得,一般用后一行 和后一列的梯度值近似代替。 基于实时人脸识别的身份i 掺别系统研究 6 、根据梯度二值化图像 阶跃状边缘的一阶导数在边缘点取极值。由此,我们对图像删) 的每个像素取它 的梯度值g ( 撕) ,适当取门限丁作如下判断:若g ( “) 乃则( u ) 点为阶跃状边缘点, g ( u ) 称为梯度算子的边缘图像。 g q , j ) = 仁研邝凝 ( 3 4 ) 厶为对图像阶跃边缘指定的灰度值,如为对图像背景指定的灰度值。其他梯度是 向量,各向同性。梯度方向对应于最大变化率的方向,即: q = a r c t a n 等掣】 ( 3 5 ) 梯度幅度比例于邻像素的灰度级,在灰度陡变的区域,梯度值大,在灰度相似的 区域,梯度值小,在灰度值为常数的区域,梯度为零。这样处理可以把图像中我们关 心的部分突出出来,去除我们不感兴趣的部分。 3 1 2 数学形态学 数学形态学n 5 1 诞生于1 9 6 4 年。1 9 8 5 年后数学形态学得到了不断的丰富和发展, 并且成为了一种新型的图像处理的理论和方法。数学形态学以图像的形态特征为研究 对象,描述图像的基本特征和基本结构,也就是描述图像中元素与元素、部分与部分 间的关系。通常形态学图像处理表现为一种邻域运算形式,采用邻域结构元素的方法。 在每个像素位置上,邻域结构元素与二值图像对应的区域进行特定的逻辑运算,逻辑 运算的结果为输出图像的相应像素。 数学形态学的运算以膨胀和腐蚀两种基本运算为主,常见的还有开运算、闭运算、 击中、细化和粗化。用这些运算及其组合可以进行图像形状和结构的分析和处理,包 括图像分割、特征抽取、边界检测、图像滤波、图像增强和恢复方面的工作。 1 、图像膨胀 膨胀在数学形态学中的作用与腐蚀的作用正好相反,它是对二值化物体边界点进 行扩充,将与物体接触的所有背景点合并到该物体中,使边界向外部扩展的过程。如 果两个物体之间的距离比较近,则膨胀运算可能会把两个物体连通到一起,膨胀对于 填补图像分割后物体中的空洞很有用。膨胀的数学表达式如下: s x ( b b 一 z ,ylb 0ix 伊)( 3 6 ) 济南人学硕f j 学佗论文 在公式3 6 中,s 表示膨胀后的二值图像集合,b 表示用来进行膨胀的结构元素, 结构元素内的每一个元素取值为0 或1 ,它可以组成任何一种形状的图形,在图形中 有一个中心点:x 表示原图像经过二值化后的像素集合。此公式的含义是用b 来膨胀 x 得到集合s ,s 是由曰映像的位移与x 至少有一个像素相同时口的中心点位置的集 合。通常是拖动结构元素在x 图像域移动,横向移动间隔取一个像素,纵向移动间隔 取一个扫描行。在每一个位置上,当结构元素b 的中心点平移到x 图像上的某一点 , y ) ,如果结构元素的像素与目标物体至少有一个像素相交,那么就保留 ,) ,) 像素点, 从而达到使物体边界向外扩张的效果。 图3 1 说明了膨胀的原理。左边是被处理的二值图像x ,中间是结构元素b ,标 有1 的点是中心点,拿曰的中心点和x 上的点及周围的点一个一个地对,如果口上 有一个点落在x 的范围内,则该点就为白。右边是膨胀后的结果。可以看出,它包括 x 的所有范围,就像x 膨胀了一圈似的。 010 11o 000 口 图3 1 朐8 示意图 x 9 b 2 、图像腐蚀 腐蚀在数学形态学中的作用是消除物体边界点,使边界向内部收缩的过程,可以 把小于结构元素的物体去除。这样选取不同大小的结构元素,就可以去除不同大小的 物体。如两个物体间有细小的连通,通过腐蚀可将两个物体分开。腐蚀的数学表达式 如下: s = x b = 缸,y i 氏x ) ( 3 7 ) 在公式3 7 中,s 表示腐蚀后的二值图像集合,b 表示用来进行腐蚀的结构元素, 结构元素内的每一个元素取值为0 或l ,它可以组成任何一种形状的图形,在b 图形 中有一个中心点;x 表示原图像经过二值化后的像素集合。此公式的含义是用b 来腐 1 s 基于实时人脸识别的身份掺别系统研究 蚀x 得到的集合s ,s 是由口完全包括在x 中时b 的当前位置的集合。通常是拖动结 构元素在x 图像域移动,横向移动间隔取1 个像素,纵向移动间隔取1 个扫描行。在 每一个位置上,当结构元素b 的中心点平移到x 图像上的某一点g ,y ) ,如果结构元 素内的每一个像素都与以g ,y ) 为中心的相同邻域中对应像素完全相同,那么就保留 , ) ,) 像素点,对于原图中不满足条件的像素点则全部删除,从而达到使物体边界向内收 缩的效果。 图3 2 说明了腐蚀的原理。左边是被处理的二值图像z ,中间是结构元素b ,标 有1 的点是中心点,即当前处理元素的位置,拿b 的中心点和x 上的点及周围的点 一个一个地对,如果且上的所有对应的点都在x 的范围内,则该点保留,否则将该 点去掉。右边是腐蚀后的结果。可以看出,它仍在原来x 的范围内,且比x 包含的 点要少,就像j 被腐蚀掉了一层。 3 1 3 颜色空间 010 1l0 o0 0 丑 图3 2 您口示意图 x b 颜色空间( 也称彩色模型,色彩空间或彩色系统) 的用途是在某些标准下用通常 可接受的方式简化彩色规范。本质上,颜色空间是坐标系统和子空间的规范。位于系 统中的每种颜色都由单个点来表示。本小节将简略介绍几种比较重要的颜色空间1 1 6 1 。 3 1 3 1r g b 颜色空间 r g b 颜色空间最常见的用途就是应用于显示器系统。彩色阴极射线管,彩色光 栅图形显示器都使用r 、g 、b 数值来驱动r 、g 、b 电子枪发射电子,并分别激发荧 光屏上的r 、g 、b 三种颜色的荧光粉发出不同亮度的光线,并通过混合相加产生各 种颜色;扫描仪也是通过吸收原稿经反射或透射而发送来的光线中的r 、g 、b 成分, 1 6 济南大学硕卜学位论文 并用它来表示原稿的颜色。r g b 色彩空间被称为与设备相关的色彩空间,因为不同 的扫描仪扫描同一幅图像,会得到不同色彩的图像数据;不同型号的显示器显示同一 幅图像,也会有不同的色彩显示结果。显示器和扫描仪使用的r g b 空间与c i e l 9 3 1 r g b 真实三原色表色系统空间是不同的,后者是与设备无关的颜色空间。 3 1 3 2y u v 、y i q 和y c b c r 颜色空间 欧洲的电视系统定义了相交替格式( p h a s ea l t e r n a t i n gl i n e ,简称p a l ) 。y u v 色彩空间被欧洲的电视系统所采用,其中y 指亮度,u 和v 指色调。这种色彩空间 是以演播室质量标准为目标的c c i r 6 0 1 编码方案中采用的色彩表示模型,被广泛地 应用在电视的色彩显示等领域中。 n t s c ( 美国国家电视系统委员会) 定义了用光亮度和色度传送信号的y i o 色彩 空间,其中y 代表亮度信息,i 和q 是两个相互正交的分量表示色度信息。其中,i 色度分量选在相位角为1 2 3 。的红色和3 0 3 。的青蓝色色调位置,q 色度分量选在色 分解力较弱的紫红色和黄绿色色调位置上,这样可以充分利用人眼的色分辨力。 在j p e g ( j o i n tp h o t o g r a p h i ce x p e r t sg r o u p ) 标准中,r g b 图像被转换到的亮度- 色度空间,通常称之为y c b c r 色彩空间。它是从y u v 色彩空间衍生出来的。其中y 指亮度,c b 和c r 是将u 和v 做少量的调整而得到,c b 表示蓝色分量,c r 表示红色 分量。 3 1 3 3h s v 颜色空间 h s v 颜色空间的模型对应于圆柱坐标系中的一个圆锥形子集,圆锥的顶面对应 于v = i ,它包含r g b 模型中的r = i ,g = i ,b = i 三个面,所代表的颜色较亮。色彩 h 由绕v 轴的旋转角给定。红色对应于角度o 。,绿色对应于角度1 2 0 。,蓝色对应 于角度2 4 0 。在h s v 颜色模型中,每一种颜色和它的补色相差1 8 0 。饱和度s 取值从o 到1 ,所以圆锥顶面的半径为1 。h s v 颜色模型所代表的颜色域是c i e 色度 图的一个子集,这个模型中饱和度为百分之百的颜色,其纯度一般小于百分之百。在 圆锥的顶点( 即原点) 处,v = 0 ,h 和s 无定义,代表黑色。圆锥的顶面中心处s = 0 , v = 1 ,h 无定义,代表白色。从该点到原点代表亮度渐暗的灰色,即具有不同灰度的 灰色。对于这些点,s = 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论