版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于神经网络的人脸检测方法摘要:自动人脸检测应用十分广泛,如安全访问控制,基于模型的视频编码或基于内容的视频索引,所以它正在成为一个非常重要的研究课题。在本文中,我们在假设不考虑内容,场景的照明条件,大小,方向和外观的前提下,提出了一种检测复杂图像和精确本地半正面人脸的方法。这就是卷积神经网络结构,这种方法不像其他系统,其他系统需要一个手工检测的阶段或特征分类阶段。卷积神经网络结构是从一个大的训练集中自动合成自己的一套特征提取方法,所以它可以直接从未预处理的照片中提取变化的人脸模型,而且可以在神经元模型中利用感受区域,共享权数和空间采样对人脸进行一定程度的旋转,缩放和变形。我们将会对我们的结构
2、,研究策略和检测过程进行详细的描述。最后我们将证明在环境和人脸变化的情况下这种方法相当稳健,具有精确检测的能力。1简介因为其广泛的应用范围,人脸检测正在成为一个非常重要的的研究课题。比如在安全访问控制,基于模型的视频编码,基于内容的视频索引等方面。相对于人脸检测,脸部识别和表情分析算法已经得到学术方面的足够关注。近年来,在光线,面部表情和姿势微小变化的情况下,对人脸的识别已经取得相当大的进展。在1中你会发现一个现象。就是大多数的人脸识别和表情分析算法是在特定条件下得到的,要么是在同一背景下要么是出现过的图像要么直接是“人脸照片”,在这种情况下,人脸识别相对比较容易。然而,多数情况人脸检测是在复
3、杂的场景下,这并不简单。由于面部表情,表现力和方位的改变面部模型也会呈现巨大的变化。最近一些检测非人脸照片的技术已经得到了提高。这些方法可大致分为三大类:本地的面部特征检测,模板匹配和图像不变性。第一种方法,低层次的计算机视觉算法3,7,13用于检测的面部特征,如眼睛,嘴巴,鼻子,下巴和其他特征部位。第二种方法,几个相关模板用来进一步检测本地特征。这些人脸特征将被作为硬性模板(基于eigenspaces8或(模板12,5。这些方法有很大的缺点,就是即使是很小的约束全局条件被改变也会对人脸模型和提取特征造成强烈的影响,比如噪声,表情的变化和焦点的改变等。最后一种方法,即使在不同的成像条件下图像不
4、变方案也假定图像存在一定空间关系,比如亮度分布,相似点,人脸模型10的唯一性。在场景不受限制的情况下,这些算法都不是很健壮。肤色信息的使用是制约搜索空间的一个重要线索。在4中,Garcia and Tziritas提出一个快速检测到人脸的方法,即皮肤颜色过滤和概率分布方法,而所用到的统计数据是从小波包中分解提取得到的。在5中,Garcia将可变的脸部模板进行扩展,从而使这种方法可以精确的定位面部特征。对于一般灰度图像,不需要遵守人为设定的规则,事实证明,类似于11,9中提到的基于神经网络的方法,效果最好。在本文中,我们提出一种新的检测方法,这种方法是基于神经网络的检测方法,这种方法可以对复杂的
5、照片即使是半正面的人脸进行准确的检测。不需要考虑场景的照明条件,人脸大小,方向和人的外貌特征等因素。这种方法和其他系统不一样,其他系统需要一个人工检测处理特征的阶段,然后是特征分类阶段。我们提出了一个卷积神经网络架构,这种方法不需要预处理就可以直接对可变的人脸进行检测,他可以从大量的训练集中自动合成一套对人脸特征进行萃取的方案。通过对一个神经元模型的底色接收,加权和空间采样,即使人脸进行了旋转,缩放和变形,也不会影响该方法对人脸的检测。首先介绍一下优化设计的架构和我们的研究策略。然后,我们描述一下目前使用这种架构的检测过程。最后我们提供一些实验结果跟在5中提到的方法进行比较,我们将证明在环境不
6、受控制和人脸变化的情况下该算法的精确性。2所提出的方法2.1神经网络结构因为人脸会进行不同程度的扭曲,所以要找到人脸模型是非常困难的,我们必须要把这纳入我们的考虑范围之内。这些困难包括不同表情,环境条件和视觉角度等。我们对所有可能的情况进行了列举,得出这种情况是无尽的。所以我们需要研究一个机器算法,比如基于神经网络系统的方法。这个标准的,非结构化的,完全连接的拓扑结构的缺点是需要大量的训练数据,因为它不能对所有变化的模型进行编码。不过,网络结构可以对已经获得的模型进行直接编码。在旋转不变性,方向,扭曲等方面,这种编码技术与本地图像有关的。卷积神经网络6是神经网络其中的一种,它能对这些图像进行编
7、码。我们使用的卷积神经网络如图1所示。该网络有6层,其中前四个充当所谓的特征映射6。层C1对输入的图像执行一个相匹配的卷积加权,再添加一些偏差情况。记录那些有重叠色彩区域的神经元作为一个纯粹的的卷积过程。相同特征图共享这些加权,所以实际上只有4个神经元在这一层。这些神经元提取相同的特征,把它们的确切位置进行独立记录。我们使用的是5*5的面具,所以在第一层一共有104个加权。假设输入维度是32x36,这一层的特征图的大小是28列×32行。层s2是对上一层未采样的图片进行执行并输出。更确切地说,每一个样本的输出是通过综合计算得到的。用这种方法,我们减少了特征图的维数。最后,线性输出的过程
8、是通过一个sigmoid函数(在我们的例子中,是双曲正切函数。经过二次取样,记得到了每个特征确切的位置和具体情况,这证明了我们算法的健壮性。这些特征图的大小是14x16,而这一层的权重为8。层S1和C2部分连接,如表1所示。通过这种方法,结合不同种类的特征,相当于把新组成的一个样本集添加到网络中。层C2和S2的过程与层C1和S1相同,不同的是在c2层用的是3x3的面具。在S2层中有14个特征图168个加权,每个图的维是6X7。表1。C2层中每一列和每一行对应映射到一个S1层的特征图。连接都标有一个X。在N1和N2层,实际的分类执行是在提取和降维完成之后。N1层中,我们有14个神经元,每个相应连
9、接到S2层中的特征图。输出层N2中的单个神经元是完全连接到层N1中所有神经元的。最后这层共包含617权重。图1。我们使用的网络结构。实际上已经检测到一个真实的例子。然而,它使用了127093个连接,全球的拓扑结果也只有897个样本参数。这种拓扑结构可以一次解决俩个问题:稳健性问题和良好的泛化问题。2.2训练方法为了得到训练集,我们在互联网上使用各种渠道获得的大量的图像集合。这些集合保存在一个大的数据库中,这些不是普通的数据库。由于需要输入维数,在文献11,9中大多数基于神经网络的算法使用20*20的窗口进行输入,这是从人脸模型获得的最少的维数。通常情况下,这个窗口是面对人脸的中心部位,不包括边
10、界和任何背景信息。在我们的方法中,我们会把边界和背景的部分信息添加到输入窗口。这是神经网络的运作方式:因为他们需要在输入平台输入关键的信息。另一方面,通过增加边界和一些背景,我们给网络提供一些额外的信息,这可以使我们对人脸模型进行有效的分类。边界和背景会有一个很大的变化,我们需要特别注意,否则会使算法有所偏差(例如,背景绝不能总是黑色。是为了保持图像的原有宽高比例,最后的选择输入的大小是32x36。在提取的面孔时候,我们没有进行任何的标准化,比如在文献11,9中提到了直方图均衡化或亮度校正。而且我们也不需要人脸保持在同一个位置,比如眼睛,嘴巴和其他器官都在时刻变化。从技术上讲,在失去原始比例的
11、情况下,这是不可能的,这就需要引入一个偏差(所有的例子都要在这个方法下进行标准化。此外,我们提到不管外界怎样变化,这个网络拓扑结构是相当稳健的,所以我们给出了一些标准化的例子来提高系统的稳健型。图2介绍了一些我们所使用的例子。图2是一些从2146张图片中摘取的例子,在第二行,也有一些经过旋转和降低对比度的例子。在现实中人脸的旋转和灰度变化都应当被考虑,我们通过应用旋转(±20度,然后降低对比度(包括经过旋转处理的图片。为了使质量不高的照片得到好检测的结果,这样做是非常重要的。因为大部分的训练集都是从质量非常好的图片中得到的。另外一个解决方案是采用直方图均衡化对灰度进行标准化。这是不安
12、全的,因为它可能会影响表面纹理。在图2中我们展示了一些经过转换的。最后,应用转换后,训练集的规模达到了12,876。像文献6中描述的,为了得到训练集,我们把修改后的BP算法应用到卷积网络算法中。设置-1代表非面孔,1代表面孔。随机出现的不包含人脸的图片会被当作错误的(非人脸的例子。总之,我们认为这种方法不是最佳的,因为人脸的边界区域与非人脸的图片是非常接近的。作为一种替代的解决方案,我们训练一些非人脸的模型,就是为了得出这些错误的警报。下一步,随机选取的错误例子将会被实际训练中产生的错误警报替代。此外,为了避免任何偏差的出现,我们将新的一组错误的例子应用到我们上面所说的转换问题上。因此,产生了
13、约6000个非人脸模型的例子。为了得到更多的错误例子,对照片进行分类处理是一个广泛被采用方案,由于无法预测到所有可能的虚假例子,这就需要研究一个机器算法。需要注意的是,在引导过程中,我们将逐渐降低捕捉假警报的阈值。通过这种方式,只有最合适的有用的非人脸模型才会被使用。另外还要注意,在每一个迭代器都要被同一网络从新训练得到。并不是简单的重新构造。从一个网络得到的错误报告不可能在第二个网络上在发生(没有相同的初始化。表2为训练过程的结果报告。为了陈述这个情况,只有一层的最小化的结构已经在下面画出来了(4特征图随后由4个部分连接的神经元和最终输出一个的神经元。和预期一样,最小化的拓扑结构产生更多的错
14、误报警(在第二种情况下的训练集的大小比第一种情况要大得多。两个验证设置是用来让训练停在一个好的点,这证明使用俩个网络层是比较好的方法。2.3使用神经的过滤器寻找面部我们的系统起到一个过滤器的作用,这个过滤器接收一个32x36的图像,并生成一个从-1到1输出范围,用来分别表示人脸的出现或缺失。为了检测不同尺寸的人脸,图片会被放大到1.2倍,然后二次采样,最后得到一个金字塔型的图片。每个金字塔型图像由卷积神经网络过滤且固定输入大小为32x36。在文献11,9中,每个像素点都会经过过滤器过滤,得出的结果就是每张图片在位置和尺寸方面都会有一定的不变性。在我们的例子中,可以同时对位置和尺寸进行过滤,这使
15、我们的进程显著加快。这个搜索结果是对候选人脸的粗略定位。首先候选人脸会被映射到输入图片中。然后根据尺寸将候选人脸进行分组。确切的说每个候选人脸用一个向量(xi,yi,hi,wi,oi表示,(xi,yi是表示人脸的中心坐标,(hi,wi表示人脸的宽度和高度,oi对应算法中的结果。候选脸根据变量oi的顺序进行储存。分组算法描述见表3。应用此算法后,N对应到存储器中的N型人脸(Xn,Yn,Wn,Hn,On,这将为下一步操作进行服务。一个好的搜索方法可以很容易的检测到人脸的中心。搜索的范围会围绕着人脸区域进行搜索。小的金字塔型人脸的中心会被从0.7-1.3这6个像素点覆盖。每个人脸都会用6个像素网格表
16、示。通常人脸将会用2或3给出连续的响应,而非人脸则不会。根据这个现象,我们通过计算过滤器的响应数目,而不用再根据搜索空间的阀值来对人脸进行检测。人脸的选取将分别参考THR_FACE和NOK滤波阀值。其中图3是人脸检测过程不同阶段的一个例子。3实验结果在1中我们使用了这种方法对同一组数据进行了评估。在11中提到,这些测试数据集包含了许多从MPEG视频中提取的关键帧,尤其是使用了DiVAN方案评估方法。这些视频材料是由法国研究所和希腊ERT电视台提供。测试数据集包含100幅图像,其中大多数是从广告,电影,新闻和外景中提取的。这100张图像集包含124张人脸(最小尺寸为24x20像素和10个不包含人脸的图像。其中包含了很多种情况,尺寸,照明,面部表情和方向的变化等,该算法都对这些做了相应的处理。而且是在大部分背景极其显著的情况下。在本次测试集中包含的人脸是在训练集中是独立存储的。4结论我们的实验表明,基于神经网络人脸检测方法是一个非常有前景的。该系统的稳健性表现在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年国际货物买卖合同的支付方式及汇率风险管理
- 2024年国际货运代理与清关服务协议
- 墓碑制作技术规范及保障方案
- 2024年创业贷款合同模板
- 2024年企业数据共享与安全保护合同
- 2024年全新版短期汽车租赁协议
- 2024年吊车安全操作保证协议
- 2024年LED产品订购协议
- 2024年城市公共交通代运营复杂协议
- 医院防汛应急处理及病患安全方案
- 码头安全使用手册
- 小学语文课堂有效评价策略研究实施方案
- 服装品牌调研报告(共38张幻灯片)课件
- [上海]大型房地产项目开发成本测算实例(全套表格)
- 《西方音乐史》课件李斯特
- PAC、PAM的储存及使用注意事项
- 牛津上海版4AM3U2-Around my home
- 桥梁工程梁板的预制和安装监理实施细则
- 机能实验考核细则
- 石拱桥加固施工方案
- 抗浮锚杆防水施工方案
评论
0/150
提交评论