版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于三网络对抗学习的素描人脸合成方法
杜康宁,李凯旋,曹林+(1.北京信息科技大学光电测试技术及仪器教育部重点实验室,北京100101;2.北京信息科技大学信息与通信工程学院,北京100101)0引言目前的素描人脸合成技术[1-3]主要分为两类:数据驱动方法[4-6]和模型驱动方法[7-11]。数据驱动方法通常由图像分块、最近邻选择、权重计算和图像块拼接4个部分组成,数据驱动方法的主要优点是可以很好地合成面部细节。但是这些方法在相似的图像块搜索中通常很耗时,从而限制了这类方法的适用性。模型驱动方法主要是以离线方式学习面部照片-素描图像间的映射关系,主要优点是测试阶段非常快,但合成结果清晰度较低,缺少一些关键细节特征。显然,目前大多数素描人脸合成技术都能合成完整且令人印象深刻的结果,但在合成结果中会丢失一些关键信息,导致图像细节缺失或模糊,而且当处理的图像与训练图像相差较大时很难取得良好的效果。本文的目标是合成高质量素描人脸图像,并解决训练数据集不足而导致模型适用性差的问题。本文提出了一种素描人脸合成方法,该方法是将面部特征提取网络、生成网络及判别网络相结合的三网络对抗学习模型。首先,我们设计了一个通过面部照片来生成素描人脸图像的生成网络;然后,采用对抗学习的策略,设计了一个用于提升生成网络性能的判别网络,并对对抗损失增加控制因子,控制训练过程,保证生成网络与判别网络得到充分训练。为进一步提高生成网络合成素描人脸图像的质量,我们又构建一个面部特征提取网络计算合成素描人脸图像的细节误差。在标准素描人脸数据库中的大量实验验证了本文方法的良好性能,其能够合成高质量的素描人脸图像。本文的主要贡献概括如下:(1)提出了三网络对抗学习的素描人脸合成方法,该方法能够合成多种样式、不同种族的高质量素描人脸图像。(2)引入一种复合损失函数,将面部细节损失与对抗损失相结合,使模型更适合处理素描人脸图像合成任务。(3)通过对原有的对抗损失函数增加控制因子,控制对抗损失对全局损失的贡献程度,使生成网络能够得到充分训练,提高生成网络的性能。1本文算法1.1生成对抗网络Goodfellow等提出生成对抗网络(generativeadversarialnetworks,GAN)模型[12],引出对抗训练学习的思想。该模型由生成网络和判别网络两个相互竞争的网络组成,如图1所示。生成网络通过一组随机噪声来生成样本,判别网络用于区分生产样本是否为真实样本。生成网络G与判别网络D之间的博弈是一种最小极大博弈过程,其目标函数如下图1GAN模型结构(1)式中:x代表真实数据,z代表输入的噪声分布样本,P(x)代表数据分布,P(z)代表模型分布。GAN对图像特征有出色的感知能力,但在训练过程中会存在模式崩溃和梯度消失等问题。GAN模型在优化过程中,最小化目标函数等价于最小化真实分布与生成分布之间的JS(Jensen-Shannon)散度。Arjovsky等[13]讨论了GAN模型在训练过程中由JS散度所引起的问题,并提出使用Earth-Mover(又称为Wasserstein-1)距离W(Pr,Pf)替代标准GAN模型中的JS散度,损失函数如下所示(2)式中:Pr表示真实数据的分布,Pf表示生成数据的分布。W(Pr,Pf)近似为真实数据分布和生成数据分布的Wasserstein距离,m=1-Lipschitz。为了保证判别网络满足1-Lipschitz的限制,Gulrajani等[14]在目标函数中增加一个梯度惩罚项。梯度惩罚项如下所示(3)这种方法可以提高GAN在训练过程中的稳定性,使生成网络的选择更加灵活,允许使用更加轻量级的卷积神经网络体系结构。1.2素描人脸合成模型图2素描人脸合成框架在训练过程中,生成网络与判别网络同时训练。训练生成网络生成尽可能真实的素描人脸图像去“欺骗”判别网络,判别网络尽可能地区分伪素描图像和真实素描图像。生成网络和判别网络相互竞争,共同提高自身的能力。1.3网络结构1.3.1生成网络结构生成过程需保持图像信息在网络层逐渐增多的情况下,不损失位置信息与细节特征信息。传统的深层卷积神经网络无法有效扩充图像高度与宽度,并且池化层取平均池化或最大池化均会造成一定区域内的位置信息损失。因此,本文方法采用带有步长的卷积层来实现上采样过程中图像高度与宽度的有效扩充,且确保下采样过程中图像位置信息不丢失。生成网络由两个带步长的卷积模块、9个残差单元以及两个反卷积模块组成,如图3所示。残差单元的结构主要通过前向神经网络和shortcut连接实现,由1个卷积层、1个BatchNorm层和1个ReLU激活函数组成。残差单元的shortcut跨层连接结构,使生成网络对合成的结果更加敏感,有利于捕捉人脸图像的细节特征信息,生成逼真、清晰度高的素描人脸图像。图3生成网络结构1.3.2判别网络结构判别网络采用了与Patch-GAN[15]相同的结构,如图4(X3表示3组同类型的网络层)所示,此判别网络结构是在局部图像块级别上进行验证,避免了直接对两张完整图像进行验证所造成的信息损失。相比判别网络每次对整张图像进行真伪判断,本文判别网络一次只判断一个N×N的图像块是否为真,关注图像的局部结构,而不需要对整张图像的像素信息进行判断。判别网络只需要学习图像的高频信息,从而在一定程度上减少了训练过程中的参数量,加快运行速度,且生成的图像细节更加完整。图4判别网络结构1.3.3面部特征提取网络本文中面部特征提取网络用于对合成的素描人脸图像与真实素描人脸图像进行面部特征提取。面部特征提取网络的结构设计遵循VGGNet-16的架构,该架构相对简洁,仅通过反复堆叠3×3的卷积核和2×2的最大池化层来构建深层卷积神经网络。此外,该架构通过卷积核的串联极大地减少了网络参数量,并且相比使用单一卷积核构建的网络层拥有更多的非线性变换,更适合图像面部特征提取。由于现有标准的素描人脸图像数据集相对较小,使用小数据集单独训练面部特征提取网络很难产生良好的性能,容易出现过拟合、梯度弥散等问题。因此,本文采用迁移学习的思想,使用在ImageNet数据库中预训练的模型参数作为本文方法中面部特征提取网络的模型参数。1.4损失函数假设fr(s)和fg(p)分别表示真实图像与生成图像的分布,判别网络的优化目标函数如下(4)式中:D(s)表示判别网络对输入真实素描人脸图像Si得到的概率值,G(p)表示生成网络生成的光学面部图像Pi对应的素描人脸图像,D(G(p))表示判别网络对输入生成图像G(p)得到的概率值。式(4)判别网络优化目标函数可转化为求下式最优解(5)将式(5)中积分项的函数fr(s)logD(s)+fg(s)log(1-D(s))对D(s)求导并令其值等于0,则最优判别网络表达式如下(6)对于含有N幅光学面部照片与素描人脸图像的训练集M={(Pi,Si),i=1,2,3,…,N},θG可通过优化损失函数L得到,即(7)训练时,先在固定θD的条件下利用式(7)求解θG,然后在θG固定的条件下,用式(6)优化θD,依次类推,直至θD和θG都已收敛。损失函数L的确定对于生成网络G的效果非常重要,为了确保最后有一个高质量的素描人脸图像效果,包括量化效果(在量化指标方面)和视觉效果(在人眼感官方面),本文所提出的复合损失函数定义如下Ltotal=αLD+βLdetail(8)式中:LD为对抗损失、Ldetail为面部细节损失,α、β分别为对应损失的预定义权重。1.4.1面部细节损失传统L1损失函数是在简单的像素空间上进行误差计算,若直接通过L1损失函数对真实素描人脸图像与伪素描人脸图像进行误差计算,则很难获取素描人脸图像的面部细节与纹理特征。传统L1损失函数如式(9)所示(9)在本文中面部细节损失函数是计算图像特征空间上的差异,从合成的素描人脸图像中提取特征,并与真实素描人脸图像中的特征进行对比。但图像的特征并不是通过尺度不变特征变换(scaleinvariantfeaturetransform,SIFT)、ORB(orientedfastandrotatedbrief)等传统特征计算方式得到,而是将图像输入到本文设置的面部特征提取网络中得到。面部特征提取网络提取的图像特征是高层特征,忽略了图像像素级别的低层特征,符合人类视觉感知。面部细节损失函数定义如下(10)式中:w和h表示特征图的维度,s为真实素描人脸图像,G(p)为生成的伪素描人脸图像,φ(s)与φ(G(p))表示图像经过特征提取网络输出的特征矩阵。式(10)中φ(s)-φ(G(p))F可由下式得出(11)令[φ(s)-φ(G(p))]T·[φ(s)-φ(G(p))]为M(12)1.4.2对抗损失对抗损失来自判别网络,是判别输入为真实素描人脸图像还是伪素描人脸图像的损失函数,其目的是为了保证生成网络尽可能生成更真实的素描人脸图像以“欺骗”判别网络。传统的对抗损失存在一个问题,当判别网络训练越好,生成网络的梯度消失越严重。因此,为了在训练时生成网络具有更好的梯度表现,按照Arjovsky等[13]的建议,通过Wasserstein距离来度量真实素描人脸图像与伪素描人脸图像间的距离,则对抗损失如下式所示(13)为解决模型在训练中过早地达到平衡状态,使生成网络与判别网络不再优化的问题,我们在对抗损失函数中添加一个控制因子。控制因子可以确保在训练初期,对抗损失的权重相对较小,随着训练过程的进行,对整个模型的损失贡献值逐步增加。这样可以保证判别网络在训练阶段充分学习伪素描图像与真实素描图像之间的差异,提高判别能力,改善生成网络合成结果的质量。对抗损失具体定义如下(14)式中:ω为衰减系数,其值固定为0.99,n为当前迭代次数,N为总的迭代次数。2实验结果与分析本文采用香港中文大学CUFS素描人脸基准数据库进行实验,验证本文方法合成素描人脸图像的有效性。CUFS素描人脸数据库中包含CUHK学生人脸数据库[5](188对光学面部照片-素描人脸图像)、AR数据库(123对光学面部照片-素描人脸图像)及XM2VTS数据库(295对光学面部照片-素描人脸图像),图5展示了部分素描人脸数据库中的数据(图5(a)、图5(b)为CUHK学生人脸数集图像,图5(c)、图5(d)为AR数据集图像,图5(e)、图5(f)为XM2VTS数据集图像),表1展示了不同数据库的数据划分。表1数据集划分图5各数据库部分数据2.1模型参数设置训练过程中,输入图像尺寸为256×256像素,输出图像尺寸为256×256像素,批处理(batch-size)大小设置为1,模型迭代训练500轮。本文模型选取批标准化(batchnormalization)对数据进行处理,采用Adam算法对网络进行优化。网络的学习率设置为0.0002,Adam第一动量的值设为0.9,第二动量的值设为0.999,模糊因子为1*10-8。总损失函数中α的值设置为1,β的值设置为100。模型的优化目标:使生成的伪素描人脸图像与真实素描人脸图像之间的差异尽可能小。模型的优化步骤如下:首先,分批次加载光学面部照片与素描人脸图像数据,并随机排序。然后,在每一个epoch的过程中先选取batch-size个训练数据对判别网络进行5次梯度下降优化。最后,停止判别网络的参数更新,开始训练生成网络。依次交替,直至训练结束。2.2消融实验为验证本文方法改进之处的有效性,在该节中进行消融实验研究,分别消除网络架构中的不同成分进行实验,实验对比结果如图6所示。其中,图6(a)为光学面部照片,图6(b)为真实素描人脸图像,图6(c)为删除面部特征提取网络合成结果,图6(d)为仅使用面部细节损失函数合成结果,图6(e)为本文方法合成结果。图6消融实验对比结果图6显示了消除本文方法中的不同成分,以及变更一些损失函数后的实验结果。从图中可以看出当对本文方法中部分结构进行消除或者替换时,合成素描人脸图像的质量大大降低,合成结果出现模糊、面部扭曲等问题。因此,本文方法所增加的特征提取网络以及损失函数在合成素描人脸图像的过程中起到至关重要的作用,该部分能够极大改善合成素描人脸图像的质量,并具备良好的性能。2.3主观视觉感知本文方法在香港中文大学CUFS素描人脸基准数据库中的合成结果如图7~图9所示,并与传统素描人脸方法中局部线性嵌入(locallylinearembedding,LLE)方法[4]、马尔可夫随机场(Markovrandomfield,MRF)方法[5]、马尔可夫加权场(Markovweightfield,MWF)方法[6]和深度学习领域中的全卷积神经网络(fullyconvolutionalnetwork,FCN)[8]、生成对抗网络(generativeadversarialnetworks,GAN)[12]模型进行了对比。图7在CUHK人脸数据集上不同方法的素描人脸合成结果图8在AR人脸数据集上不同方法的素描人脸合成结果图9在XM2VTS人脸数据集上不同方法的素描人脸合成结果从图7~图9合成结果中可以看出,LLE方法合成的素描人脸图像能够基本呈现面部五官特征,但图像整体过于平滑,头发等区域有伪影出现。MRF方法合成的素描人脸图像丢失一些细节特征,且面部轮廓不完整。MWF方法的合成结果拥有完整的面部轮廓,但整体清晰度较低,部分面部区域出现扭曲。以上传统方法仅考虑像素级别的图像相似度,因而无法很好地描述面部特征,导致合成结果出现模糊、面部缺失等问题。FCN方法虽然能够合成一些面部关键特征(如:眼镜等),但分辨率较低,图像出现斑驳现象。GAN模型合成的结果相较其它方法拥有丰富的素描纹理,面部细节更完整,但缺乏一些图像关键特征(如:发卡等),且图像面部出现变形和噪音。本文方法合成的图像质量最好,不仅保持了原有图像的面部五官特征,而且对图像面部配饰(眼镜等)也有很好的预测,图像清晰度更高、更符合素描图像的风格特征。相比CUHK与AR数据集的合成结果,在XM2VTS数据集上的合成结果更能说明本文方法合成素描人脸图像的优越性。其它方法应用在XM2VTS数据集中的性能较差,合成素描人脸图像出现面部缺失、模糊、变形等问题。这是因为CUHK与AR数据集中的人群具有基本相同的年龄和种族,风格变化较小,而XM2VTS数据集中的人群跨越各个年龄段,拥有不同的种族,存在明显的外观变化。本文方法拥有良好的鲁棒性,在3个数据集中都产生了出色的合成结果。2.4图像客观质量评价在本节中,我们对实验结果进行定量分析。由于缺少素描人脸图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二四年度展览展示与活动策划合同2篇
- 2024专业酒店投资协议模板发布一
- 2024年员工服务期限劳动协议范本一
- 2024年国内快递运输服务协议样本版B版
- 二零二四年度网络安全防护系统设计合同2篇
- 江南大学《电机与拖动基础》2023-2024学年第一学期期末试卷
- 2024合伙人转让合伙份额协议书
- 2024年主播演艺经纪协议版B版
- 佳木斯大学《经济写作》2021-2022学年第一学期期末试卷
- 济宁学院《音乐基础》2021-2022学年第一学期期末试卷
- TCSCA 120038-2020 110kV及以上高压电缆建设管理服务要求
- 天策科技50t年高性能沥青基碳纤维产业化项目环境影响报告书
- 猎人海力布课本剧剧本
- 六年级阅读理解100篇及答案(word)
- 《德意志意识形态》+讲授版
- GB/T 26100-2010机械产品数字样机通用要求
- GB 29959-2013食品安全国家标准食品添加剂d,l-薄荷酮甘油缩酮
- GA/T 1030.2-2017机动车驾驶人考场使用验收规范第2部分:场地驾驶技能考场
- 小学美术人教四年级上册精美的邮票 精美的邮票 省赛获奖
- 救援车辆驾驶员竞赛题库(精简版)
- 红头文件的标准格式及范本
评论
0/150
提交评论