基于加权核主成分分析的鲁棒加权重建算法_第1页
基于加权核主成分分析的鲁棒加权重建算法_第2页
基于加权核主成分分析的鲁棒加权重建算法_第3页
基于加权核主成分分析的鲁棒加权重建算法_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于加权核主成分分析的鲁棒加权重建算法

0加权核主成分分析方法近年来,模式识别技术取得了迅速的发展和广泛应用。资源提取是模式识别技术的一项重要技术和研究热点。主成分分析(principalcomponentanalysis,PCA)属于代数特征分析方法,是模式识别领域中一种经典的特征提取和数据降维技术。PCA是一种线性的数据分析方法,该方法对数据中的非线性信息较难提取,这在一定程度上影响了PCA方法的效果。针对PCA方法在处理非线性问题时的不足,Schölkopf等人首次利用核函数将PCA推广到高维核空间,提出了核主成分分析法(kernelprincipalcomponentanalysis,KPCA)。通过核方法将样本数据映射到高维特征空间,使得原本在低维空间中不能很好提取的信息在高维空间变得线性可分,从而获得更好的特征提取效果。样本数据集由于干扰等因素的存在,往往含有一些离群点样本。如何降低离群点样本的干扰,提高算法的鲁棒性一直是一个有待解决的难题。基于文献中的离群点检测方法,文献得到了一种鲁棒的RWKPCA方法。传统的PCA和KPCA方法均以重建误差和最小为目的,一些加权特征提取方法权值的确定不仅对数据样本集有很高的依赖,而且往往不能做到自适应,对样本数据集中的离群点抗干扰能力也较差。基于文献的思想,本文通过在核空间中建立一个样本加权重建误差和最小的数学模型,得到了一种鲁棒的加权核主成分分析方法。通过对样本加权,提高算法对离群点样本的鲁棒性。同时本文引入核方法对文献中模型进行改进,提高了算法对样本数据中的非线性信息的提取能力。实验部分分别对本文算法、文献中WPCA、KPCA和RWKPCA方法的抗离群点能力、识别率在Yale人脸数据库和UCI数据集上进行了对比。1特征空间vk核主成分分析方法是一种非线性的数据分析方法,其主要思想是:通过引入一个非线性变换Φ,将数据由输入空间Rm映射到高维特征空间F,然后在特征空间F中利用PCA方法进行数据分析和处理。KPCA是对PCA方法在核空间中的一种扩展,能更有效地提取数据中的非线性信息。设样本集X={x1,x2,x3…,xN}∈Rm,核函数通过变换Φ将样本xi映射为特征空间F中的Φ(xi),将之中心化,即转换为Ν∑i=1Φ(xi)=0∑i=1NΦ(xi)=0。可得F空间中的协方差矩阵C为通过求协方差矩阵C,可得特征值λ和特征向量V。由于所有的特征向量V均可以表示为Φ(x1),Φ(x2),…,Φ(xN)的线性张成,即V=Ν∑i=1αiΦ(xi)(2)因此,可得综合式(2)(3)得定义一个N×N的核矩阵K,即Kij=Φ(xi)·Φ(xj),于是,可将式(4)简化为解式(5)就能得到所求的特征向量和特征值,可得测试样本在特征空间Vk中的投影为Vk⋅Φ(x)=Ν∑i=1(αi)k(Φ(xi)⋅Φ(x))(6)实际应用中经常用中心化核矩阵˜Κ替换K。中心化的矩阵为˜Κ=Κ-Ι⋅Κ-Κ⋅Ι+Ι⋅Κ⋅Ι‚Ιij=1Ν(7)2鲁棒加权核的主要组成分析算法2.1加权重建误差模型KPCA方法实际上是PCA方法在核空间中的扩展,通过核方法将样本数据映射到高维特征空间,使得原本在低维空间中不能很好提取的信息在高维空间变得线性可分,从而获得更好的特征提取效果。KPCA方法也可以从基于均方差意义上的重建误差来建立,在重建误差意义上KPCA可以表示为其中:K(:,i)为核矩阵K的i列表示映射到核空间中的第i个样本,α为投影矩阵。模型式(8)以各样本欧式距离上重建误差和最小为目标,该模型认为每一个样本所占的重要性均一样。然而,不同的样本对于具体的识别问题的重要性各不相同。实际应用中,由于干扰等因素的存在往往使得样本集中存在一些离群点样本,传统的KPCA方法的重建误差模型并未考虑到该因素。基于以上的分析,本文对KPCA方法的重建误差通过加权的思想进行了修正,通过引入了信息熵来调节不同样本所占权重的大小,在核空间建立了一个加权重建误差和最小的模型:其中:K(:,i)为核矩阵K的i列表示映射到核空间中的第i个样本;γi(大于0)为第i个样本的权重;α为投影矩阵;λ为正则化参数。与文献中的模型相比,通过核方法构建的新模型式(9)能充分发挥核方法对数据中的非线性信息很好提取的优势,从而获得更好的特征提取效果。2.2特征提取模型求解本文通过核方法将样本数据映射到核空间,在核空间中通过模型式(9)进行样本加权,求解模型得到了一种鲁棒的加权核主成分分析算法。模型式(9)中存在两组未知变量,投影向量α以及样本权重参数γi。本文采用交替优化算法来求解模型。通过优化理论中的拉格朗日方程,不难推出权重γi有式(11)的解析形式:γi=e-∥Κ(:‚i)-ααΤΚ(:‚i)∥λΝ∑i=1e-∥Κ(:‚i)-ααΤΚ(:‚i)∥λ(11)令权值矩阵W=diag(γ1,…,λN)是一个对角矩阵,那么式(11)可转换为求矩阵K·W·KT的特征值分解问题,从而求解投影向量α。α由矩阵K·W·KT的前k个最大特征值对应的特征向量构成。分析等式(9)和(11)可以发现,对重建误差‖K(:,i)-ααTK(:,i)‖2较大的样本(离群点样本往往具有较大的重建误差)其权重γi随着重建误差增大,权重γi取值越小;重建误差较小的样本,其权重γi取值较大。使得模型对重建误差较大的项赋予较小权重,对重建误差较小的项赋予较大的权重,这样能较好地控制数据中出现的离群点,提高算法的鲁棒性。本模型通过优化算法自适应地对样本进行加权,同时利用核方法对数据中非线性信息能更好提取的优势,得到一种更优、更鲁棒的特征提取方法。模型的求解算法如下:a)将数据样本通过核函数映射到核空间F,得到中心化的核矩阵K。b)初始化第i个样本的权值γi=1/N(N为训练样本总数),W为γi组成的对角阵,Flag=TRUE,重建误差阈值Deta设定初始值。c)由K·W·KT求出投影向量α,得到第一个优化参数;d)若Flag=TRUE,则优化正则化参数,Flag=FALSE;否则,转步骤e)。e)由式(11)更新权值γi,得到第二个优化参数,计算式(9)中重建误差值,若与前一次重建误差和之差的绝对值小于阈值Deta,则算法结束,得到投影向量α;否则,转步骤c)继续进行迭代优化。3抗离群点能力、识别率为了测试算法的有效性,分别对本算法、WPCA、KPCA和RWKPCA方法的抗离群点能力、识别率在Yale人脸数据库和UCI数据集上进行了对比实验。实验中采用最近邻(1-NN)分类器进行分类,KPCA算法选用高斯径向核函数。所有实验均在MATLAB7.3、Pentium4512MB内存的PC上运行。3.1实验结果与分析Yale人脸数据库包含15个人的165幅灰度图像,其中每个人有11张在不同光照、表情和姿态下的图像,每幅图像的分辨率为112×92像素。为减少计算量,本文通过双线性插值法将图像的大小统一为50×50像素,部分人脸图像如图1所示。在未加入离群点样本时,从Yale人脸库每类人脸图像中随机选择7幅图像作为训练样本,剩余的样本作为测试样本,随机重复20次实验结果如图2所示。为对比四种方法对离群点样本的抗干扰能力,本文通过随机函数生成大小为50×50、元素值为0~255的矩阵模拟离群点样本。实验时,将随机得到的每类7个训练样本中的3个用离群点样本替换,从而使得165个人脸样本集中含33个离群点样本数据。图3为加入离群点样本后重复20次的识别实验结果。对比分析图2和3可以发现,在加入离群点前后本文方法的识别效果均优于WPCA、KPCA和RWKPCA方法,在加入离群点样本后本文方法的优势更加显著。加入离群点样本后四种方法的识别率均有下降,其中KPCA方法所受影响最大,而本文方法识别率下降程度远小于其余三种方法。这主要是因为离群点样本往往具有较大的重建误差,而本文在核空间中建立的加权重建误差和最小模型通过对重建误差较大的项赋予较小权重,能很好地抑制离群点所带来的干扰。文献中的WPCA的识别率低于本文算法,是由于本文算法通过引入核方法的改进,能更好地提取数据中的非线性信息,而人脸数据中含有大量的非线性特征,从而说明本文在核空间构建的新模型比文献中的模型具有更好的特征提取效果。故可以看出,本文算法比WPCA、KPCA和RWKPCA有更好的识别率、对离群点样本有更优的鲁棒性。3.2集稳定性分析实验选用了UCI数据集中的四个数据集,分别为Wine、Iris、Sonar和Ionosphere。采用十折交叉验证法进行识别实验,然后对每一数据集根据特征数求出识别率的平均值,最终得到WPCA、KPCA和RWKPCA与本文方法在四个数据集上平均识别率最大时所对应的最高识别率、特征数及方差,实验结果如表1所示。从表1可以发现:本文的方法在四个UCI数据集上的最大识别率均高于WPCA、KPCA和RWKPCA方法;本文方法取最大识别率时方差均小于WPCA、KPCA和RWKPCA方法,具有更好的稳定性。可见,本文方法比WPCA、KPCA和RWKPCA方法具有更高、更稳定的识别率。4特征提取算法通过对原

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论