




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、机器学习期末报告成员:白子轩,安勇正,李文涛,王琳时间:2016年4月9日主成分分析(PCA)与奇异值分解(SVD)原理及其应用一、导论 在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。二、主成分分析(PCA
2、)主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标(比如p个指标),重新组合成一组较少个数的互不相关的综合指标来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。设表示原变量的第一个线性组合所形成的主成分指标,即,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差越大,表示包含的信息越多。常常希望第一主成分所含的信息量最大,因此在所有的线性组合中选取的应该是的所有线性组合中方差最大的,故称为第一主成分。如果第一主成分不足以代表原来个指标的信息,再考虑选取第二个
3、主成分指标,为有效地反映原信息,已有的信息就不需要再出现在中,即与要保持独立、不相关,用数学语言表达就是其协方差,所以是与不相关的的所有线性组合中方差最大的,故称为第二主成分,依此类推构造出的为原变量指标第一、第二、第个主成分。根据以上分析得知: (1)与互不相关,即,并有,其中为的协方差阵 (2)是的一切线性组合(系数满足上述要求)中方差最大的,即是与都不相关的的所有线性组合中方差最大者。为构造的新变量指标,即原变量指标的第一、第二、第个主成分。由以上分析可见,主成分分析法的关键就是确定原来变量在诸主成分上的荷载。从数学上可以证明,原变量协方差矩阵的特征根是主成分的方差,所以前个较大特征根就
4、代表前个较大的主成分方差值;原变量协方差矩阵前个较大的特征值(这样取才能保证主成分的方差依次最大)所对应的特征向量就是相应原变量在主成分上的载荷,为了加以限制,载荷系数启用的是对应的单位化的特征向量,即有=1。三、主成分分析法的计算步骤主成分分析的具体步骤如下:(1)计算协方差矩阵计算样品数据的协方差矩阵:,其中 i,j=1,2,p(2)求出的特征值及相应的正交化单位特征向量的前个较大的特征值,就是前个主成分对应的方差,对应的单位特征向量就是原来变量在主成分上的载荷系数,则原变量的第个主成分为:主成分的方差(信息)贡献率用来反映信息量的大小,为:(3)选择主成分最终要选择几个主成分,即中的确定
5、是通过方差(信息)累计贡献率来确定当累积贡献率大于85%时,就认为能足够反映原来变量的信息了,对应的就是抽取的前个主成分。(4)计算主成分得分计算样品在个主成分上的得分: 实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换:其中:,根据数学公式知道,任何随机变量对其作标准化变换后,其协方差与其相关系数是一回事,即标准化后的变量协方差矩阵就是其相关系数矩阵。另一方面,根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数,亦即,标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。也就是说,在标准化前
6、后变量的相关系数矩阵不变化。四、奇异值分解(SVD)定义:设为m*n阶矩阵,的个特征值的非负平方根叫作的奇异值,记为。如果把的特征值记为,则。定理(奇异值分解)设为m*n阶复矩阵,则存在阶酉阵和阶酉阵,使得:其中。推论:设为m*n阶实矩阵,则存在阶正交阵和阶正交阵,使得,其中。奇异值分解提供了一些关于的信息,例如非零奇异值的数目(的阶数)和的秩相同,一旦秩确定,那么的前列构成了的列向量空间的正交基,另外的从右向左列为的kernel的基。由的奇异值分解可见,是矩阵的加权和,其中是权重。若将奇异值按递减顺序排列显然,奇异值大的项对矩阵的贡献大。因此,当舍去了权重小的部分项后仍然能够较好地“逼近”,
7、这一特性常被用来压缩图像。矩阵的秩逼近定义为五、奇异值分解(SVD)与主成分分析(PCA)的关系 PCA的全部工作简单点说,就是对原始的空间中顺序地找一组相互正交的坐标轴,第一个轴是使得方差最大的,第二个轴是在与第一个轴正交的平面中使得方差最大的,第三个轴是在与第1、2个轴正交的平面中方差最大的,这样假设在维空间中,我们可以找到个这样的坐标轴,我们取前个去近似这个空间,这样就从一个维的空间压缩到维的空间了,但是我们选择的个坐标轴能够使得空间的压缩使得数据的损失最小。 还是假设我们矩阵每一行表示一个样本,每一列表示一个feature,用矩阵的语言来表示,将一个m*n的矩阵的进行坐标轴的变化,就是
8、一个变换的矩阵从一个维的空间变换到另一个维的空间,在空间中就会进行一些类似于旋转、拉伸的变化。 而将一个m*n的矩阵变换成一个m*r的矩阵,这样就会使得本来有个feature的,变成了有个feature了(),这个其实就是对个feature的一种提炼,我们就把这个称为feature的压缩。用数学语言表示就是: 但是这个怎么和SVD扯上关系呢?之前谈到,SVD得出的奇异向量也是从奇异值由大到小排列的,按PCA的观点来看,就是方差最大的坐标轴就是第一个奇异向量,方差次大的坐标轴就是第二个奇异向量我们回忆一下之前得到的SVD式子: 在矩阵的两边同时乘上一个矩阵,由于是一个正交的矩阵,所以转置乘以得到
9、单位阵,所以可以化成后面的式子 将后面的式子与那个m* n的矩阵变换为m * r的矩阵的式子对照看看,在这里,其实就是,也就是一个变化的向量。这里是将一个m*n的矩阵压缩到一个m*r的矩阵,也就是对列进行压缩,如果我们想对行进行压缩(在PCA的观点下,对行进行压缩可以理解为,将一些相似的sample合并在一起,或者将一些没有太大价值的sample去掉)怎么办呢?同样我们写出一个通用的行压缩例子: 这样就从一个行的矩阵压缩到一个行的矩阵了,对SVD来说也是一样的,我们对SVD分解的式子两边乘以的转置 这样我们就得到了对行进行压缩的式子。可以看出,其实PCA几乎可以说是对SVD的一个包装,如果我们
10、实现了SVD,那也就实现了PCA了,而且更好的地方是,有了SVD,我们就可以得到两个方向的PCA,如果我们对进行特征值的分解,只能得到一个方向的PCA。六、利用主成分分析(PCA)进行降维9个学生各科成绩如下,能不能把数据的六个变量用几个综合变量表示? 这几个综合变量包含原来多少信息呢? 我们现在用主成分分析法求解,得到如下结果:结果分析:如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分为在y1表示式中x1的系数为-0.2988,这就是说第一主成分和数学变量的相关系数为-0.2988。相关系数(绝对值)越
11、大,主成分对该变量的代表性也越大。从第二个特征根开始,累计方差贡献率就超过了85%,也就是说,可以通过第一、第二主成分来大致表示原来的数据信息。而且可以说,第一、第二主成分表达了原来信息的85.10%。七、利用奇异值分解(SVD)进行图像处理先对图像进行灰度处理,转化为二维图像,然后利用SVD算法,对图片进行压缩处理,结果如下:原图 大小14kb秩k=1(维) 大小9kb秩k=20(维) 大小11kb秩k=40(维) 大小12kb秩k=60(维) 大小13kb结果分析:秩k越大,图像重构越完善,图像越清晰,但压缩后图片比较大;秩k 越小,图像重构越粗糙,图像月模糊,但压缩后图像比较小。参考文献
12、:主成分分析和因子分析,吴喜之,2012,5,25奇异值分解压缩图像,Dsp Tian,2012,10,24SVD分解算法及其应用,十一城,2013,7,14附录一:%主成分分析算法%读入文件数据X=load('data.txt');%标准化处理p,n=size(X);for j=1:n mju(j)=mean(X(:,j); sigma(j)=sqrt(cov(X(:,j);endfor i=1:p for j=1:n Y(i,j)=(X(i,j)-mju(j)/sigma(j); endendsigmaY=cov(Y);%求X标准化的协差矩阵的特征根和特征向量T,lambd
13、a=eig(sigmaY);for i=1:n for j=i:n if lambda(i,i)<lambda(j,j) a=lambda(i,i); lambda(i,i)=lambda(j,j); lambda(j,j)=a; b=T(:,i); T(:,i)=T(:,j); T(:,j)=b; end endenddisp('特征根(由大到小):');disp(lambda);disp('特征向量:');disp(T);%方差贡献率;累计方差贡献率Xsum=sum(sum(lambda,2),1);for i=1:n fai(i)=lambda(i,
14、i)/Xsum;endfor i=1:n psai(i)= sum(sum(lambda(1:i,1:i),2),1)/Xsum;enddisp('方差贡献率:');disp(fai);disp('累计方差贡献率:');disp(psai);附录二:%奇异值分解算法clear all;close all;clc;RGB=imread ('a1.jpg'); %读入像a=rgb2gray(RGB);m n=size(a);a=double(a);r=rank(a);s v d=svd(a); %re=s*v*d're=s(:,:)*v(:,1:1)*d(:,1:1)'figure;imshow(mat2gray(re);imwrite(mat2gray(re),'1.jpg') re=s(:,:)*v(:,1:20)*d(:,1:20)'figure;imshow(mat2gray(re);imwrite(mat2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 把握时机2025年证券从业考试试题及答案
- 影视设备行业信息技术支持服务批发考核试卷
- 常州新风管安装施工方案
- 纤维素纤维的抗菌性与保健功能考核试卷
- 财务预算编制基础知识试题及答案
- 2025年会计错误更正试题及答案
- 租赁设备的行业应用案例解析考核试卷
- 干部休养所人际关系和谐考核试卷
- 2024年项目管理目标管理试题及答案
- 银行从业资格考试应试基础知识复习试题及答案
- 高++中语文++高考复习+语言文字运用之错别字
- 个人用电协议合同范例
- 2025年江苏南京地铁运营有限责任公司招聘笔试参考题库含答案解析
- SZDB∕Z 317-2018 大中型商场、超市安全防范规范
- 《圆柱和圆锥》单元整体设计(教学设计)-2023-2024学年六年级下册数学北京版
- 《盖碗茶介绍》课件
- 基于专利视角下人工智能在合成生物学中的应用
- 印刷行业安全培训
- 产品经理实习报告
- 2025赡养老人个税扣除分摊协议书模板
- 《陆上风电场工程变形测量技术规程》
评论
0/150
提交评论