




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
§2主成分分析2.1主成分的基本思想主成分分析(principalcomponentanalysis)也称主分量分析,是1901年提出,再由霍特林(Hotelling1933)加以发展的一种统计方法.基本思想:主要目的利用降维的思想,在损失很少信息的前提下把多个变量(指标)转化为几个综合指标(变量)的多元统计方法.转化成的综合指标称为主成分,每个主成分是原始变量的线性组合且各个主成分之间互不相关,主成分保留原始变量的绝大部分信息问题:100名学生的六门课程的成绩:问:能否把6个变量X1,X2,…,X6(数学、物理等6科成绩),用一两个综合变量Y1,Y2来表示?Y1,Y2包含有多少原来的信息呢?能否用综合变量对成绩排序或进行其他分析?例中每个观测值是6维空间(X1,X2,…,X6)中的点,共100个。希望把6维空间用低维空间(Y1,Y2)表示.2.2主成分分析的几何意义设有两变量X],X2(数学、语文成绩),构成二维随机向量X=(X],X2)t,E(X)=0.观测n次数据x=(x,x),(i=1,2,,n),p(X,X)=—-—1 ~2 机11i2 1 2 Var(X)-Var(DX)12'Y=Xcos0+Xsin0J=一X1sin0+X2cos0则样本点在坐标系气Ox2下基本分布在一条直线l上如图,在l'Y=Xcos0+Xsin0J=一X1sin0+X2cos0是正交矩阵(cos0sin0'是正交矩阵一一sin0cos0,相当于坐标系xOx逆时针旋转0角得新坐标系y^y,原观测点在新坐标系下可表为1 2 1 2y=xcos0+xsin0y1=一x1sin0+x2cos0'2L1 L2旋转后数据j,j,…,j和j,j,…,j分别反映了在垂直方向y,y上数据的分TOC\o"1-5"\h\z1121 n1 1222 n2 12 1T, —、散性信息.由图知在轴j上数据值分散性最大(具最大样本方差"=U(j-j)2),1 1n一1日1i=1说明Var(Y)最大.而垂直方向j上数据分散性最小,Var(Y)最小.因此,Y的观测值1 2 2 1j,j,…,j基本反映了X=(X,X)观测值变化的基本情况,可用一维随机变量Y代替11 21 n1 1 2 1二维随机变量X=(X1,X2),达到降维的目的.称Y1为第一主成分,其系数向量aT=(a,a)=(cos0,sin0),具有a2+a2=1.Y为第二主成分,其系数向量1 11 12 11 21 2at=(a,a)=(-sin0,cos0),a2+a2=1.图4-1二维随机向量的第一、第二主成分示意图二维随机向量X的100个点构成一个椭圆形状,见上图.主成分分析的目的:构造原变量的一系列线性组合,使其方差(或样本方差)达到最大.P维随机向量X的主成分其实就是p个变量x「x2,…,X的一些特殊的线性组合,在几何上这些线性组合正好把X「X2,...,Xp构成的原坐标系统经过旋转后产生新坐标系统,这个新坐标系统的轴方向上具有最大的变异,同时提供了协方差阵的最简洁的表示(非对角线上为0).2.3总体主成分一一.基本理论设某一事物研究涉及p个指标X,X,…,X,构成X=(X,X,…,X)T---p维1 2 p 1 2 p随机向量,均值EX=|i,协方差阵Cov(X)=D(X)=£=何) =E[X-E(X))(X-E(X))t]非负定.考虑X],X2,...,X的一个线麻组合(或称对X线性变换形成新的综合变量Y):=arX=aX+aX+…+aX1 11 1 12 2 1pp这里aT=(常,a】?,…,ap).TOC\o"1-5"\h\z对于综合变量Y,我们要确定aT=(a,a,…,a),使得Y的方差1 1 11 12 1p 1Var(Yi)=Var(a:X)=a:£a达到最大.由于对任意给定的常数c,Var(ca:X)=c2a:£a,如果对%不加以限制,上述问题就变得毫无意义.于是限制在a:a1=1下,求Var(a:X)的最大值.如果第一主成分y在a方向上的分散性还不足以反映原变量的分散性,再构造1 1X1,X2,...,X的线性组合:=aTX=aX+aX+…+aX2 21 1 22 2 2pp这里a:=(a,a,…,a),要求y和Y不相关(信息不重叠),即2 21 22 2p 2 1ata=1,Cov(Y,Y)=at£a=0,使Var(atX)达最大.22 2 1 2 1 2Cov(Y,Y)=Cov(a:X,atX)=at£a=011 2 1 2 1转化为在约束条件aTa2=0和aT^a=0下,求a2使得使Var(aTX)达最大.一般,若x],x2,…,Xk[还不足以反映原变量的信息,则进一步构造x1,X2,...,Xp的线性组合Y=aTX=aX+aXH \-aX,求a(k=1,2,...,p)kk k11 k22 kpp k满足:(1)系数向量单位化aTak=1;各主成分不相关,无重叠信息Cov(Y,Yk)=敏£七=0,j专k;主成分方差由此递减Var(Y)>Var(Y2)>…>Var(Y)>0.二.总体主成分求法 "p维随机变量X=(X1,X2,...,Xp)T,X的协方差矩阵£的p个特征值XzX>…>人=0,且特征值所对应的特征向量分别为e,e,…,e,则01 2 p 1 2mX的第k个王成分为Y=eTX=eX+eXH FeX,k=1,2,…,p,e=(e,e,…,e)tkk k11 k22 kpp k k1k2kp
IVar(Y)=erEe=Xete=X k=1,2,…,p且<kkkkkkkICov(Y,Y)=erEe=Xete=0j丰kljkjkkjk证明:(可略)PTEP=A=•••E非负对称’则存在正交矩阵P=PTEP=A=为对角阵,且e,e,…,ep为标准正交化的特征向量.证明:E证明:E非负对称,则存在正交矩阵P=(e1,%•••,ep),PTPTEP=A=p为标准正交化的特征向量.(1)第一主成分为Y(1)第一主成分为Y1=erX=atX满足ata1 1 1=顷得V"(件)最大.令z=(z,z,…,z)t=Pta,则ztz=atPPta=ata=1,a=Pz1 1112 1P 1 11 1 1 11 1 1且Var(Y)=atEa=ztPtEPz=ztAz=Xz2=Xz2+Xz2H Xz2<X(z2+z2H Fz2)=XzTz=X111 212P1P 1 1112当z1=(1,0,-,0)"寸,上式取等号,从而a1=Pz1=e1当z1=(1,0,-,0)"寸,上式取等号,一主成分Y1=eTX-⑵第二主成分为Y2=eTXTOC\o"1-5"\h\z对第二主成分,Y=aTX,满足aTa=1,Cov(Y,Y)=aTEa=0,使Var(aTX)达2 2 22 2 1 2 1 2最大.令z=(z,z,…,z)T=PTa,则zTz=aTa=1,且由2 222 2p 2 22 220=atEa=atEe=Xaten0=ate=ztPte=zete+zere+…+zete=z2 2 2 2 2 2 222 2pp 2故Var(Y)=atEa=ztPtEPz=ztAz=Xz2+Xz2h Xz22 222 2 22 121 2 22 p2p=Xz2H Xz2<X (z2H Fz2)=X zTz =X222 p2p 222 2p 222 2
当z2=(0,1,-,0)T时,上式取等号,从而a2=Pz2=e2时,满足aTa2=1,Cov(Y,Y)=XaTe=0,且使Var(aTX)=X达最大,得第二主成分Y=eTX.2 1 121 2 2 2 2类似可证.三.总体主成分的性质主成分协方差矩阵及总方差Y=(Y,Y,…,Y)T为p个主成分构成的随机向量,则Y=PTX,其中1 2 pP=(e「e2,…,e)为£的p个正交单位化特征向量构成的正交矩阵,主成分向量乂的p rx1协方差阵为Cov(Y)=Cov(PTX)=PT£P=\各主成分的总方差E(YE(Y)=&k kk=1 k=1=tr㈤=& =8(X)=1 =1X=(X,X/.fX)T的各变量总方差分解成不相关变量Y,Y,…,Y的总方差.1 2 p 1 2 p主成分的贡献率与累计贡献率Pk=Xk/YX.——第k个主成分的贡献率j=1它反映了第k个主成分提取全部信息的多少£x/£x 一前k个主成分的累积贡献率jjj=1 j=1它反映了前k个主成分共同提取全部信息的多少.说明:第k个主成分与原始变量Xj的相关系数P(Y,Xj)称为因子载荷.p(丫广X,)=ekJX~:Var(X,) '£P2(Yk,X;)=1=1四.主成分分析-PROCPRINCOMP过程•:•基本语句形式:♦:♦PROCPRINCOMP<DATA=SAS数据集1><OUT=SAS数据集2><OUTSTAT=SAS数据集3><COV><N=n><PREFIX=name>;/*指出要进行分析的SAS集名称、输出集等*/VAR变量名称; /*VAR后面列出数据集中参与主成分分析的变量名称,若省略此句,则数据集中所有数值变量均参与分析*/RUN;
例2-1设随机向量X=(X1,X2,X3)T协方差矩阵为1-20-1-20-250002£=,求X主成分.特征根快I-£1=X-1特征根快I-£1=X-1202X-5000X-2=(X-2)(X2-6X+1)=0=2X1=3-^2=2X1=3-^2w0.172(1-1+w''20、(x1、解001X20k007xkx37=0得x=(1-\2)1(i吃、(-0.3876、求出特征根a=11,单位化得e1w0.93280k7k072求特征根并依大到小排列X=3+2应=5.828,X1(2+2方20、(1-1+方0'(1-1+行0、2-2+2克0T1+方10T00 10k01+2而70k0170k0 07(2)正交单位化的特征向量(X11-£)=(120、(100、2-30—010k0007k0007(XI-£)=2解(人21-£)解(人21-£)(x1X2xk=0得气任意,求出e2f2-27‘2201f1一1-曲0、I-2)=2-2-2J20T00 130v01-2出J0v0 0JIX3JIX3J得x=(1+琪2)x1 2解0 00 0v"''2、f0.9328、求出特征根a=11,单位化得罕0.38760vJv0J特征向量对应的特征根不同,故互相正交.求主成分七^-0.3876x1+0.9328x2七=x3七牝0.9328x+0.3876x2贡献率第一、二三主成分的贡献率一^厂分别为0.7286,0.2500,0.0214.人+人+人法二:程序实现dataexamp2_1(type=cov);/*建立数据集,数据集为协方差矩阵要加上(type=cov)*/_type_='cov'; /*输入数据集为协方差矩阵要加上_type_=’cov’*/input_name_$x1-x3; /*输入变量要加上_name_$,取值可指定为输入的变量名*/cards;x11-20x2-250x3002;run;procprincompdata=examp2_1covoutstat=bb;/*调用主成分分析的princomp过程,从协方差阵出发进行主成分分析,命令一个含变量均值、协方差阵、特征值、特征向量的输出SAS集bb*/varx1-x3; /*参与分析变量为x1-x3*/run;procprintdata二bb;/**/run;
SAS系统TOC\o"1-5"\h\z10:24Sunday,November2,2008 1SAS系统ThePRINCOMPProcedureObservations 10000Variables 3TotalVariance8协方差矩阵Z的特征值、各主成分的贡献率、累计贡献率EigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative特征值贡献率累计贡献率15.828427123.828427120.72860.728622.000000001.828427120.25000.978630.171572880.02141.0000协方差矩阵Z特征值排序的正交化特征向量Eigenvectors第一主成分第二主成分第三主成分Prin1Prin2Prin3x1-.3826830.000000.923880x20.9238800.000000.382683x30.0000001.000000.000000输出数据集含各变量均值、观测数据个数1000、协方差阵、特征值和特征向量等SAS系统 10:24Sunday,November2,2008 2Obs_TYPE__NAME_x1x2x31MEAN0.000.000.00观测个数默认100002N10000.0010000.0010000.00协方差矩阵3COVx11.00-2.000.004COVx2-2.005.000.005COVx30.000.002.00特征值6EIGENVAL5.832.000.17主成分'7主成分Y289SCOREPrin1-0.380.920.00SCOREPrin20.000.001.00SCOREPrin30.920.380.00五.基于相关系数矩阵的主成分分析--标准化变量的主成分将X=(X,X,…,X)T标准化x*=Xk-七,k=1,2,…,p,则Var(X*)=1.1 2 P k kVkk令X*=(X*,X*,•••,X*),p=E(X*,X*)=C°"XJ.),X*的协方差矩阵1 2pij,j%。bp=(pi) =Cov(X*)恰为X的相关系数矩阵.主成分分析步骤:求X的相关系数矩阵p的特征值“以;>…以注0相应人*的正交化的特征向量e*=(e*,e*,…,e*)tk k k1 k2 kp3)X*=(X"X;,…,XJ的第k个主成分为Y*=(e*)tX*=e*X*+e*X*+——beX*,k=1,2,…,pkk k11 k22 kppkk=1且有Uvar(Y*)=X人*=^LVar(X*)=pkk=1k=1 k=14)X*/^X*=X*/p 第k个主成分的贡献率kjj=1&*/XX*=Xk/p——前k个主成分的累积贡献率TOC\o"1-5"\h\zj=1 j=11 -20例2.2X=(X「X2,X3)T协方差矩阵为£=-250,从P出发进行主成分分析.0 02解:程序如下dataexamp2_2(type=cov);/*建立数据集,数据集为协方差矩阵要加上(type=cov)*/_type_='cov'; /*输入数据集为协方差矩阵要加上_type_=’cov’*/input_name_$x1-x3; /*输入变量要加上_name_$,取值可指定为输入的变量名*/cards;x11-20x2-250x3002run;procprincompdata=examp2_2outstat=bb;/*调用主成分分析的princomp过程,从相关系数矩阵出发进行主成分分析,命令一个含变量均值、协方差阵、特征值、特征向量的输出SAS集bb*/varx1-x3; /*参与分析变量为x1-x3*/run;从相关系数矩阵出发进行主成分分析TOC\o"1-5"\h\zTheSASSystem 20:59Wednesday,July14,2013 4ThePRINCOMPProcedureObservations 10000Variables 3EigenvaluesoftheCorrelationMatrix相关系数矩阵P的特征值、各主成分的贡献率、累计贡献率EigenvalueDifferenceProportionCumulative特征值贡献率累计贡献率11.894427190.894427190.63150.631521.000000000.894427190.33330.964830.105572810.03521.0000Eigenvectors
相关系数矩阵P按特征值排序的正交化特征向量PrinlPrin2Prin3第一主成分e*第二主成分e2 e;x10.7071070.000000.707107x2-.7071070.000000.707107x30.0000001.000000.000000从相关系数矩阵P出发做主成分分析,即求X标准化向量X*的主成分,P的特征值及正交单位化的特征向量分别为人*=1.89, e*=(0.707,-0.707,0)t,Y*=e*tX*=0.707X*-0.707X*1 1 11 1 2人2=1, e;=(0,0,1)t, Y*=X3人3人3=0.106e;=(0.707,0.707,0)t第一主成分贡献率下降为Y*=e;TX*=0.70X*+0.70X一斜——=63.15%,前两个主成分贡献率97.89%.人*+人*+人*1 2 3由此看到,用相关系数矩阵求主成分,使得X[的重要性得到了提升.2.4样本主成分X=(X『X2,...,Xp)T的协方差矩阵£(或相关系数矩阵P)未知,可以利用样本协方差矩阵S或样本相关系数矩阵R作为£或P的估计进行主成分分析.一.基于样本协方差矩阵的主成分分析来自于总体X的容量为n的样本观测数据X样本协方差矩阵 来自于总体X的容量为n的样本观测数据X样本协方差矩阵 'W—In一1'i=1其中X=(x,X,…,Xp)T,=(Xi1,Xi2,…,Xip)T,i=1,2,…,n1E(x-x)(x-x)Tn—1iii=1£(x-X)(x,-X)pxp为Xj(j=1,2,…,p)的样本均值.— 1vn七=n切i=1xij求主成分步骤:(1(1)求样本协方差矩阵S特征值。(2)相应的正交单位化特征向量e,e,…,e,e=(e,e,…,e);1 2 pkk1k2 kp第k个样本主成分k=1,2,…,p△ k=1,2,…,py=etx =e x+e x+ +e x,kkk11k22 kpp
尤/£尤或/p——第k个样本主成分的贡献率kjkj=1£尤/£尤=£尤/p——前k个主成分的累积贡献率jj jj=1 j=1 j=1第k个样本主成分的n个观测值称为第k个样本主成分的得分,可以依据得分对各组样本观测数据进行排序y=etx=ex+exH Fex(i=1,2,…,n)ikki k1i1k2i2 kpip样本主成分的观测数据(得分向量)y=(y.,,y.c,…样本主成分的观测数据(得分向量)y=(y.,,y.c,…,y「t注意:样本主成分的观测数据-i i1i2(得分)的协方差矩阵(i=1,2,…,n)S=(etSet)jkpxp'上£n—1i=1、(y—y)(y—y)jikkJpxpR1ij样本总方差=£skk=2k=1力.kk=1二.基于样本相关系数矩阵的主成分分析样本相关系数矩阵,二.基于样本相关系数矩阵的主成分分析样本相关系数矩阵, 、s「出发进行主成分分析,相当于从标准化样本pxpIxpxpIx—x
x*=i1 1iXvS11-、\;sppi=1,2,…,ns;22的样本协方差矩阵出发进行主成分分析,求出R的特征值和正交单位化的特征向量即可.样本总方差为p.步骤:1)求R的特征值无立无*>…或*>01 2 p2)相应的正交单位化特征向量e*,e*,…,e*,e*=(e*,e*,…,e*)1 2 pkk1k2kp3) 第k个样本主成分y*=e*tx=e*x*+e*x*+—+e*x*,k=1,2,…,pkk k11k22 kppp4)尤*/2尤*=R*/p 第k个样本主成分的贡献率j=12尤*/2尤*=2尤*/p——前k个主成分的累积贡献率jj jj=1 j=1 j=15) 第k个样本主成分的得分y*=e*x*=e*x*+e*x*+—+e*x*(i=1,2,…,n)ikki k1i1 k2i2 kpip表2.1p个变量的原始数据及其主成分得分
序号 原变量 主成分Xn1Xn1…Xnpyn1yn2…'npX,X,…,X Y,Y,…,Y12p12p1X11X12…X1Py11y-12y1p2X21X22••,X2p'21'22…y2p例2.3为全面了解我国西北某省的十家上市公司的获利能力和经营发展能力,特选取公司如下六个指标进行分析:X2:净资产收益率;XX2:净资产收益率;X5:净资产增长率;X3:主营业务收益率;X6:总资产增长率.X4:主营业务增长率;其中前三个变量反映了上市公司的获利能力,后三个变量反映了公司的经营发展能力.表1.3给出了这10家公司关于六个指标在过去三年取值的加权平均,对其做主成分分析,并按第一主成分对这10家公司的综合能力进行排序.表2.210家上市公司的获利和发展能力数据公司编号X1X2X3X4X5X610.02126.80657.311-39.819-39.8198.8192-0.142-7.17916.335-11.359-4.766-4.6263-0.737-62.4177.359-18.378-19.16512.28940.3207.27617.37239.50619.85841.93950.1604.82038.32337.11323.74434.06360.35111.84223.11814.72511.6169.51670.2435.17317.51514.435123.10179.4898-0.190-10.9128.236-2.746-7.439-10.50290.1737.54323.97817.12221.31825.701100.3679.35216.04855.62127.86118.918解:程序如下:dataexamp2_3;inputidx1-x6;cards;0.021 26.806 57.311 -39.819 -39.819 8.819-0.142 -7.179 16.335 -11.359 -4.766 -4.626-0.737 -62.417 7.359 -18.378 -19.165 12.289
40.3207.27617.37239.50619.85841.93950.1604.82038.32337.11323.74434.06360.35111.84223.11814.72511.6169.51670.2435.17317.51514.435123.10179.4898-0.190-10.9128.236-2.746-7.439-10.50290.1737.54323.97817.12221.31825.701100.3679.35216.04855.62127.86118.918run;proccorrcovnosimpledata=examp2_3;/*调用协方差分析的corr过程,计算协方差矩阵,不输出变量的简单统计量值*/varx1-x6;run;procprincompdata=examp2_3out=bb;/*调princomp过程,用相关系数阵进行主成分分析,输出集bb*/varx1-x6;run;/*以下程序对各公司按第一主成分进行排名并打印结果*/datascore1;setbb;datascore1;setbb;keepidprin1;procsortdata=score1;bydescendingprin1;/*调用数据集bb*//*保留id(编号)、print1(第一主成分得分)*//*对数据集数据集score1进行排序,按照prin1降序排列*/run;/*打印输出数据集/*打印输出数据集score1*/run;(1)调用协方差分析的corr过程,计算协方差矩阵及相关系数矩阵6x1TheSASSystem变量: x1x219:53Saturday,October16,2012 1CORR过程x5 x69x5x6x2样本协方mx3x3 x4差矩阵S,自由度=x4x10.1158567.0380861.4695506.6069167.1765403.832540x27.038086574.072521227.762290181.962655202.129706127.455392x31.469550227.762290225.355308-112.974155-161.18128015.099194x46.606916181.962655-112.974155853.528265653.378961323.896329x57.176540202.129706-161.181280653.3789611896.138991972.852413x63.832540127.45539215.099194323.896329972.852413673.171848由样本协力差矩阵看出,各指标的样本力差差异很大,因此从样本相关系数矩阵出发进行主成分分析(即求标准化的样本主成分).由SASprocprintcomp过程得样本相关系数矩阵如下:Pearson样本相关系数矩阵R及检验对应的两个变量是否相关的检验p值
Pearson相关系数,N=10当H0:Rho=0时,Prob>|r|x1x2x3x4x5x6x11.00000P12=0.863000.287600.664400.484190.43397P12=0.0013<0.05相关0.42040.03610.15620.2102x20.863001.000000.633230.259950.193740.205030.00130.04940.46830.59180.5699x30.287600.633231.00000-0.25759-0.246570.038770.42040.04940.47240.49220.9153x40.664400.25995-0.257591.000000.513600.427300.03610.46830.47240.12890.2181x50.484190.19374-0.246570.513601.000000.861090.15620.59180.49220.12890.0014x60.433970.205030.038770.427300.861091.000000.21020.56990.91530.21810.0014(2)调用主成分分析的princomp过程,从相关系数矩阵出发进行主成分分析,输出集址TheSASSystem 19':53Saturday,October16,20122ThePRINCOMPProcedureObservations10Variables6SimpleStatistics(简单统计量均值、标准差)x1x2x3x4x5x6Mean0.0566000000-0.7696000022.5595000010.6220000015.6309000021.56060000StD0.340376654123.9598105415.0118389229.2152060543.5446781025.94555545CorrelationMatrix(样本相关系数矩阵R)x1x2x3x4x5x6x11.00000.86300.28760.66440.48420.4340x20.86301.00000.63320.26000.19370.2050x30.28760.63321.0000-.2576-.24660.0388x40.66440.2600-.25761.00000.51360.4273x50.48420.1937-.24660.51361.00000.8611x60.43400.20500.03880.42730.86111.0000表2.3样本相关系数矩阵R的特征值、各主成分贡献率及累计贡献率EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativeA特征值入* 贡献率% 累计贡献率%I
13.01107972 1.203325470.50180.501821.80775425 0.973125130.30130.8031前两个已达80.30%30.83462912 0.554388920.13910.942240.28024020 0.227993770.04670.989050.05224643 0.038196140.00870.997760.014050290.00231.0000表2.4样本相关系数矩阵R特征值的正交化特征向量Eigenvectors;(特征向量)PrinlPrin2Prin3Prin4Prin5Prin6第一主成分e*第二主成分e;e*3e*4e*5e*6X10.5228440.213764-.294754-.196018-.288537-.687301x20.3968140.508698-.103156-.392312-.0663450.644060x30.1002560.6553120.3762610.4895160.382587-.181505x40.416770-.243670-.5694650.5840370.2270170.223608x50.444032-.3765180.328673-.3702350.639571-.083182x60.433888-.2548640.5732280.299781-.5526160.151465由表2.4知,前两个主成分的累计贡献率已达80.31%,因此,取前两个主成分做进一步分析即可.表4.5给出了对应于疗和心的正交单位化特征向量金和金,由此得到标准化1 2 1 2指标的前两个样本主成分为y*=efx*=0.5528x*+0.3968x2+0.1003x;+0.4168x;+0.4440x*+0.4339x;为六指标加权平均,反映各公司在获利和发展能力的综合实力.y*值大,则各公司的获利能力和经营发展能力越强.y*=e*Tx*=0.2138x*+0.5087x*+0.6553x*-0.2437x*-0.3765x*-0.2549x*2 2 1 2 3 4 5 6反映各公司获利能力与发展能力的对比,获利能力大且发展能力小,则y2值越大.反之,y2值越大,公司在获利能力和发展能力差异越大.(3)按第一主成分对各公司进行排序表2.5各公司按第一主成分得分的排序结果TheSASSystem19:53Saturday,October16,2012 3ObsidPrin1排名公司编号第一样本主成分y*的得分172.47008第一,综合实力最强2101.32340341.29914451.02640590.54590660.4809971-0.8639882-1.4122798-1.6045610 3 -3.26510想画出第二主成分对第一主成分得分的散点图,以及按第一主成分得分排序后的主成分得分和原始数据,可以把程序改写如下:dataexamp2_3;inputidx1-x6;cards;10.02126.80657.311-39.819-39.8198.8192-0.142-7.17916.335-11.359-4.766-4.6263-0.737-62.4177.359-18.378-19.16512.28940.3207.27617.37239.50619.85841.93950.1604.82038.32337.11323.74434.06360.35111.84223.11814.72511.6169.51670.2435.17317.51514.435123.10179.4898-0.190-10.9128.236-2.746-7.439-10.50290.1737.54323.97817.12221.31825.701100.3679.35216.04855.62127.86118.918run;procprincompdata=examp2_3prefix=yout=bb;/*调用主成分分析的princomp过程,从相关系数矩阵出发进行主成分分析,主成分名称y,输出集bb*/varx1-x6;procplotdata=bb;ploty2*y1$id=’*’;/*画散点图,横标y1,纵标y2*/procsortdata=bb;bydescendingy1; /*对数据集数据集bb进行排序,按照第一主成分y1降序排列*/run;procprintdata=bb;/*打印输出数据集bb*/varidy1y2x1-x6; /*输出一、二主成分及原始数据*/run;(4)第一、第二主成分散点图TheSASSystem19:53Saturday,October16,2012 4Plotofy2*y1$id.Symbolusedis'*'.y2|4+|||| *13+||||2+IIII1+ITOC\o"1-5"\h\z| *6I *5II *2 *90+II *10I *8 *4II-1+IITOC\o"1-5"\h\zI *7II *3-2+I + + + + + + + +-4 -3 -2 -1 0 1 2 3由此直观看出:第一主成分样本得分降序排列依次为(右到左):71045961283;按第二主成分排序为(上到下):16592104873分4类:1单独一类,3单独一类,7一类,其余一类.(5)程序输出结果,含第一、第二主成分和原始数据,并按照第一主成分降序排序TheSASSystem 19:53Saturday,October16,2012 5Obsidy1y2x1x2x3x4x5x6172.47008-1.507070.2435.17317.51514.435123.10179.4892101.32340-0.329520.3679.35216.04855.62127.86118.918341.29914-0.367850.3207.27617.37239.50619.85841.939451.026400.457820.1604.82038.32337.11323.74434.063590.545900.167450.1737.54323.97817.12221.31825.701660.480990.595840.35111.84223.11814.72511.6169.51671-0.863983.105440.02126.80657.311-39.819-39.8198.81982-1.412270.08441-0.142-7.17916.335-11.359-4.766-4.62698-1.60456-0.36954-0.190-10.9128.236-2.746-7.439-10.502103-3.26510-1.83698-0.737-62.4177.359-18.378-19.16512.289
方法二菜单操作方法可以用菜单系统“分析员应用”来完成主成分分析.具体步骤:打开SAS,生成数据文件Examp2_3,临时在Work逻辑库中(或建立逻辑库引用名,建立永久数据集);步,或者先建立好Excel文件如例2.3,在SAS菜单点File—ImportDate—选择Excel文件点击下一步,找到Excel文件例2.3,在Options选择第一行为变量名,起一个文件名Exam2,点击完成。步,点击solution解决方案一分析analysis一分析家(DataAnalyst);打开SAS集Examp2_3:选择File一^penbySASName--,在弹出窗口选择数据库work和数据集名Example一点击OK;选择Statistics统计一Multivariate多元分析一PrincipalComponents主成分.在弹出的窗口选择变量,将X1-X6选入variable,点OK,主窗口下按Statistics键,选择用相关还是协方差阵进行分析及主成分的个数,这里选择相关阵correlations,主成分个数ofxomponents选6,点击OK.主窗口下按Plot,选择是否绘制屏幕图(Screeplot)和主成分图(componentplot).这里选择绘制增强型的主成分图Enhanced,并指定id为排序变量,点击id进入Id窗口,点击OK.还可以在title下选择标题名称,如上市公司主成分分析结果.在主窗口下le按SaveData键选择是否主成分得分向量及统计量,这里选择不储存结果•点编辑-复制到word文档即可.结果如下:TOC\o"1-5"\h\z20:46Saturday,October16,2012 1上市公司主成分分析结果ThePRINCOMPProcedureObservations 10Variables 6SimpleStatisticsx1x2x3x4x5x6Mean0.05660-0.76960, 22.5595010.6220015.6309021.56060StD0.3403923.9598115.0118429.2152143.5446825.94556CorrelationMatrixx1x2 x3x4x5x6x11.00000.8630 0.28760.66440.48420.4340x20.86301.0000 0.63320.26000.19370.2050x30.28760.6332 1.0000-.2576-.24660.0388x40.66440.2600 -.25761.00000.51360.4273x50.48420.1937 -.24660.51361.00000.8611x60.43400.2050 0.03880.42730.86111.0000EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative1 3.01107972 1.20332547 0.5018 0.501821.807754250.973125130.30130.803130.834629120.554388920.13910.942240.280240200.227993770.04670.989050.052246430.038196140.00870.997760.014050290.00231.0000EigenvectorsPrin1Prin2Prin3Prin4Prin5Prin6X10.5228440.213764-.294754-.196018-.288537-.687301x20.3968140.508698-.103156-.392312-.0663450.644060x30.1002560.6553120.3762610.4895160.382587-.181505x40.416770-.243670-.5694650.5840370.2270170.223608x50.444032-.3765180.328673-.3702350.639571-.083182x60.433888-.2548640.5732280.299781-.5526160.151465应注意的几个问题主成分分析,除了用来综合变量之间的关系外,亦可用来削减回归分析或聚类分析中的变量数目.此外,为了达到最大变异的目的,我们可用主成分分析将原来的变量转变为成分,在获得所要的成分之后,可将各变量的原始数据转换为成分数据,以供进一步深入的统计分析,如回归分析.在进行主成分分析,应注意下面几个问题:主成分分析是通过降维技术用少数综合变量来代替多个变量的统计分析方法.•这些综合变量集中了原始变量的大部分信息.第一主成分包含信息量最大,其他主成分依次递减,主成分之间互不相关,保证各主成分所含的信息互不重复.•取多少个主成分,可按累积贡献率选,如m个主成分的累计贡献率大于等于85%,就取m个主成分,就能反映全部p个变量的绝大部分信息了.同时也要考虑主成分尽可能少,以达降维目的.也可以只保留特征值大于1的主成分.•当各变量的单位不相同时,应从相关矩阵出发进行主成分分析.•计算出主成分之后,应对主成分作出符合实际背景和意义的解释.练习:下表为山东省17个地市的2006年统计数据,考察的17个指标如下:(1) 求样本相关系数矩阵R;(2) 分别从协方差矩阵S、相关系数矩阵R出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 预防传染病肺结核班会
- (高清版)DB12 445-2011 天津市城市道路交通指引标志设置规范
- 音乐产业数字化音乐库建设方案
- 苏教版福建化学会考试卷知识点分析总结
- 预防为主生命至上
- 四年级数学(四则混合运算带括号)计算题专项练习与答案
- 山东省济南市钢城区2024-2025学年七年级上学期期末生物试题(原卷版+解析版)
- 江苏省扬州市梅岭集团2024-2025学年九年级下学期3月月考化学试题(原卷版+解析版)
- 音乐课件:狐假虎威
- 电视购物频道营销策略与内容策划指南
- 数字信号处理(课件)
- 沉淀理论课件
- 出口报关单填制规范课件
- 加油站防雷施工方案(标准版)
- 钳工实操评分表(凹凸配合)
- 铸造厂熔炼工部安全操作规程
- 刀具更换作业指导书
- 植物根茎叶课件
- 四年级下册英语教案:Unit 4 There are seven days in a week-Lesson 19人教精通版
- 精选四川大学SCI期刊分级方案
- 【高中地理课件】2022-2023学年高中地理人教版(2019)选择性必修1 构造地貌的形成 航拍之旅课件
评论
0/150
提交评论