主成分分析法教案_第1页
主成分分析法教案_第2页
主成分分析法教案_第3页
主成分分析法教案_第4页
主成分分析法教案_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析法一、主成分分析(principalcomponentsanalysis)也称为主分量分析,是由Holtelling于1933年首先提出的.主成分分析是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。二、应用背景:对同一个体进行多项观察时,必定涉及多个随机变量XI,X2,…,Xp,它们都是相关的, 一时难以综合。这时就需要借助主成分分析(principalcomponentanalysis)来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大"作为“好"的标准来寻求综合指标.例1、考察对象股票业绩(这里单个股票为观察个体)。(1)确定影响股票业绩主要因素:主营业务收入(X1),主营业务利润(X2)利润总额(X3),净利润(X4),总资产(X5),净资产(X6),净资产收益率(X7),每股权益(X8),每股收益(X9),每股公积金(X10),速动比率(X11)作为变量.因此对单个股票来说,用11个随机变量综合刻化.但这些因素过多,各因素区别不明显,有交叉反映。通过主成分分析,可降为少数几个综合指标加以刻化。(2)考察20支不同的股票.从数学角度看,每种影响因素是随机变量(XJ,观察一支股票便得到影响该股票的11个随机变量取值;观察20支股票,便得到了20x11的原始数据阵X20X11(略).三、问题:作为主成分?严格的数学定义?相应的性质有哪些?主成分取多少?1、主成分的一般定义 _设有随机变量X1,X2,…,Xp,其样本均数记为K,又2,…,XP,样本标准差记为S1,S2,…,空。首先作标准化变换X—X7我们有如下的定义:(1)若Y1=a11x1+a12x2+…+a1pxp,an+a2++aip-'且使Var(Y1)最大,则称Y1为第一主成分;(2 ) 若Y2=a21x1+a22x2+…+a2pxp,a21+a22++a2p ,(a21,a22,…,a2p)垂直于(a11,a12,…,a1p),且使Var(Y2)最大,则称Y2为第二主成分;(3)类似地,可有第三、四、五…主成分,至多有p个。

2、主成分的性质:Y1,Y2,…,Yp具有如下几个性质(1)主成分间互不相关,即对任意i和j,Yi和Yj的相关系数Corr(Yi,Yj)=0 i丰j(2)组合系数(ai1,ai2,…,aip)构成的向量为单位向量,i1i1 i2+a2=1

ip(3)各主成分的方差是依次递减的,即Var(Y1)NVar(Y2)三…三Var(Yp)(4)总方差不增不减,即Var(Y1)+Var(Y2)+…+Var(Yp)=Var(x1)+Var(x2)+…+Var(xp)这一性质说明:主成分是原变量的线性组合,是对原变量信息的一种改组,主成分不增加总信息量,也不减少总信息量。(5)主成分和原变量的相关系数Corr(Yi,xj)=aijVar((Yi^=aijv,xi(6)令X1,X2,…,Xp的相关矩阵为R,(ail,ai2,…,aip)则是相关矩阵R的第i个特征向量(eigenvector)。而且,特征值Xi就是第i主成分的方差,即Var(Yi)=Xi其中Xi为相关矩阵R的第i个特征值(eigenvalue)X1三X2三…三XpN03、主成分的数目的选取前已指出,设有p个随机变量,便有p个主成分.由于总方差不增不减,Y1,Y2等前几个综合变量的方差较大,而Yp,Yp-1等后几个综合变量的方差较小,严格说来,只有前几个综合变量才称得上主(要)成份,后几个综合变量实为“次”(要)成份。实践中总是保留前几个,忽略后几个。保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比(一般为80%)便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留.四、主成分分析的一般步骤1、设观察个体的变量指标为x1,x2,…,xp,它们的综合指标——主成分为z1,z2,...,zm(mSp),则Uz=lx+1x++lxz-1x+1x+...+1xmm11m22 mppz1,z2,…,zm分别称为原变量指标x1,x2;…,x6的第一,第二,…,第m主成分.

2.收集原始数据,得如下数据表:12x,12 pSp2.收集原始数据,得如下数据表:12x,12 pSp.首先作标准化变换X—X样本标准差记为S1,S2,…,3、计算相关系数矩阵,对应的特征值九1(按从大到小排列)及其对应的特征向量弓1h %马1FA %MMMM0黑‘坪其中Matlab命令:其中Matlab命令:(1)R=corrcoef(X) (2)[b,c]=eigs(R)4.计算主成分贡献率及累计贡献率主成分芯的贡献率为4 (工二12,八,正£4A-1累计贡献率为a=i2A,w£&比」—殷取累计贡献率达乃一必尤的特征值兄“冬小,兄潴所对应的第一、第二,一.,第m个主成也

类似形式结果:表3.5,3主成分特征值贡献率累计贡献率G%)1.5.04356,02956,02921,靶19,399门5.4况30.99711B76甑羽440.6106.731噌一口密至切琳97.0^160.1721.907兆蚓70.0790.3727四基10*0.0140.155699,9969口.皿口40.0042100.005.计算主成分载荷l=8e(i,j=1,26)e为i对对应的标准化的特征向量的第j分量类似形式结果:表3S4主成分羲荀原变量主成分占方差的.4A务.百分数(找)0.75.-0.3g也我1^3.03耳-0.250.S3-0:0&73.-20当0.^9-0.190.00S2.19苑U.M’0.14-o.d3先离分Q.91o.ia016:-33.26JO.30.一口.完口.站■39.97为呼一-050:p.25§3.19冷•口.吟0.17016胃g口的0.22-0.1032.166.进行结果分析类似形式:▲第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,可以看作是流域盆地规模的代表;▲第二主成分z2与x2有较大的正相关,与x7有较大的负相关,分可以看作是流域侵蚀状况的代表;▲第三主成分z3与x6有较大的正相关,可以看作是河系形态的代表;▲根据主成分载荷,该流域系统的9项要素可以被归纳为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态.如果选取其中相关系数绝对值最大者作为代表,则流域面积、流域盆地出口的海拔高度和分叉率可作为这三类要素的代表。例2、主成分分析方法应用实例1)实例1:流域系统的主成分分析(张超,1984)表3.5.1(点击显示该表)给出了某流域系统57个流域盆地的9项变量指标.其中,x1代表流域盆地总高度(m),x2代表流域盆地山口的海拔高度(m),x3代表流域盆地周长(m),x4代表河道总长度(m),x5代表河道总数,x6代表平均分叉率,x7代表河谷最大坡度(度),x8代表河源数,x9代表流域盆地面积(km2)。表331某57个建触地增值素费需序号X1 总 将 耳 Xj 先国通i76054901.704a㈣-31.S200.143法1S9144504.394-30庚空;3.7.Q%0.3123耘3立51.^002比口36■3.042.21.1250.16235S47W1透1:5911.610143.17'31.3100.094注:表中数据详见书本87和88页。(1)分析过程:①将表3.5。1中的原始数据作标准化处理,然后将它们代入相关系数公式计算,得到相关系数矩阵(表3.5.2).

表3Q梯能蠲挥阵町形*拓xfi呼裔诲1.000施-0.3701.QOO当C.619-0.0171.0000.657-0.157O.S411.000由0474-0.1500.7$-[).9211.000X:0.074-日加0.1670.0940.1651.000际0.607―与爬0.1620.217口.1党0.1701.M0迩0.431心口.13袤U图0.92S0.999O.l^I-0.1641.000'运0.^89-o.oie0.9100.937口语后0.071口.1招0.7951.000②由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表3。5。3)。由表3.5.3可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一、第二、第三主成分zl,z2,z3即可。J,5.3痴诙驻成分颓碎主成分特征值献率(代)累计贡献率C%)1:.5.04356,02956,029i1柞19,39975.42^i0.9P711.™甑5Q44C.6106徵93,2855-D.歌华碎97.0^1密0.1721.907阳兜1就0.07P0.372799:3<1D.0140.15^卯.典的3-□,□0040.0042100.00■③:对于特征值4=5.口4^^=1.746,%=口.典7分别求出其特征向遢巳1,⑸寺再用公式%="4,牛).=/4%上3:1,2丛山•计算各变量区u说…,福在主成分必**.z3上的载荷(表3.5.4).表翘金主虎分栽荷原变量"主成穿占方差的百分数耳的0.75-0资-D.36竭交5制-0.2?眸-0皿73.20口覆0.190.008119割0.970.14密痂应*30.1S.O.ld.-83.260.20-036口驰额97的口密-0.SQ邛邈即I。有0g20.1T0.16-SPP0沏□应‘口力-01092.16结果分析:▲第一主成分z1与Xi,x3,x4,x5,x8,x9有较大的正相关,可以看作是流域盆地规模的代表;第二主成分z2与x2有较大的正相关,与x7有较大的负相关,分可以看作是流域侵蚀状况的代表;第三主成分z3与x6有较大的正相关,可以看作是河系形态的代表;根据主成分载荷,该流域系统的9项要素可以被归纳为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态.如果选取其中相关系数绝对值最大者作为代表,则流域面积、流域盆地出口的海拔高度和分叉率可作为这三类要素的代表.(2)实例之二:中国大陆31个省(市、区)第三产业综合发展水平的主成分分析与评估聚类分析聚类分析就是用数学方法对事物进行分类,如(1)我们可以根据学校的师资、设备、学生的情况,将大学分成一流大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论