主成分分析数据的标准化与非标准化的对比分析_第1页
主成分分析数据的标准化与非标准化的对比分析_第2页
主成分分析数据的标准化与非标准化的对比分析_第3页
主成分分析数据的标准化与非标准化的对比分析_第4页
主成分分析数据的标准化与非标准化的对比分析_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析的基本理论假设我们所讨论的实际问题中有p个指标,我们把这p个指标看作p个随机变量,记为X,X,X。这p个指标构成的p维随机向量为X=(X,X,X)'.12P12P设随机向量X的均值为卩,协方差为丫。…Y=uX+uY=uX+uX++uX1111212pipY=uX+uX++uX2121222--•p2pY=uX+uX+••+uXp•…1p・2p2ppp由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量Y的统计特征也不尽相同。因此为了取得较好的效果,我们总是希望Y=u'X的方差尽可能大且各Y之间互相独立,由于TOC\o"1-5"\h\ziijvar(Y)=var(u'X)=u'Suiiii而对任给的常数c,有var(cu'X)=cu'Sue=c2u'Suiiiii因此对u不加限制时,可使var(Y)任意增大,问题将变得没有意义。我们将ii线性变换约束在下面原则下:每个王成分的系数平方和为1,u'u=1即u2+u2++u2=1ii1i2ipi主成分之间相互独立,即无重叠的信息。即...Cov(F,F)=0,(i丰;i,j=1,2,,p)ij主成分的方差依次递减,重要性依次递减,Y是X,X,X所有线性组合112P中方差最大者;即Y是与Y不相关的X,X,X所有线•性组合中方差最大2112P者;…Y是与Y,Y,,Y不相关的X,X,…X所有线性组合中方差最大p-112p-112P者。Va(F)>Var(F)芝>Var(F)…12p•••基于以上三条原则决定的综合变量Y,Y,,Y分别为原始变量的第一、二、12p…第p主成分。其中,各综合变量在总方差中•占得比重依次递减。#主成分分析基本思想是在力保数据信息损失最少的原则下,把多个指标转化为少数几个综合指标的一种对多变量数据进行最佳综合简化。对于随机变量X,X,,X而言,其协方差矩阵或相关矩阵正是对个变量离散程度与变量之间12P的相关程度的信息的反映,而相关矩阵是将原始变量标准化后的协方差矩阵。本文所要讨论的主成分分析数据的标准化与非标准化的对比分析本质上就是对原始变量的协方差矩阵以及相关矩阵求解主成分进行对比分析。下面就对二者进行讨论。主成分求解、从协方差矩阵出发求解主成分(一)第一主成分:设X的协方差阵为:S设X的协方差阵为:S=XG11G2112G22G1PG2PGP1GGP1PP」由于s为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵u,使得unU=X其中九19九…,九为S•的特征根,不妨假设九,>x2H。而U恰好是12px12"由特征根相对应的特征向量所组成的正交阵。U11u21U12U22U11u21U12U22UpUpUP1Up2u)i=1,2,…piU=Ci下面我们来看,是否由u的第.一列元素所构成为原始变量的线性组合是否有最大的方差。1iU,2i设有P维正交向量a=(a,a,,a11121p1Y1=a11+X1+•••+aX•=a'XV(Y1)=a;羽1=a卩九p」

=刀九a'uUaiiii=1=刀九(a'u)2iii=1<九刀(a'u)2TOC\o"1-5"\h\z1ii=1=九刀a'uUa1ii=九a'UU'a=九a'a=九111当且仅当a1=u」寸,即Y1=u11X1++u1X时,有最大的方差九1。因为111111p1p1Var(F1)=U1'SxU1=九1如果第一主成分的信息不够,则需要寻找第二主成分。(二)第二主成分在约束条件cov(Y「Y2)=0下,寻找第二主成分Y2=u12X,++u2X122121p2p因为cov(Y,,Y)=cov(urx,urx)=u'2u.=九ufu.=0121221121则,对p维向量则,对p维向量u2,有V(Y2)二心刃2二DuFulii=1―=另九(u'U)2i2i2ii=1=^2U;UMU2=^2U2UU'U2=X2U2U2沬2i=1所以如果取线性变换:Y2所以如果取线性变换:Y2=u12X1+u22X2++up2Xp则Y2的方差次大。TOC\o"1-5"\h\z=uX+uX++uX丫昇11“I21丫昇plYzp=uX+uX++uX类推2121222p2p•••pp=uX+uX+••+uXppp1p12p2写为矩阵形式:Y=U'X...U二(UU二(U1UP)二u11

u21u12

u22up

up"p2X=(X],X2,,Xpy上述推导表明:变量x的主成分y是以L的特征向量为系数的线性组合,它们互不相关,方差为s的特征根。而2得特征根九1八2mp>0,所以Var(y)>Var(y)Var(y)>0。12p

二、由相关系数矩阵求解主成分当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。量纲对于主成分分析的影响及消除方法一一对数据进行标准化处理,以使每一个变量的均值为0方差为1。X*-TE(X)

,<D(X^数据标准化后,总体的协方差矩阵与总体的相关系数相等。cov(X*,X*cov(X*,X*)=E(X*-E(X*))(X*-E(X*))=E(X*(X*)')Pj121丿P12P1p

p12P12=cov(X*,X*)ij案例背景根据35个主要城市2001年关于年底总人口数、国内生产总值、工业总产值、客运总量、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工人数总额10个指标的数据,分别用原始变量的协方差矩阵和相关矩阵求解主成分。(数据见附页)数据来源及说明采用的数据主要是中华人民共和国统计局网上搜集的,关于35个主要城市2001年年底总人口数、国内生产总值、工业总产值、客运总量、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工人数总额10个指标的数据。分析样例分别从协方差矩阵和相关矩阵出发对求解主成分(对比)的步骤:根据原始数据计算协方差矩阵命令代码:CoBBSJid.VindoTFile闘讥DebugDesktopWindowHelp>>clear988.102697.9427383005.00224693055045416761361817935363232:747.991649.9426635642.00330228151157564859578541148360017925(195.00462.824674185.001271812415267217162233939436535866S239.20328.873041318.002670151701912581116902421248276741534108.38147.46822266.0028592415115899694792156184225314460;487.681057.157290387.0067421515678643626971899848906109127025(270.68933.1310035627.0011232197368379022363574645203173298.02732.639002623.00752210346521591862037506446175919125;307.39633.664027314.0063748814524742241712763183581291343357;1262.414893.0169355680.006324494996138500181327462781820023561S371.89981.7615792063.0016198141201016425368107564739588815172h379.491195.1716156245.002034215841884738413280679764006712]126.13581.327515766.002322411182605456215625829391543263:137.95269.303301429.00514129032304901142612186046634153.77507.343795136.00101727280486042148536335104874661i134.得至到原始数据协方差矩阵是:174.68343.592388150.00435125473246653090173281322.45820.136169652.00630013057490001237.62700.8312120173.001516629068738006229.03388.122618010.00115897373379797758.231347.8010208352.001170316244861586180.77468.872417588.0085787550346070184251226223274982:62739723880622020380144026348550271890677249760044740514017218501138280199883576237456457137454865(3ej£0815^1358^e-K]0936严10磊P12132.041954.1730796298.009869516726565326466933137339009424417Ue^i2137.85242.261093949.0052663371202679804615242737433^■le-KJOS60.20145.651001338.00663520181636327210101801381182$:沁旳12903.09879.828708192.00600872947039300033132887209600123128397E341.52777.534122258.005246723724503207387720066658008110S191.05249.002079492.001733448852461061331253219329141q引215.20523.003037762.00643712084499548167258441238946178(400.08634.944491390.009079772851512622691057140541101113040:576.972449.0024469713.0024451245002382192942236024515484156>>b=cov(a);>>c=eig(b);>>[vjd]=eig(b);»»田3田盘B1-taStack:Base112345678g10110.826930.746140.363980.861470.752750.838320.794830.861240.8128620.8269310.96720.151270.798650.962120.979150.899480.794150.9054230.746140.967210.0709010.758090.937760.928550.804050.691680.8338940.363980.151270.07090110.441040.08580.201310.223030.235220.1777850.861470.798650.758090.4410410.721780.788860.719950.732490.7366360.752750.962120.937760.08580.7217810.97680.918910.818780.9478270.838320.979150.928550.201310.788860.976810.944760.85960.9594980794830.899480.804050.223030719950.918910.9447610.925410.9801990.861240.794150.691680.235220.732490.818780.85960.9254110.94579100.812860.905420.833890.177780.736630.947820.959490.980190.945791{謐ArrayEditor一cFile£五tViewGraphicsDebug卫曲ktoj)WiiLdowHelp由上面的协方差矩阵可以看出各个变量之间的离散程度很大,说明变量之间相关程度不大。然而在相关矩阵中可以看出除了第四个变量与其他变量离散程度大,其余变量之间都有很强的相关性,相关系数在0.7以上。这个结果与协方差矩阵有截然不同的解释。这是因为原始数据各项指标的受不同度量尺度的影响。由原始数据协方差出发求解主成分,得到如下结果:特征根解释方差比例累积比例2.32E+140.928078549160.928078549161.75E+130.0700059250450.998084474213.58E+110.00143212120950.999516595428.76E+100.000350429659080.999867025073.31E+100.00013241120680.999999436281.17E+084.6803961315E-070.999999904322.39E+079.5608091918E-080.99999999993132595.3040489152E-110.999999999984326.91.7309064976E-11187.3573.4945757681E-131其对应特征值的标准正交特征向量见下表:特征根1特征根2特征根3特征根4特征根51.47E-051.43E-05-8.70E-05-0.0001590.00050366.09E-051.12E-05-8.71E-05-0.000267-0.0001590.85463-0.500780.13407-0.0035160.0290329.71E-050.0008170-0.004133-0.0181480.0120060.00055170.0001702-0.001924-0.0061540.0157770.0812640.039067-0.192330.61971-0.755140.237580.16555-0.90746-0.303840.0155770.444850.836410.29955-0.094259-0.0625013.66E-068.62E-06-6.56E-062.97E-050.00010470.0930960.14387-0.178360.71720.65145特征根6特征根7特征根8特征根9特征根100.0023663-0.009481-0.827620.555880.077126-0.001383-0.008246-0.55461-0.831180.0384520.00026260.00072101.60E-051.91E-05-9.78E-07

0.95310.30182-0.002622-0.002828-1.21E-050.30157-0.953210.012290.0007504-8.25E-050.023198-0.008721-0.0002620.0001939-2.37E-05-0.0103790.00093730.00018939.05E-05-1.63E-05-0.000248-0.0007021.37E-055.30E-05-2.41E-069.31E-05-0.000976-0.0854750.010953-0.996280.00223210.0072965-3.98E-05-0.0003748.50E-05因此所得的主成分的表达式t是=(1.47E-05)(X-X)+(6.09E-05)(X-X)+0.85463(X-X)+…+0.093096(X-X)TOC\o"1-5"\h\z1122331010=(1.43E-05)(X-X)(1.12E-05)(X-X)-0.50078(X-X)+…+0.14387(X-X)Y=(0.077126)(X-X)+(0.038452)(XY=(0.077126)(X-X)+(0.038452)(X-X)-(9.78E-07)(X-X)+…+(8.50E-05)(X-X)101122331010其中第一主成分保留了原有变量的92.8%的信息,所以在分析中可以把第二主成分舍掉,这样就达到了简化问题的目的。第一主成分与原是变量的因子负荷分别P(Y,X)=y/.:厂=(1.47E-05)x、232E+14々8.04E+04=0.79051111七111(Y,X)=y丽人丁=(6.09E-05)xy2.32E+14/J8.82E+05=0.98781212I1%22(Y,X)=丫、只I、亍=0.9871(Y,X)=Y込/芦=0.11611414t144(Y,X)=YV-T人;厂=0.77891515155(Y,X)=丫汀/、亍=0.9709(Y,X)=丫正/丁=0.97121717k1忙77(Y,X)=丫汛A帚=0.88801818七188(Y,X)=丫历/厂=0.7823(Y,X)=y/—=0.9069注:1101,10*110,10注:其中九为第i个特征根Y••为标准正交化后的特征向量阵中第i行第j列i1J元素,花为第i个变量的方差(i,j=l,2,...,10)由此可见,第一主成分反映了年底总人口数指标的79.05%、国内生产总值指标的98.78%、工业总产值指标的98.71%、货运总量指标的77.89%、地方财政预算内收入指标的97.09%、固定资产投资总额指标的97.12%、城乡居民年底储蓄余额指标的88.8%、在岗职工平均人数指标的78.23%、在岗职工人数总额90.69%。所以第一主成分可以看成是年底总人口数、国内生产总值、工业总产值、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工平均人数、在岗职工人数总额的综合变量。它在很大程度上起到了及降维的作用,利用一个综合变量解释了九个原始变量。而主成分分析是利用利用降维的思想,在力保数据信息损失最少的原则下,把多个指标转化为少数几个综合指标的一种对多变量数据进行最佳综合简化的多元统计方法,本次主成分提取为解释原有的所有变量。因此此次用协方差矩阵求解的主成分不是很好。现就对原始数据相关矩阵进行分析。

而由原始数据相关矩阵得到如下结果:特征根解释方差比例累积比例7.9050.790523968430.790523968431.1400.113960572080.904484540510.4440.0443612226930.948845763210.3160.0315741585020.980419921710.1130.0112690565710.991688978280.0400.00395391984870.995642898130.0250.00252931269710.998172210820.0090.000907814557230.999080025380.0080.000761043820440.99984106920.0020.000158930797831其对应特征值的标准正交特征向量见下表:特征根1特征根2特征根3特征根4特征根50.31814-0.207730.0173090.57143-0.635860.343860.11973-0.26907-0.10769-0.17840.323350.1947-0.49469-0.13234-0.138580.09221-0.87202-0.02776-0.45025-0.10760.30271-0.29124-0.368610.456270.682790.339530.20376-0.07807-0.27860.0558020.350570.080886-0.05628-0.17786-0.102760.33890.047470.34361-0.222680.149080.3233-0.039680.565630.241140.0703970.343960.086450.31413-0.128280.1613特征根6特征根7特征根8特征根9特征根100.0836090.191010.28379-0.013550.0169350.36397-0.15598-0.51073-0.3680.44555-0.34795-0.569660.269360.20629-0.12414-0.10798-0.04878-0.01277-0.037230.0202330.0794010.0807280.0048450.006211-0.02020-0.33130.517010.19396-0.55239-0.19120.116470.36385-0.430560.58624-0.387530.63387-0.23980.40302-0.06921-0.25789-0.39587-0.35638-0.39327-0.17326-0.20607-0.199170.146880.213970.369840.69947因此所得的主成分的表达式是=0.31814(X-X)+0.34386(X-X)+0.32335(X-X)+•••+0.34396(X-X)TOC\o"1-5"\h\z1L23_310』=-0.20773(X-X)+0.11973(X-X)+0.1947(X-X)+…+0.08645(X-X)1122331010Y=0.016935(X-X)+0.44555(X-X)-0.12414(X-X)+…+0.69947(X-X)101122331010其中第一、二主成分保留了原有变量90.45%的信息,所以在分析中可以把第一、二主成份提取出来,这样就达到了降维的目的。第一、二主成分与原是变量的因子负荷分别为利用上面求因子负荷方法求得下表第一主成分第二主成分0.894488389390.221756031720.96680322366-0.336635113040.90913692308-0.547422170790.259259365010.930899219090.851105112060.310904667980.95462891447-0.217517975370.98566918548-0.0863474624840.95285759466-0.0506751977370.908996342140.0423645507090.96708438553-0.092287146499由上表可知第一主成分反映了年底总人口数指标的89.45%、国内生产总值指标的96.68%、工业总产值指标的90.91%、货运总量指标的85.11%、地方财政预算内收入指标的95.46%、固定资产投资总额指标的98.57%、城乡居民年底储蓄余额指标的95.29%、在岗职工平均人数指标的90.90%、在岗职工人数总额96.71%。所以第一主成分可以看成是年底总人口数、国内生产总值、工业总产值、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工平均人数、在岗职工人数总额的综合变量。第二主成份反映了客运总量指标的93.09%。这说明第一、二两个主成分共同解释了原是变量的所有指标,也就是起到了降维作用,而不想协方差矩阵求解主成分那样,并没有把所有变量解释完整。总结一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标不直接由其协方差矩阵出发进行主成分分析,而应该考虑对数据的标准化。在本文中采用的例子就是度量单位不同,有万人、万吨、万元、亿元,而数据见的差异性也非常大,小则65.49大则13618179,。因此在用协方差矩阵求解主成分时存在协方差矩阵中数据的差异性很大。在后面提取主成分时发现,只提取了一个主成分,而此时并不能将所有的变量都解释到,这就没有真正起到降维的作用。但是在用相关矩阵求解主成分时发现,提取了两个主成分后可以很好地将所有变量都解释了,进而起到降维的作用,这就实现主成分分析的最终目的。但是对原始数据进行标准化后更倾向于各个指标的作用在主成分分析夫人构成中相等。对于数据取值范围不大或是度量单位相同的指标进行标准化处理后,其主成分分析的结果与仍由协方差矩阵出发求得的结果有较大区别。这是因为对数据标准化的过程实际上就是抹杀原是变量离散程度差异的过程,标准化后方差均为1,而实际上方差是对数据信息的重要概括形式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在主成分构成中的作用趋于相等。因此,对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。

附录年末总人口数(万人)地区生产总值(GDP)(亿元)限额以上工业总产值(万元)客运总量(万吨)货运总量(万吨)地方财政预算内收入(万元)固定资产投资总额(万元)城乡居民储蓄年末余额(万元)在岗职工平均人数(万人)在岗职工工资总额(万元)北京市988.12697.94273830052246930550454167613618179353632323857511091天津市747.991649.94266356423302281511575648595785411483600178.522580319石家庄195462.820467418512718124152672171622339394365357.57668230太原市239.2328.87130413182670151701912581116902421248276.44741534呼和浩108.38147.45982226628592415115899694792156184225.28314460沈阳市487.681057.15729038767421515678643626971899848906109.361270250大连市270.68933.1311003562711232197368379022363574645203173.21047008长春市298.02732.6299002623752210346521591862037506446174.56919125哈尔滨307.39633.65840273146374881452474224171276318358129.131343357上海市1262.414893.016935568063244949961385001813274627818200235.096152145南京市371.89981.75915792063161981412010164253681075647395888.151517214杭州市379.491195.161615624520342158418847384132806797640067.491279750宁波市126.13581.315751576623224111826054562156258293915431.79633904合肥市137.95269.2993301429514129032304901142612186046633.71364216福州市153.77507.34437951361017272804860421485363351048745.71

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论