主成分分析训练题_第1页
主成分分析训练题_第2页
主成分分析训练题_第3页
主成分分析训练题_第4页
主成分分析训练题_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析训练题鴛林啦号科歿女学GUILINUNIVERSITYOFELECTRONICTECHNOLOGY主成分分析在数学建模

中的应用2012年11月13日第一讲主成分分析在数学建模中的应用学习目的理解主成分分析的基本思想;会用SAS软件编写相关程序,对相关数据进行主成分分析;会用SAS软件编程结合主成分分析方法解决实际问题。学习要求理解主成分分析的基本原理,掌握主成分分析的基本步骤;会用SAS软件编写相关程序,对相关数据进行分析处理和假设检验;撰写不少于3000字的小论文;精读一篇优秀论文。理论基础3.1基本思想在实际问题的研究中,往往会涉及众多的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。一般来说,虽然每个变量提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数较少的互不相关的新变量来反映原来变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析就是在这种降维的思想下产生的处理高维数据的方法。3.2基本原理(1).总体的主成分定义1•设X=(耳X2,..,Xpj为P维随机向量,称乙=订为X的第i主成分(i=l,2,・・・P),如果:(1)也=1(Z=1,2,…,P);⑵当i>1时,

a'工a=0(j=1,2,…i-1);ij(3)(3)Var(Z)= max Var(a'X)' aa=1,a'工a.=0(j=1,・・・i-l)定理1•设x=(x,x,…,x)'是P维随机向量,且1 2 pD(X)=Z,丫的特征值为—…—0,a,a,…,a为相应1 2 p 1 2 p的单位正交特征向量,则X的第i主成分为Z=a'X (i=1,2,…,p).ii九/kii=1定义2.我们称九/丫九为主成分Z九/kii=1k称N必为主成分Z,…,Z(m<p)的累计贡献率。记TOC\o"1-5"\h\zk i 1k=1 i=1Z=(q),A=diag(九九,…九)9 I特征值,aa…a是相应的单位正交特征向量,记正交矩阵aaa1 2 p\o"CurrentDocument"主成分 ,其中 则A=(a,a,…,a). Z=(Z,…Z)' Z=a'(/=1,2,…,p)/1 2 p 1 p ii总体主成分有如下的性质:性质1.D(z)=A,即P个主成分的方差为:Var(Z)“(i=1,2,…,p),且它们是互不相关的。ii性质2.丫◎上九,通常称乙为原总体X的总ii i iii=1 i=1 i=1方差(或称总惯量)。性质3.主成分Z与原始变量X的相关系数为p(Z,X)kip(Z,X)=®a/JQ (k,i=1,2,…卩)k i Fkik琴ii并把主成分Z与原始变量x的相关系数称为因子ki负荷量。性质4a2―ik-ick=1 ii性质Yp2(Z,X)=2L性质4a2―ik-ick=1 ii性质Yp2(Z,X)=2L么!=1(i=1,2,…,p)°k=152Lcp2(Z,X)=X(k=1,2,…,p).ii ki k若记E(X)二卩,Var(X)二ci i ii=1即令2iX—E(X)X—卩X*=―i i=—iii Var(X) ci i这时标准化后的随机向量X*=(X*,X*,…x*)'的协方差阵£*就是原随机向量X的相关阵Ro从相关阵R出发求主成分,记主成分向量为Z*=(Z*,...,Z*)',则1p(i二1,2,…,p)Z*有与总体主成分相应的性质:Z*性质】・ D(Z*)=A*=diag(X*,X*,…,X*),其中X*.1*.…X*为p 1 2 p相关矩阵R的特征值。12性质2.迟九*=pii=1性质3.主成分Z*与标准化变量X*的相关系数为p(Z*,X*)kkp(Z*,X*)=X*a* (k,i=1,2,…p)'kk 说kik其中a*=(a*,…,a*)'是R对应于X*的单位正交特征k 1k pk k向量。pk性质4Yp2(Z*,X*)=Xx*(a*)2=1 (i=1,2,…,p)kk kikk=1 k=1性质5Yp2(Z*,X*)=刀九*(a*)2=X* (k=1,2,…,p)°kk kik k2.样本的主成分定义1.设变量X,X,…,X的n次观测数据阵X已标准化,这时样本的协方差阵就是样本相关阵R=丄n-1 ijpxR=丄n-1 ijpxpX'X=(r)ijpxPR的特征值为入林,...林,0,其相应标准化特征向量为,样本主成分为a,a,.,a1 2 pZ=a'X (j=1,2,…,p)类似总体主成分,样本主成分也具有如下的性质:性质1•Z=11Lz=(?,••")'=0(因为X=0),而n (t) 1 pt=1Z'Z=<ij0, Z'Z=<ij(n-1)九.…当i=j.i上式说明当i丰.时,第i个主成分得分向量Z与第j个主成分得分向量Z是相互正交的。性质2.另入=p。称乂为样本主成分Z的贡献率;i p k又称二为样本主成分Z,…,Z(m<P)的累计贡献p 1m率。性质3.样本主成分具有是残差平方和最小的优良性。3.3基本步骤

(1)数据标准化x_Xj-XjjSjjS为第j列的方差;Sj⑵计算协方差矩阵R(i——1,2,…,n(i——1,2,…,n;j——1,2…p)其中,用特征方程—R——°求出按大小排列特征值九以及相应的特征向量; 'e⑷选择前几个特征向量,确定主成分;3.4基本命令使用procprincomp过程进行主成分分析,其主要语句格式如下:Procprincomp<选项列表>;Var变量列表;Run;其中:(1)Procprincomp语句用来规定输入、输出和一些运行选项,其选项及功能如下:4鼻蚀=数据集名1:指明所要分析的数据集,若省略则表示分析最新生成的数据集。0皿=数据集名2:命名一个输出SAS数据集,其中包含原始数据以及各主成分得分(即各主成分的观测值)。。口饴吩数据集名3:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的SAS数据集。covariance(cov):要求从协方差矩阵出发作主成分分析,若省略此选项,则从相关矩阵出发进行分析;除非各变量的度量单位是可比较的或已经过某种方式的标准化,否则不宜使用此选项,应从相关矩阵出发作主成分分析。N=n:指定要计算的主成分的个数,其默认值为参与分析的变量的个数。prefix=name:规定各主成分名称的前缀。省略此句则SAS系统自动赋予各主成分名称分别为prin1,prin2, ;若“name=A”,则各主成分名称分别为A1,A2,……,前缀的字符个数加上后面数字位数应不超过8个字符。(2)VARvariables;此句中的“variables”部分列出数据集中参与主成分分析的变量名称。若省略此句,则被分析数据集中所有数值变量均参与分析。4.举例【例1】(中学生身体四项指标的主成分分析)在某中学随机抽取某年级30名学生,测量其身高(X1)、体重(X2)、胸围(X3)和坐高(X4),(数据见教材P277的表7・4)。试对这30名学生体四项指标数据做主成分分析。datad721;inputnumberx1-x4@@;cards;114841727821393471763160497786414936677951594580866142316676715343768381504377799151427780101393168741114029647412161477884131584978831414033677715137316673161523573791714947827918145357077191604774872015644788521151427382221473873782315739688024147306575251574880882615136748027144366876281413067762913932687330148387078procprincompdata=d721prefix=zout=o721;varx1-x4;run;optionsps=32ls=85;procplotdata=o721;plotz2*z1$number='*'/href=-1href=2vref=0;run;procsortdata=o721;byz1;run;procprintdata=o721;varnumberz1z2x1-x4;run;quit;由PRINCOMP过程由相关阵出发进行主成分分析。由下面的相关阵来看,指标之间存在着严重的共线关系,就要用主成分的方法进行降维(也就是说用较少的指标就能很好衡量学生的身体基本情况。从相关阵的特征直来看,第一主成分的贡献率已高达88・53%,且前两个主成分的累计贡献率已高达96.36%,因此只需用两个主成分就能很好地概括这组数据。另由第四个特征值近似为0,可以看出这4个标准化后的身体指标变量有近似的共线性。由最大的两个特征值对应的特征向量可以写出第一和第二主成分:Z二0.496966X*+0.514571X*+0.480901X*+0.506928X*112 3 4Z=—0.543213X*+0.210246X*+0.724621X*-0.368294X*2 12 3 4利用特征向量的值对各个主成分进行分析。第一主成分特征值对应的第一个特征向量的各个分量均在0・5附近,而且都是正值,它反映学生的魁梧程度。身体高大的学生,他的4个部位的尺度都比较大;而身体矮小的学生,他的4个部位的尺寸都比较小。因此我们可以称第一主成分为大小因子。第二大特征值对应的特征向量中第一和第四个分量均为负值,其它的都为正值,它反映学生的胖瘦情况,可称为形态因子。从第二主成分得分对第一主成分得分的散布图看,很直观地看出,按学生的身体指标尺寸,这30名学生大约分三组(以第一主成分得分值为-1和2为分界点)。每一组包括哪几名学生可由每一给散点旁边的序号可以得知。ObservationsVarieibles304SimpleStsitisticsx3Mean149.000000038.7000000072.23333333StD7.31554796.460223125.15071685TheSASSystemThePRIMCOMPProcedurex479.366666674.27085821CorrelatiorHatrlxxlx3占41.00000.56320.73210.92050.86321.0000Q.89660.8827k30.73210.88651.00000.78290.92050.88270.78291.0000EigenvaluesoftheCorreiatiunMatrixEigenvalueDifferenceProporticinCumulative3.H109SOD8.227714840.88530.88530.318383160.233374200.07830.96360.079405950.013299060.019^0.9S350.068103830.0165I.OQOOEigenvectors7lz2z3z4xl0.496966-.543213-.4496270.505747x20.E145710.21024S-.482880-.890844x30.4809010.7246210.1751770.46US8x40.506928-.36S2940.743903-.282343111口c-h<-口y■□■■.c:iii10:59Sunday,itDecember25)2005Plot口fz2:+=z1:inijniber. Synibc1usedis'2?■■:■i??1:■申17■:■;■1■Qi1??■:'? 水2i屮8■;■22? 29?m9?申15啊10?*22Qi27 ? 来1? *13 250血惓惓蟻悽惓惓蟻??4傻笊惓??3傻懺傻傻傻懺裤6傻懺傻悽傻懺忻悽傻惶忻d傻僂椚种? 泉28'-1 !!!:=llj!!!16*21'? !4!12? Hi11 Hi6:' i+i3?QQ? 水24?it:4■7-1?■j'? !!!1!j??*£8?QQQ?7'?QQQ-2?■7■7蚱览慢傻悽傻慢僵悽傻慢傻悽傻览傻悽傻慢傻僅傻慢傻矮傻慢地矮傻慢傻矮惶慢傻矮傻慢傻说-3 -2-1012 35■训练题5・1用主成分分析方法探讨城市工业主体结构。表1是某市工业部门13个行业8项指标的数据。表1 某市工业部门13个行业8项指标的数据年末固定资产净值(万元)职工人数(人)工业总产值(万元)全员劳动产率(元/人年)百元固定原资产值实现产值(元)资金利税率(%)标准燃料消费量(吨)能源利用效果(万元/吨)1(冶金)90342524551010911927282.00016.1001974350.1722(电力)4903197320351031334.2007.1005920770.0033(煤炭)6735211393767178036.1008.2007263960.0034(化学)4945436241815572250498.10025.9003482260.9855(机械)1391902035052158981060993.20012.6001395720.628

6(建材)122151621910351638262.5008.7001458180.0667(森工)23726572810312329184.40022.200209210.1528(食品)11062230785493523804370.40041.000654860.2639(纺织)17111239075210821796221.50021.500638060.27610(缝纫)12063930612615586330.40029.50018400.43711(皮革)21505704620010870184.20012.00089130.27412(造纸)525161551038316875146.40027.500787960.15113(文教艺术用品)1434113203193961469194.60017.80063541.574(1)试用主成分分析方法确定8项指标的样本主成分(综合变量);若要求损失信息不超过15%,应取几个主成分;并对这几个主成分进行解释;(2)利用主成分得分对13个行业进行排序和分类。5.2某市为了全面分析机械类各企业的经济效益,选择了8个不同的利润指标,14家企业关于这8个指标的统计数据如表3所示。试进行主成分分析,并对所选取的主成分作出解释。表214家企业的利润指标的统计数据净产值利润率定资产利润率总产值利润率销售收入利润率产品成本利润率物耗利润率人均利润率流动资金利润率140.424.77.26.18.38.72.44220.0

225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.6模型一】美国各种类型犯罪的主成分模型根据美国各个州的各种类型犯罪的犯罪率数据(见表1)。希望对这些犯罪率数据进行主成分分析,并分析犯罪特征。表1:美国各个州的各种类型犯罪率数据MurderRapeRobberyAssaultBurglaryLarcenyAutoALABAMA14.225.296.8278.31135.51881.9280.7ALASKA10.851.696.8284.01331.73369.8753.3ARIZONA9.534.2138.2312.32346.14467.4439.5ARKANSAS8.827.683.2203.4972.61862.1183.4

CALIFORNIA11.549.4287.0358.02139.43499.8663.5COLORADO6.342.0170.7292.91935.23903.2477.1CONNECTICUT4.216.8129.5131.81346.02620.7593.2DELAWARE6.024.9157.0194.21682.63678.4467.0FLORIDA10.239.6187.9449.11859.93840.5351.4GEORGIA11.731.1140.5256.51351.12170.2297.9HAWAII7.225.5128.064.11911.53920.4489.4IDAHO5.519.439.6172.51050.82599.6237.6ILLINOIS9.921.8211.3209.01085.02828.5528.6INDIANA7.426.5123.2153.51086.22498.7377.4IOWA2.310.641.289.8812.52685.1219.9KANSAS6.622.0100.7180.51270.42739.3244.3KENTUCKY10.119.181.1123.3872.21662.1245.4LOUISIANA15.530.9142.9335.51165.52469.9337.7MAINE2.413.538.7170.01253.12350.7246.9MARYLAND8.034.8292.1358.91400.03177.7428.5MASSACHUSETTS3.120.8169.1231.61532.22311.31140.1MICHIGAN9.338.9261.9274.61522.73159.0545.5MINNESOTA2.719.585.985.81134.72559.3343.1MISSISSIPPI14.319.665.7189.1915.61239.9144.4MISSOURI9.628.3189.0233.51318.32424.2378.4MONTANA5.416.739.2156.8804.92773.2309.2NEBRASKA3.918.164.7112.7760.02316.1249.1NEVADA15.849.1323.1355.02453.14212.6559.2NEWHAMPSHIRE3.210.723.276.01041.72343.9293.4NEWJERSEY5.621.0180.4185.11435.82774.5511.5NEWMEXICO8.839.1109.6343.41418.73008.6259.5NEWYORK10.729.4472.6319.11728.02782.0745.8NORTHAROLINA10.617.061.3318.31154.12037.8192.1NORTHDAKOTA0.99.013.343.8446.11843.0144.7OHIO7.827.3190.5181.11216.02696.8400.4OKLAHOMA8.629.273.8205.01288.22228.1326.8OREGON4.939.9124.1286.91636.43506.1388.9PENNSYLVANIA5.619.0130.3128.0877.51624.1333.2RHODEISLAND3.610.586.5201.01489.52844.1791.4OUTHCAROLINA11.933.0105.9485.31613.62342.4245.1SOUTHDAKOTA2.013.517.9155.7570.51704.4147.5TENNESSEE10.129.7145.8203.91259.71776.5314.0TEXAS13.333.8152.4208.2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论