




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、重庆大学统计建模与R软件课程报告价结论及对该模型的评统计建模与R软件课程报告对某地区农业生态经济的发展状况作主成分分析主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相关独立或不相关的变量。通常是选出比原始变量个数少,又能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。也就是说,主成分分析实际上是一种降维方法。关键词:主成分分析相关矩阵相关R函数1 绪论21.1 主成分方法简介22总体主成分22.1 主成分的定义与导生22.2 主成分的性质32.3 从相关矩阵由发求主成分52.4 相关的R函数63数据模拟
2、74结论及对该模型的评价124参考文献121绪论1.1主成分方法简介主成分分析(principalcomponentanalysis)是将多个指标化为少数几个综合指标的一种统计分析方法,由Pearson(1901)提出,后来被Hotelling(1933)发展了。主成分分析是一种通过降维技术把多个变量化成少数几个主成分的方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的线性组合。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称
3、为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,弁且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。2总体主成分2.1主成分的定义与导出设x是p维随机变量,并假设艺二var(X)。考虑如下线性变换(2.1)(2.2 )Z=a:X乙二2丁X>易见var(ZJ二aTZai,i=1,2,p,我们希望乙的方差达到最大,即a1是约束优化问题cov(ZZj)=aT
4、Aaj?i,j=1,2,)p,i式j.maxaTlas.taTa=1重庆大学统计建模与 R软件课程报告结论及对该模型的评价的解。因此,ai是工最大特征值(不妨设为1)的特征向量。此时,称乙二a:X为第一主成分。类似地,希望Z2的方差达到最大,并且要求cov(Zi,ZzA:a:羽2=0由于ai是i的特征向量,所以,选择的a2应与ai正交。类似于前面的推导,a2是工第二大特征值(不妨设为)的特征向量。称乙二a;X为第二主成分。一般情况下对于协方差阵艺,存在正交阵Q,将它化为对角阵,即T百Q艺Q=A=I?J(2.4)且,-匕-即,则矩阵Q的第i列就对应于ai,相应的Zi为第i主成分2.2主成分的性质
5、关于主成分有如下性质:(1)主成分的均值和协方差阵。记Z、AiZ=Z2,E(Z),A=<ZpJ由于(2.5 )Z-Q:X所以有VE(Z)=E(Q:X)=Q:E(X)=Q:丛var(Z)=QTvar(X)Q=A.(2)主成分的总方差由于tr(A)=tr(Q:2Q)=tr(2QQ:)=tr(习,所以PPPpX日勺-、;匚或二var(ZJ=7var(Xi),i=1i=1ii=1其中匚"是协方差阵工的第i个对角元素。由此可以看出,主成分分析把p个原始变量Xi,X2,,Xp的总方差分解成了p个不相关变量乙乙,Zp的方差之和p称总方差中第i主成分Z的比例,i/v打为主成分乙的贡献率。第一主
6、成分i4乙的贡献率最大,表明它解释原始变量Xi,X2,Xp的能力最强,而Z2Z,Zp的解释能力依次减弱。主成分分析的目的就是为了减少变量的个数,因而一般不会使用所有的p个主成分,忽略一些较小方差的主成分,不会给总方差带来大的mp影响。称前m个主成分的贡献率之和7'V7为主成分乙,Z2,,Zm的累积贡7i=4献率,它表明乙,Z2,Zm解释Xi,X2,Xp的能力。相对于P,通常取较小的m使得累积贡献率达到一个较高的百分比(如80%-90%。此时,乙,Z2,,Zm可用来代替Xi,X2,Xp,达到降维的目的,而信息的损失却不多(3)原始变量Xj与主成分乙之间的相关系数由式(1.5)知即所以,&
7、#39;(XjZ)X=QZ(2.6)Xj=qjiZiqj2Z2?qpZp,(2.7)cov(Xj,ZJ二cov(qjiZi,ZJ二qjii,j,i,=1,2,p,(2.8)cov(Xj,Zi)var(Xj)var(Zi)在实际应用中,通常只对Xj与乙的相关系数感兴趣。(4)m个主成分对原始变量的贡献率前面提到的累积贡献率这个概念度量了m个主成分乙,Z2,Zm从原始变量X1,X2/,Xp中提取信息的多少,那么乙乙,Zm包含有Xjj=1,2/,p的多少信息应该用什么指标来度量呢?这个指标就是Xj与乙,Z2,Zm的复相关系数的平方,称为m个主成分乙±2,-/Zm对原始变量Xj的贡献率,记为
8、2m,7重庆大学统计建模与R软件课程报告价结论及对该模型的评结论及对该模型的评mm日寺“八N(Xj,Zi)八,q2/r?(2.10)i±7对式(1.7)两边取方差,得到-?qj-卜"命/(2.11)由于q:iq:2,2p=1,故二实际上是d2,p的加权平均。由式(1.10)?式(1.11),可以得到乙,Z2,,Zp对Xj的贡献率为(2.12)pp汛.P八2(Xj,Zi)八22/5=1.7i=1(5)原始变量对主成分的影响式(1.5)也可以写成乙=徘X1+q2iX2+,-,+qpiXp,称qji为第i主成分在第j个原始变量Xj上的载荷,它度量了Xj对乙的重要程度2.3从相关矩
9、阵出发求主成分当各变量的单位不完全相同,或虽单位相同,但变量间的数值大小相差较大时,直接从协方差阵工出发进行主成分分析就显得不妥。为了使主成分分析能够均等地对待每一个原始变变量作标准化处理,即令(2.13 )显然,X* = (X; ,X;X; ) 丁的方差矩 艺出发导出的主成分方法 完全类似,并量,消除由于单位不同可能带来的影响,常常将原始X卜V*1J.,c,J-j-1,2/,p.yQii阵就是X的相关矩阵R。从相关矩阵R出发导出的主成分方法与从协方差且得到的主成分的一些行之更加简洁。设;-;-p-0为相关矩阵R的P个特征值,a;,a;,a*p为相应的单位特征向量,且相互正交,则相应的p个主成
10、分为乙PTX,i=1,2,P。T令Z二(乙乙,Zp),Q=佝,a2,)ap),于是*-ryZ=QX.关于相关矩阵R的主成分有如下性质:E(Z)=0,var(Z)=A,其中A二diag(、,。p*二打二p.i4变量X*与主成分Z*之间的相关系数为P(Xj,Zi户J”ji,j,i=12_,p.主成分Z;,Z;,,Z;对X*的贡献率为m2*1 i qji ?i=1(Xj,Zi)二i二1pp(5)ji卫=":?(Xj,Zi)="'iqji=1.yJ2.4相关的R函数与主成分分析有关的函数主要有以下一些:1. princomp函数作主成分分析最主要的函数是princomp()
11、函数,其使用格式为princomp(formula,data=NULL,subset,na.action,.)其中formula是没有响应变量的公式(类似回归分析、方差分析,但无响应变量),data是数据框。或者princomp(x,cor=FALSE,scores=TRUE,covmat=NULL,subset=rep(TRUE,nrow(as.matrix(x),)其中x是用于主成分分析的数据,以数值矩阵或数据框的形式给出;cor是逻辑变量,当cor=TRUE表示用样本的相关矩阵R作主成分分析,当cor=FALSE(默认值)表示用样本的协方差阵S作主成分分析;covmat是协方差阵,如果数
12、据不用x提供,可由协方差阵提供。2. summary函数summary()函数的目的是提取主成分信息,其使用格式为summary(object,loadings=FALSE,cutoff=0.1,.)其中object是由princomp()得到的对象;loadings是逻辑变量,当10adings=TRUE表示显示loadings的内容,当10adings=FALSE则不显示。3. loadings函数Loadings()函数是显示主成分分析loadings的内容,该内容实际上是主成分对应的各列,即前面分析的正交矩阵21loadings(x)其中x是由函数princomp()得到的对象。4.p
13、redict函数predict()函数是预测主成分的值,其使用格式为predict(object,newdata,.)其中object是由princomp()得到的对象,newdata是由预测值构成的数据框,当newdata为默认值时,预测已有数据的主成分值5.screeplot函数screeplot()函数是画出主成分的碎石图,其使用格式为screeplot(x,npcs=min(10,length(x$sdev),type=c("barplot”,”lines"),main=deparse(substitute(x),)其中x是由princomp()得到的对象;npcs
14、是画出的主成分的个数;type是描述画出的碎石图的类barplot是直方图类型,lines是直线图类型。3数据模拟表1某农业生态经济系统各区域单元的有关数据X3 :森林覆盖率()X4 :农民人均纯收入(元/人)Xs :人均粮食产量(kg/人)X6 :经济作物占农作物播种面积比例X7 :耕地占土地面积比率( )X8 :果园与林地面积之比( )序号XiX2X3X4X5X6X7X8X91363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011752.35452.2632.31414.4641.45527.066
15、3100.6951.06765.6011181.54270.1218.2660.1627.47412.4894143.7391.33633.2051436.12354.2617.48611.8051.89217.5345131.4121.62316.6071405.09586.5940.68314.4010.30322.932668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3
16、522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.1104.4840.0025.7901477.3010.62360.102824.371
17、88.0919.4095.7215.0558.4131576.9481.02268.0011255.42211.5511.1023.1330.0103.4251699.2650.65460.7021251.03220.914.3834.6150.0115.59317118.5050.66163.3041246.47242.1610.7066.0530.1548.70118141.4730.73754.206814.21193.4611.4196.4420.01212.94519137.7610.59855.9011124.05228.449.5217.8810.06912.65420117.6
18、121.24554.503805.67175.2318.1065.7890.0488.46121122.7810.73149.1021313.11236.2926.7247.1620.09210.078Xi:人2口密度(人/km)X2:人均耕地面积(亩)X9:灌溉田占耕地面积之比做主成分分析,命名第一主成分为乙,第二主成分为乙,第三主成分为Z3,依次类推,当前m个主成分的累积贡献率达到80液以上,我们就说脑的大小与前m主成分有关。并求解转化后的Zj与Xj之间的相关系数。首先,用数据框的形式输入数据。用princomp()作主成分分析,由前面的分析,选择相关矩阵作主成分分析更合理。因此,这里选择
19、的参数是cor=TRUE最后用summary()列出主成分分析的值,这里选择loadings=TRUE。以下是相应的程序。#用数据框的形式输入数据iLylaEK-date.frejne(X1-C(3I53.312,141.503,100.655,143_739,131337f95.416,62.901,36-31.3甘二,76-65,831八7-301,7t,9八5,9弓.265,US.505,141.473,137.761,117?612_L22?73_L)?X.2-C(0.352,1.634,1.067,1?33石1.百23*203F”01.652,0.541,0.312,0.S53,l_
20、041r0-36,0-623,I. 022f0.55八,0.661,0.737,0.593,1_245f0-731J,X3=c(16.101,2八301,均?601,33.205f16.o07r76.20八,二工.g乞73.337,6S.&04,66.502,50.302,64.609A62.E04,60?102,fia.001r50.702,63.304r54.206r55-301r54.503,49.102)*X.4=c(192.11,17S2.35,11B1.S4,5.436_12f140E_09,154D925?35,1501?2$f39A.36,911-24烦?52f96B.
21、SSFTEU工斗”弓2叫*37#125S.42,1251.03.12A5.47,51a.21,113a.05,305.6a,1313?:l*X5=c(295.34r452.26,270,12,354.26r5S?-59,216-39,291.52,225.25,156.37,226.El,217.09,151_3Sr134-04,1=S-09,211.5S,220.91,242.16,193.46,228-aa,175,23.236.29)*X6=c(26.724,32.31A,?266,17.436,40?EE3,E1S.3s2.16.861,1S.279,19.793A_005,9.110
22、,19八09,II. 102,4.353,10.706,11.419,9.521flB.106,26_124fX7=c(15.45A,14.4?4,0.162f1八_.30Sr14.401f4.06Sf.063,+&,176f日14.0石石弓?(E勺尸5?72:八3.133,4.51S,6.0S3,6-442,7.SeifS.789,7.162>,XB-c(2.231,1.4S5f7.4八4rl.392f0.303f0.011,0.012A0.034f0.05S.D.075,0.DOI,0,015r0-002,S.055,0.010,0,011,0.154,0?O.0E9fq?0
23、4日0?092.K9=c(2?.262,27_L£?4EB,17?53勺尸.922*电?2占±#4.S52,S.201,64167r4.f.153r5.403f5_730fS.413,3.4iffiS.S53f5.?Gl,12A4fy_64f)#作主成分分析,并显示分析结果>rrydatar<-priEcontp(rydatAjA匚口二*T真匚匡)>3'jmar7(rydata+prrLc&dirgs-rRUE)Zirjiccf cOrr.pciZLeTitA :Coirp ?1 StAndAxd d?viiticn2 415 Sf xop
24、cxtioz: q £VariaAC't 0 * 5 1n 9 D2 亡CcArp * 2 Coir.p * 3Coir.p . 41.445507?1.021270s 0A12 335263.232165S0.1153BS2 0.05?3e0270.75006A30 ? 您59561 D. 92233634C amp.5 o. senooi 0.035D1B9 :u 9573552Eioportion CMllACcirp l 6Pxopartiozi 0 ? 51A9 32uf Variance 0.021八01530 .335?1A?70*01270993CDILP .
25、 E Co 却* 9 Q? 12900A30q? 177A060760*0050362790.003A97022F 工右匚 moon 0,973756770 .?91466700 . ?9650297S1.000-300000StArderd dAvietionCon.p ? 1XI 0.342X2X3 -0.446XS c.sveX6 0?兀寸379 ?Coir; p * Cozrp ?-S 3S80.?14601 0? 307 0.124 BD.1J2Cazrp * 5-0,3550.155-0.7C1一 0?0.3100 +395 0.6: 00.1543Comp h 4-0? 37SC
26、CTEJ : H 0幅 312 -0.110 a.2060? 295-0? 5030. wY? 246 一 0? 14SC,e50 '0.221'0,136匚 W-Ft 70. ss?0.4E70.5507.241-Q * 2 q §cctrp ?0 . 113-0.203-0 ? 7A7-Q.Z31 0.532S uOIT-P + 3-0*2330. ?92A0.1390?a. 613第一主成分的贡献率为51.8%,第二主成分的贡献率为23.2%,第三主成分的贡献率为11.6%。前三个主成分的累积贡献率为86.6%,另六个主成分可舍去,达到降维的目的。由于在summ
27、ary函数的参数中选取了10adings=TRUE,因此列出了loadings(载荷)的内容,它实际上是主成分对应于原始变量X1,X2X9的系数,即前面介绍的矩阵Q。因此得到前三个主成分:Z;=0.342X;-0.446X;0.376X50.379X60.432X70.446X9,Z;0.368X;0.614X;0.601X;0.307X50.124X6,Z3-0.122X6-0.246X70.950X8.从第一主成分中,可看出农业生态经济与人口密度,人均粮食产量,经济作物占农作物播种面积比例,耕地占土地面积比率,灌溉田占耕地面积之比,成正比,即人口密度,人均粮食产量,经济作物占农作物播种面积
28、比例,耕地占土地面积比率,灌溉田占耕地面积之比越大,生态农业经济越好,第一成分的值也就越大。可以称第一主成分为经济因子。第二主成分是人均耕地面积,农民人均纯收入,人均粮食产量,经济作物占农作物播种面积比例,第二主成分值越大,表明该地区人民生活水平越高,第二主成分值越小,表明该地区人民生活水平越低;因此,可以称第二主成分为水平因子。接下来看一下各样本的主成分的值。#作预测Ccir.p ' 1Cortp ? 2Ccmp . 3Cornp * 4Corrp * 5(1,1S.0341030务 4,3227450(3J-0,40755532.2013703简13,110,113 J以.9909
29、519-二.792340s-1.41S2S99-1,5八17278-1.012602 eS656S606-2.0255741-1. £33356-0,5-61913816,-1、670330”门-0,7352714LISf J-0.2、92530化-0-133O5SEC20,-3,452706021, 5<?"3002-3.97?5E642- 0 -LSK'3256-0.455754八32.339八56550 .0 犷 EE90百-0,377£D44D? 324227A33 ,79AA2535-0.13620S7S0? 92A5A446D.16651
30、165-0,223333352-3A300417 2、39?916SS-0.257A75A42.310L39407、4 05-9353A-CL 35323425-1? 455A6151 -Q.01S31558 a0t341D9£S200G39S19 0A6955759'0 .52043790-a-o -33343144-0 -1275010577.3235A532-0 .42A 9SO23-0 .423a457A-0 _3943C7122 .22cE3AEl-0 .2AA131291.109AA105-O.-155615S-0.0S7 9*7 42 50-2、59A332Q-
31、 0-5379A0592.D4452S33-0-166fi、62SO.01E!1290g 0.44?41369-0? 327SS031-Q.-1.1 妁35345-0,839?310S-0.2A002053-0? 01624195'0 .46S75041-Q ? 3A12337-50101509-0 .53A012447,419450107-0.96532760 m? 7"793sAi-0.33973031-0-9S020S63S693233"OH153530S7-Q .S93754446-<J.0a £2£4?E9-?.080557730
32、-0.19A7603600 .&S9255032-1? A46371161 Cl .45153202E-06O69、S?6G0.14130A034 0 <339234365-0 .2660 34S64-0 .2054456250.1334195C&0.3227942120.17530=、330.606351090C.610216260-Q .20O0BS524 0 .336761161-0 .?9173A2 52 0A770153253匚口/E 匚.6Conf _ "Ccrtp-0_2、6424900.A0296920-0-13、46616.二I2r J 口,0
33、379° S44 -0.46086422I3p7? 15555115d-D? 4<3504015 -0.5445E0S7? *A0_ 403976580-33A3617QI6<J -0_OOSE21210.302191=40? 124977664D? 379739565-0_25<=1702A £-0-010171320-0.20506762=£ 匚口瓦丘.9-0.0?A500200.311000839 0.25?妁、625-0.07A?270?40.Ofi017Sfi7sPrSrJ.69S60SS7【金丁】0-360=1179叫】0_3E15£332UlrJ0.?01AA195SI -D.6623S4350,22、a33100.123A019013= 0.0J1775233-口 .0907526A20.05143359-0-0955773730.3295099?10.54302195-口 _2B287S9S7 0.103S93S5C-CJ.ie3036G50.i530905S4- 0 ? 0S、3?027S-0.A44922327.0122590A20.00 必1 : ?、5I13r Illrl g "J I17pu 19-0.26575259
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国苯骈三氮唑行业市场发展前景及发展趋势与投资战略研究报告(2024-2030)
- 棉毛类针织衫裤项目投资可行性研究分析报告(2024-2030版)
- 2025年中国异形云母垫圈行业市场发展前景及发展趋势与投资战略研究报告
- 墙面板行业深度研究分析报告(2024-2030版)
- 2024年全球及中国狭缝管行业头部企业市场占有率及排名调研报告
- 白板培训课件视频
- 叶酸培训知识课件
- 中国外墙弹性腻子行业市场前景预测及投资价值评估分析报告
- 铁路技规培训课件下载
- 制作培训课件图片
- T/CHTS 20036-2023公路桥梁用硬聚氯乙烯声测管
- 广东省风力发电内蒙古分公司广东能源集团招聘笔试题库2025
- 父亲节你了解你的爸爸吗礼赞父亲学会感恩模板
- 2023-2024学年安徽省合肥市六校联盟高一下学期期末联考地理试题(解析版)
- 新设备专项安全风险辨识评估报告示例-副本
- 苏州市昆山市惠民物业管理有限公司招聘笔试真题2024
- 初级银行从业资格考试《个人贷款》新版真题卷(2025年含答案)
- 民航飞行员招飞心理测试题及答案
- 生地考试测试题及答案
- 《动物保定技术》课件
- 2025年出版:全球市场光伏硅胶总体规模、主要生产商、主要地区、产品和应用细分调研报告
评论
0/150
提交评论