版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、应用多兀统计分析作业(一)主成分分析8 1 :用主成分分析方法探讨城市工业主体结构。解:执行SAS程序代码:data dxiti81;in putnu mber x1-x8;cards ;1 90342 52455 101091 19272 82 16.1 197435 0.1722 4903 1973 2035 10313 34.2 7.1 592077 0.0033 6735 21139 3767 1780 36.1 8.2 726396 0.0034 49454 36241 81557 22504 98.1 25.9 348226 0.9855 139190 203505 215898
2、10609 93.2 12.6 139572 0.6286 12215 16219 10351 6382 62.5 8.7 145818 0.0667 2372 6572 8103 12329 184.4 22.2 20921 0.1528 11062 23078 54935 23804 370.4 41 65486 0.2639 17111 23907 52108 21796 221.5 21.5 63806 0.27610 1206 3930 6126 15586 330.4 29.5 1840 0.43711 2150 5704 6200 10870 184.2 12 8913 0.27
3、412 5251 6155 10383 16875 146.4 27.5 78796 0.15113 14341 13203 19396 14691 94.6 17.8 6354 1.5745proc prin comp data =dxiti81 out =oxiti81;var x1-x8; |run ;proc sort data =oxiti81;by prin1;proc print ;id number;var prin1; |run ;proc sort data =oxiti81;by prin2;proc print ;id number; |var prin2; |run
4、;proc sort data =oxiti81;by prin3;proc print ;id number; |var prin3; |run ;proc plot ;plot prin 2*pri n1=nu mber;run ;proc cluster data =oxiti81 method =ave pseudo ccc outtree =tr81; var x1-x8;id number; |proc tree data =tr81horiz on talgraphics;run ;结果分析:我们使用原始数据的相关系数矩阵计算特征根矩阵。通过观察这8个变量之间的 两两相关系数矩阵
5、(表1)表 1: Correlation Matrixx1x2x3x4x5x6x7x8x11.00000.91960.96200.1089-.2886-.16630.00670.2140x20.91961.00000.9468-.0550-.1973-.1709-.01490.1855x30.96200.94681.00000.2329-.10360.0042-.07810.2467x40.1089-.05500.23291.00000.55990.7809-.44970.3009x5-.2886-.1973-.10360.55991.00000.8266-.6088-.0295x6-.166
6、3-.17090.00420.78090.82661.0000-.49220.1742x70.0067-.0149-.0781-.4497-.6088-.49221.0000-.2999x80.21400.18550.24670.3009-.02950.1742-.29991.0000我们看到,和这两组的三个指标之间内部的相关系数较大,说明后面进行主成分分析还是很有必要的。而与:, 与、心:汚=,邛与, 与其他所有指标之间的相关系数均较小,由此可以得到初步的分析结论:沁选,迂:、:S :和应该作为三组互相较为独立的指标,并由此得知后面应该至少选取三个主成分进行分析。根据分析家系统画出的碎石图和
7、特征根的累积方差贡献率(表2)表2主成分Proporti onCumulative10.38810.388120.36220.750330.11630.866640.08030.946850.03800.984860.01080.995770.00400.999780.00031.0000表3PrinlPrin2Prin3x10.4766500.2959910.104190X20.4728080.2778940.162983x30.4238450.3779510.156255x4.2128930.451408.008544x5.3884600.3309450.321133|x6.3524270
8、.4027370.145144x70.214835.3774150.140459x80.0550340.272736.891162可以看到,取三个主成分的时候累积方差贡献率已达86%,故提取三个主成分即可代表原始数据的大部分信息。根据特征向量(表3),可以写出上述 确定的三个主成分的表达式如下(;,*= IX均为标准化后的变量):Prinl = 04771 十+0.424,rj - 0213;眄-0.389a:; - 0.352xJ + 0.215?十 0.055a:;Prin2 = 0*296竝 十 OJT&rJ 十 0.378,rj + 0.451 + 0.331X; + 0+40
9、3xg - 0.377;十 0.273Prin3 = 0104巧 十 0.163 十 0J5G,rJ - 0.0095 + 0.32lx; + 0+145xJ + 0.140? - O.SDItJ下面利用特征向量的值对选取的主成分进行解释:对第一个主成分来说,其的特征向量系数均在0.4左右,且均为正值,而的特征向量系数均在 0.3左右,且均为负值,结合和-L-'.h- 指标所代表的实际含义,我们可以看出,第一个主成分反映出了该地区工业的“发展规模”大小;对第二个主成分来说,只有一项指标对应的特征向量系数是负值,根据指标所代表的实际含义是标准燃料消耗量,我们看出,第二个主成分主要反映了该
10、地区工业的能源消耗量,而能源消耗越多越不环保,故可将第二个主成分看做“环保指数”;对第三个主成分来说, 只有 一项指标对应的特征向量系数的绝对值较大,根据 指标所代表的实际含义是能源利用效果,我们看出,第三个主成分主要反映了该地区工业的“能源利用效益”(单位能源的产值)。利用主成分得分对行业进行排序:表4按第一主成分排序按第二主成分排序按第三主成分排序nu mberPrin1nu mberPrin2nu mberPrin382.1949833.22553132.8063102.0318622.5916440.99768121.2014161.77361110.1225571.1025110.7
11、556160.0311490.8411770.3179320.22831110.71333120.03034100.23105130.26296130.4643170.2818360.3299710.75863120.2870240.45986100.8251690.3528720.4982190.8956630.4094131.0564441.1836450.4676411.4752482.2441410.5380454.5284852.2624481.09921对于第一个主成分来说:第8,10行业的得分较低,而第 5行业的得分很高;对比原始指标可以看出,食品、缝纫工 业的发展规模较小,而机
12、械工业的发展规模较大;对于第二个主成分来说:第3行业的得分较低,而第 8,5行业的得分很高;对比原始数据可以看出,煤炭工业的能源 消耗量较大,环保指数较低,而食品、机械的能源消耗量较小,环保指数较高;对于第三个主成分来说:第13行业的得分较低,而第 8行业的得分很高;对比原始数据可以看出,文教用品工业的 能源利用效率较低,而食品工业的能源利用效率较高。故对于13个工业产业发展规模的排序为:5、1、3、2、4、6、13、11、9、7、12、10、8,相应的原始行业为:机械、冶金、煤炭、电力、化学、建材、文教用品、皮革、纺织、森 工、造纸、缝纫、食品。上图为主成分2对主成分3的分布图,可以看到对于
13、第 4、11、6、2、3行业来说,能 源消耗量越大,能源利用效益越低,而对于其他行业则两者之间没有显著关系。tiMini I on >同时从第一主成分对第二主成分的增强型分量图中可以验证最初对于原始数据的分析 原始指标可以分为两类一 r .与,分别反映生产规模和生产效益,而即能源消耗量和能源利用效益则与上述两组指标关系不大。Name of Observation or Cluster13 11 i10 -7 12 -9 -|8 -6 -4 一1 一5 一111n111110.00.20.40.60.81.01.21.41.6Average Distance Between Cluster
14、s1.8聚类分析信息表NCLClusters JoinedFREQSPRSQRSQERSQCCCPSFPST2Dist129820.00001.0026280.020411111020.00011.0023460.024710CL11730.00021.0010884.40.0463913CL1040.0004.9997152.90.0607812CL1230.0022.99724763.30.14077CL9CL870.0105.98773.518.30.20586CL7680.0146.97248.66.50.333652320.0123.96047.70.383644120.0166.9
15、4349.70.44673CL6CL4100.1272.81622.222.80.74022CL35110.1002.716.7060.1327.75.20.87431CL2CL5130.7157.000.0000.0027.71.6501综合上表的R2、半偏R2、伪F、伪t2统计量(RSQ SPRSQ PSF PST2 ,可以看到,将原始的13个工业行业分为 2类或4类是比较合理的:分为两类的结果:电力、煤炭,冶金、化学、机械、建材、森工、食品、纺织、缝纫、皮革、造纸、文教用品;分为四类的结果:建材、森工、食品、纺织、缝纫、皮革、造纸、文教用品,冶金、化学,机械,电力、煤炭。8 2:分析上海
16、各乡的经济发展数据。解:执行SAS程序代码:data dxiti82;in put nu mber x1-x2 y1-y7;cards ;1 8434000 9201038 1166 1536 1692 2743 27412 9425215 1216 1280 1549 1924 2717 3743 41603 8956379 1836 2287 2715 3281 3240 4572 54394 8843770 9781010 1227 1558 1755 2552 26235 1002 3329 757684 718 931 1422 1827 22226 7923039759765125
17、3 1296 1902 1822 22337 9302476559616611863891153917688 7582127633661762769864124114829 88627217038368139148951272143110 8591664427451507551581839 110711 8082435772790839990 771 1132 131612 8452661557599670855 1128 1639 186113 8772242549471480643 664 1173 153014 7873088 1061 1021 9781102 1301 2373 24
18、5215 9433322567557630836 984 1994 270416 86635076756788471187 1476 2107 241517 92434125457298211017 1079 1878 232518 1806 5869 1268 1227 1607 1765 2318 2959 315719 1027 3605 651835 924 1125 1194 2176 24115proc prin compdata =dxiti82 out =oxiti82;var x1-x2 y1-y7;|run ;proc sort data =oxiti82;by prin1
19、;proc print ;id number; |var prin1; |run ;proc sort data =oxiti82;by prin2;proc print ;id number; var prin2; |=tr82;run ;proc cluster data =oxiti82 method =ave pseudo ccc outtree var x1-x2 y1-y7;|id number;proc tree data =tr82horiz on taigraphics;run ;结果分析:我们使用原始数据的相关系数矩阵计算特征根矩阵。通过观察这8个变量之间的 两两相关系数矩
20、阵(表5)表5x1x2y1y2y3y4y5y6y7x110.54540.30190.21170.2660.22960.32740.28560.255x20.545410.87570.86040.88560.90240.92690.94440.9299y10.30190.875710.96720.9520.94370.90150.89940.8732y20.21170.86040.967210.97240.97270.87620.89870.8874y30.2660.88560.9520.972410.9860.9340.90010.8964y40.22960.90240.94370.97270
21、.98610.93760.93460.9305y50.32740.92690.90150.87620.9340.937610.94330.93y60.28560.94440.89940.89870.90010.93460.943310.982y70.2550.92990.87320.88740.89640.93050.930.9821我们看到,这七组指标之间内部的相关系数较大,说明后面进行主成分分析还是很有必要的。而与所有指标之间的相关系数均不大,由此可以得到初步的分析结论:和应该作为两组互相较为独立的指标,并由此得知后面应该至少选取两个主成分进行分析。根据分析家系统画出的碎石图和特征根的累积
22、方差贡献率(表6)Eigen vki _567 SCompel .r表6主成分Proporti onCumulative10.84150.841520.10940.950830.02830.979140.00990.98950.00650.995660.0020.997670.00110.998780.00080.999590.00051表7PriniPrin2x10.129110.93848x20.34840.23438yi0.34831-0.0575y20.34783-0.1575y30.35302-0.1001y40.35615-0.1352y50.35048-0.005y60.3521
23、9-0.0467y70.34828-0.0755可以看到,取两个主成分的时候累积方差贡献率已高达95%,故提取两个主成分即可代表原始数据的大部分信息。根据特征向量系数(表7),可以写出上述 确定的两个主成分的表达式 如下( 均为标准化后的变量):Prinl = 0.12911xJ + (13484坊 + 0.34831 对 + 0.34783 + 0.35302 + 0.35615 +0.35018 +L3521 恢 + 0.34828Prin2 = 0.9鴻4&片 + 0*3438对-().()575yf - 0.11575玻-0.100瑚-().1352/4 - 0.005城- 0
24、+0467?;J - (L0755谄下面利用特征向量的值对选取的主成分进行解释:对第一个主成分来说,其的特征向量系数均在 0.35左右,且均为正值,结合指标所代表的实际含义, 我们可以看出,第一个主成分反映出了该县每年的经济收入情况;对第二个主成分来说,只有一项指标对应的特征向量系数的绝对值较大,根据指标所代表的实际含义是 1986年乡人均收入,我们看出,第而个主成分主要反映了该县 每年的人均经济收入情况。根据方差贡献率,可以对上述两个主成分进行加权求和,得到一个综合指标:ZQltfjhe =Prrn 1 +n 1094().S415H).1<K34即:ZOfighe = (L885/V
25、 曲+ 0.115PHti2-().222 188j:| + 0.335286tJ + 0.301641 谄 + 0.289714 + 0.300904堪 + 0.29964旳;+Oh3O9GO5yJ + 0,306318 + 0+299543y:此综合指标反映了乡的经济发展水平。利用主成分得分对乡进行排序:按第一主成分排序按第二主成分排序按经济发展水平综合指标综合排序nu mberPrin1nu mberPrin2nu mber综合指标排序10-3.30213-1.4347102.9226913-2.645414-0.7499132.330768-2.13156-0.645681.95538
26、7-1.87428-0.671.6367611-1.72991-0.498111.5825912-1.667711-0.4489121.492929-1.54574-0.367191.3757515-1.14222-0.3131150.9721817-0.898112-0.1479170.775425-0.702416-0.122450.5631916-0.38959-0.0679160.3587819-0.258810-0.0029190.169876-0.0281130.0905860.09911140.19564170.16866140.08690341.1252770.1904840.
27、95364711.15718150.3362610.966834183.7075950.5081123.41158223.89558190.51448183.69403538.23444183.5897237.122489对于第一个主成分来说:第10乡的得分较低,而第 3行业的得分很高;对比上述对于主成分的解释可以看出,第10乡的总体经济收入较低,而第3乡的总体经济收入较高;对于第二个主成分来说:第3乡的得分较低,而第 18行业的得分很高;对比上述对于主成分的解释可以看出,第3乡的人均经济收入较低,而第18乡的人均经济收入较高;对于综合指标来说:第10乡的得分较低,而第 3行业的得分很高;对比
28、上述对于主成分的解释可以看出,第10乡的经济发展综合水平较低,而第3乡的经济发展综合水平较高;故对于19个乡的经济发展综合水平排序(由高到低)为:3、 18、 2、 1、 4、 14、 6、 19、 16、 5、 17、 15、 9、 12、 11、 7、 & 13、 10。2C1-O Q0- + 2 1TT1rrT-10123BQi5 D 盘口口 C3 Baa 4 口口口弓口口口&S 5 a?口口口p 口口 is帝口口口 Q口口口M堪+ + + + +罟*各+ + 4诈* + + 4+吟上图为主成分1对主成分2的分布图,可以看到乡的总体经济收入水平与乡的人均经济 收入水平之间没有显著关系。 同时看到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版实习生劳动合同(含实习期间加班费计算与支付)3篇
- 二零二五年度企业融资租赁合同补充协议4篇
- 重汽降价销售方案
- 2025版挖掘机产品租赁与融资租赁合同范本3篇
- 二零二五年度个人债务重组抵押借款合同样本
- 2025版物业管理师执业资格考试教材配套教辅材料合同3篇
- 二零二五年度文化教育平台运营合同协议书4篇
- 二零二五版数据中心电力设备维保及应急响应合同3篇
- 钻井现场防爆措施方案
- 二零二五年度公共事业单位员工违纪处分协议3篇
- 寺院消防安全培训课件
- 比摩阻-管径-流量计算公式
- 专题23平抛运动临界问题相遇问题类平抛运和斜抛运动
- GB/T 42430-2023血液、尿液中乙醇、甲醇、正丙醇、丙酮、异丙醇和正丁醇检验
- 五年级数学应用题100道
- 西方经济学(第二版)完整整套课件(马工程)
- 高三开学收心班会课件
- GB/T 33688-2017选煤磁选设备工艺效果评定方法
- 科技计划项目申报培训
- 591食堂不合格食品处置制度
- 黑布林绘本 Dad-for-Sale 出售爸爸课件
评论
0/150
提交评论