主成分分析案例聚类分析案例_第1页
主成分分析案例聚类分析案例_第2页
主成分分析案例聚类分析案例_第3页
主成分分析案例聚类分析案例_第4页
主成分分析案例聚类分析案例_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析案例/聚类分析案例我国各地区行业结构分析摘要:近年来,我国各行各业得到了高速发展,许多新兴行业也伴随着人们的多样化需求而日益成熟。文章利用主成分分析、聚类分析、典型相关分析和判别分析方法对我国各地区行业工资进行分析,探讨我国各区域之间行业结构的差异,从而为各地政府根据地区间的行业结构差异制定更加合理的引导性政策提供更加有效的决策依据。关键词:行业结构主成分分析聚类分析典型相关分析判别分析1•相关经济指标及数据选取1.1相关经济指标本文以2013年我国各地区城镇私营单位就业人员平均工资为标准,选取了农、林、牧、渔业,制造业,电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,信息传输、软件和信息技术服务业,金融业,房地产业,租赁和商务服务业,科学研究和技术服务业,水利、环境和公共设施管理业、居民服务、修理和其他服务行业,教育,卫生和社会工作,文化、体育和娱乐业作为标准,对我国各地区的行业结构进行分析。1.2数据选取本文数据来自2014年中国统计年鉴,由于西藏人烟稀少,缺少数据,因此选取了30个省的部分数据。表1-1分地区按行业分城镇私营单位就业人员平均工资(2013年)地区农、林、制造业电力、执力、建筑业批发和零售交通运输、住宿和餐饮信息传输、北京3253142809419394094240742342133451773626天津4125542765349683970440093480953887746580河北2419828983277602885225345301082478327827丨山西2106427348271992918525978224112057721177内蒙古3124633368413163524229201404492989933239辽宁241Q429354256583383028330310192619730848吉林182812291519804243892517025836225302Q716黑龙江1899224899240632768723335227932276826667上海9979930443312313241327420366012811958420江苏3250736188369863705134213376253214448032浙江2793233186281853911333766387603009646003

安徽2115931943269033502427437388712781021489福建3023435460299183920733192407932895146072江西25854269243127532085256522938822678301681山东3039434705398813539231817358333031137675河南1986923142237112710423086249192179822215湖北1774225696260302761123028233792369433526湖南2336327287320012993223271253212326435898广东2570935646216703748840866410742940161935广西2276229315278793075225026283952430026484海南1659327836204083333529126373892708629651重庆2796135398346413653932919347032761638615四川2512729652300993085029149293862606628671贵州1803427183435752670422260239132115535040云南2158024646264052760328732287182555225011陕西2248025582251932614024392253592341833454甘肃1931924212248732525626544254351865625994青海1836327676335022473027760252902429524681宁夏2417231638322933617828035301012854429269新疆3030832990339114100127373377462464631279主成分分析2.1构造因子变量的前提主成分分析的目的是从众多原有变量中提炼少数具有代表性的因自变量。因此,需要一个重要的前提,即原有变量之间具有较强的相关关系。为此,可计算原有变量的相关系数矩阵。原有变量的相关系数图图2-1原所有变量的相关系数图由原有变量的相关系数图可知,相关系数矩阵中绝大部分的相关系数取值较大,说明变量的相关性较强,满足进行因子分析的前提。2.2.判断主成分个数最常见的是基于特征值的方法,每个主成分都与相关系数矩阵的特征值关联,第一主成分与最大的特征值相关联,第二主成分与第二大的特征值相关联,依此类推。Kaiser-Harris准则建议保留特征值大于1的主成分,特征值小于1的成分所解释的方差比包含在单个变量中的方差更少。Cattell碎石检验则绘制了特征值与主成分数的图形,这类图形可以展示图形弯曲状况,在图形变化最大处之上的主成分都保留。相关系数矩阵的前三个特征值的解释能力如下:表2-1总的方差解释能力序号特征值贡献率%累计贝献率%112.19727221.2477931.04685也可画出基于主成分的碎石图基于主成分的碎石图factororcomponentnumberscauodEOOpues基于主成分的碎石图factororcomponentnumberscauodEOOpues」-20且osanroA山图2-1基于主成分的碎石图由特征值、累计贡献率和碎石图三个方面可以判断该例中需要三个主成分。2.3提取主成分在R中,principal()函数可根据原始数据矩阵或相关系数矩阵做主成分分析。>(pc<-prT门匚rpal(r=M,nfactors=M,rotate="none"))PrincipalcomponentsAnalysis匸all:principal(r=M,nfactors=3,rotate="none"}standard!zed1oadings(patternmatrix)baseduponcorrelationmatrixPCIPC2PC3h2u2com农.林.0.830.44-0.110.890.1121.6制.苣•业0.940.24-0.040.950.0501.1电力■热力.0.470.590.570.900.1002.9崖.筑•业0.850.25-0.200.830.1741.3批发和零售业0.91-0.09-0.200.BB0.1211.1交通运轴.0.810.15-0.420.850.1531.6住宿和翟饮业0.920.12-0.190.090.107:L.l信息传输.0.86-0.360.280.940.0641.6金融业0.69-0.060.490.710.2891.8房地产业0.840.120.030.730.2741.0租赁和商势0.93-0.210.020.910.0B71.1科学研究0.83-0■斗10.020.860.1401.5水利■坏境0.87-0.11-0.210.810.1861.1居民朋势.0.820.180.000.710.2901.1教....肓0.92-0.130.120.870.1271.1卫生和0.88-0.300.040.870.1.331.2文化.体■育0.91-0.130.150.870.1331.1PCIPC2PC3S51oadings12.191.241.04ProportTonvmr0.720.070.06Cjmulafivevar0.720.790.85ProporfionExplained0.840.090.07cjmulafivePropoirtion0.840.931.00Meanitemcomp!exity=1.4Testofthehypothesisthat3components萌电suff1cient.Therootmeansquaoftheresiduals(RMSR)1s0.04Fitbaseduponoffdiagonalvalues=1PCI,PC2,PC3三列分别为因子载荷矩阵,h2列为各变量的共同度,u2为特殊因子的方差。SSloadings行分别为第一、第二、第三个因子变量的方差贡献,下一行为三个因子变量的方差贡献率,第三行为累计方差贡献率,第四行为三个因子变量的方差贡献占总方差贡献的比例。由运行结果可见,三个主成分的累计贡献率达到了85%,说明三个主成分的方差已经占全部的总方差的85%,因此选三个主成分足够。第一个主成分的方差贡献占总方差贡献的84%,说明第一个主成分很重要,然而,各个变量在第一个主成分上的因子载荷都很大,使得第一个主成分不能典型代表任何一个原有变量。因此需要进行因子旋转。因子旋转的目的是使原有变量在尽可能少的因子变量上有比较大的载荷。在理想状态下,原有变量在某个因子变量上的载荷趋于1,在其他因子上的载荷趋于0。这样,因子变量就可以成为原有变量的典型代表,其实际含义就明确了,

命名也就很方便了。>Cpc2<-prT门(:rpal(r=M,nfacto,rotate="varTPrincipalcomponentsAnalysiscall:pr1ncipal(r=M,nfactors=3?rotate=,rvarimax"}standard!zed1oadings(patternmat「“玄)baseduponccirrelafionmat「“玄PCIPC3PC2h2u2com农.林"0.81□.230.420.890.1121.7制.毬业0.770.460.390.950.0502.2电力•热力.0.220.100.920.900.1001.1崖.筑.业0.800.340.250.830.1741.6批发和零售业0.710.610.050.880.1212.0交通运输.0.87□.31□.010.850.1531.B住宿和輟饮业0.800.47□.200.89□.1071.8信息传输.0.280.900.220.940.0641.3金融业0.150.650.510.710.2892.0房地产业0.610.490.340.730.2742.5租赁和商务0.540.770.150.910.0871.9科学硏究0.39□.84010.86□.1401.4水利.坏境0.680.590.030.810.1862.0居民月艮务■■0.640.430.340.710.2902.4埶....育0.510.740.260.870.1272.1卫生和0.450.810.090.870.1331.6文化•体育0.48□.75□.290.870.1332.□PCIPCSPC2ss1oadings6.316.142.01Proporfionvar0.370.360.12cumulafivevar0.370.730.85ProporfionExplained0.440.420.14cumdlafiveProporfion0.4斗0.861.□□Mean■itemcomp!exity=1.8Testofthehypothesisthat3componentsaresufficient.Therootmeansquareoftheresiduals(RMSR)is0.04Fitbaseduponoffdiagonalvalues=1因子旋转后各个变量在三个主成分因子上的因子载荷出现两极分化,有利于后续分析。2.4主成分展示FactorAnalysis交通运输电力一热力一农一林建筑业&制一诰屮扌比发和零售业水刹一环境居民服务PC3信息传输科学硏究湘赁丁可商务PC2交倩•体育教…育件宿和餐饮9.8交通运输电力一热力一农一林建筑业&制一诰屮扌比发和零售业水刹一环境居民服务PC3信息传输科学硏究湘赁丁可商务PC2交倩•体育教…育件宿和餐饮9.80.8-图2-2主成分结果由输出结果显示,第一个主因子主要由交通运输业,农林渔牧,建筑业,住宿和餐饮业,制造业,批发零售业,水利环境,居民服务,房地产业这九个指标决定,第一主因子是均为我国的基础行业,保证了人民的基础生活,命名为基础行业。第三个主因子由信息传输,科研研究,卫生和医疗,租赁和商务,文化和体育,教育,金融业决定,这些行业都是随着科学技术高速发展和人民生活水平提高才逐渐发展起来的,这些行业需要较高的科学技术,因此命名为高新行业。第二个主因子由电力、热力、燃气及水生产和供应业决定,命名为能源行业。2.5因子得分因子得分可以看作各个变量值的加权平均,权数的大小表示原有变量对因子变量的重要程度。本例中采用回归法估计因子值系数并计算因子得分。

1北京1北京2天津3河北4山西5内蒙古6辽宁7吉林8黑龙江9上海10江苏11浙江12安徽13福建14江西15山东16河南17湖北18湖南19广东20广西21海南22重庆23四川24贵25云南26陕西27甘肃28青海29宁夏30新疆PC1PC3PC2[1,10.18276148B.1B0220B41.72359494[2,12.770885240.067051950.36487482-0.10321812-0.60979140-0.21243170[4,]-0.72128344-1.085951350.32887377⑸]1.05076131-1.129814671.390003810.17651849-0.20580703-0.53627368-1.160330500.46131231-1.21865006[/]-1.02251008-0.58749250-0.40627B72⑼]-1.025171692.24374371-0.38966543L10,]1.152282440.429921780.70096989L11,]0.238792871.215741610.07084281[12,]0.846&6466-0.78034521-0.95528064X]1.130964900.26529967-0.12642BB6L14,]-0.24471757-0.506597840.39951871E15,]0.97338071-0.428407501.18438642[圮]-0.57760894-0.70175748-0.93096723L17,]-1.24470636-0.020028380.11947B77E18,]-0.72469974-0.130185190.36303847L19,]0.743121122.04467603-1.9607.3541E20,]-0.03808330-0.76641660-0.23502060[21,]0.54208033-0.086&5007-1.84733833[结]0.421595970.4513092B0.92807649[2九]0.03787814-0.152351870.075B2171[如]-2.23250534-0.050606152.67073525[25,]-0.24587907-0.220128B5-0.94482249[如]-0.766420390.03066178-0.40208890[2人]-0.90856673-0.62967782-0.89731201[込]-0.76531867-0.43357746-0.11184499[29」0.46627841-0.625S31440.13540173[込]1.04705388-1.188319640.72002147>pcfs用线性回归法计算各地区的因子得分,因子一得分最高的城市天津,说明天津的基础行业发展水平高于我国其他地区,而得分最低的是贵州。第三个主因子得分最高的是北京,为3.13,远远高于我国其他地区,说明北京的高新产业相当发达,而得分最低的是新疆,由此可知新疆的高新产业发展程度在我国最低,可能原因是新疆是我国的边疆,且人烟稀少,主要以农业等基础行业为主。第二个主因子得分最高的是贵州,为2.67,远高于我国其他地区,说明贵州大力发展了电力、热力、燃气及水生产和供应。聚类分析3.1判断聚类个数层次聚类又称为系统聚类,通过实验可知,由离差平方和法所得到的谱系聚类图的分类最清晰,因此在此我们只展示采用离差平方和法的计算结果。

ClusterDendrogramDISMhclust(*,"ward.D")图3-1快速聚类图由树形图我们可知聚类数目为4为进一步确定聚类数目,可绘制碎石图。距离测度图3-2层次聚类碎石图随着聚类数目的不断减少,最小类间距不断增大。当聚类数目达到4类之后,最小类间距离的变化幅度很大,说明类间的差异较大,不应再继续合并。所以,根据碎石图粗略判断聚成4类较为合适。3.2K-Means聚类结果分析K-Means聚类也称快速聚类,属于覆盖型数值分割聚类算法。由它得到的聚

类结果,每个样本点都唯一属于一个类,聚类变量为数值型变量,并采用分割原

理进行聚类。由上述分层聚类分析可知,聚类数目为四。

运算程序得到各类的城市数目及聚类中心如下:表3-1聚类中心类(数目)基础产业高新产业能源产业1(4个)0.034875942.1589542-0.13899082(17个)-0.40707066-0.37794026-0.43600463(8个)1.12665036-0.269848820.66216324(1个)-2.23250534-0.050606152.6707353将各类聚类变量的类中心的变化图表示如下:各类聚类变量均值的变化折线图图3-3聚类变量均值折线图由此我们可以看出,第一类地区的高新行业迅速,远远高于基础行业和能源行业;第二类地区三种行业均衡发展;第三类地区高新产业并不发达,而基础行业和能源行业比较发达;第四类地区主要依靠能源行业进行发展,基础行业尤其低下。各类包含的具体城市如下:

C'馬i糞C'馬i糞隽二笑+=二二++聚类的类成员AAAAAAAAA倏贵亲1040{卜#:貝更椅貝翹傲IS祺征崇征從ISlff出三云lEiaiK更IOKISS

餐H<s:m雙加血常T貝妄范軀貝屠課疑贵更删目欷旧遂俎舰{1■'焉图3-4聚类的类成员图表3-2各类地区类别(数目)地区第一类(4)北京、上海、浙江、广东第二类(17)河北、山西、辽宁、吉林、黑龙江、安徽、江西、河南、湖北、湖南、广西、海南、四川、云南、陕西、甘肃、青海第三类(8)天津、山东、江苏、福建、重庆、内蒙古、宁夏、新疆第四类(1)贵州由聚类结果可知,北京、上海、浙江、广东由于聚集了我国大量高新人才,从事高科技研究和金融商务,使得这四个城市的高新行业占主导地位,且发展水平远远高于我国其他城市。第三类城市中部分临海,部分地域广阔,资源丰富,它们依据地理优势大力发展了交通运输及农林渔牧等基础行业和能源行业。贵州是我国的能源大省,水、电、煤多种能源兼备,犹以水力和煤最为突出,水火互济。。“黔电东送”是南方电网中“西电东送”的主力。因此贵州的能源行业自然十分火热。而第二类城市大多处于我国内陆,既没有资源优势,又没有人才优势,因此三种行业获得了均衡发展。其他分析方法在分析过程中我们在每一种分析角度中采用了不同的分析方法,其主要过程如下。4.1主成分分析

通过主成分分析方法,前三个特征值对应的特征向量如下:>Cu<-as-matrix(R$vectors[,1:3]))[,U[,2]E.3][13]-0.23699BB-0.39235331-0.1109671B9[2,1-0.270236S-0.21685298-0.041384567⑶]-0.1350444-0.534036880.560695158[4,]-0.2441100-0.22151428-0.194776639-0.26004170.07851607-0.200446594⑹]-0.2305709-0.13165031-0.414674072[八]-0.2625922-0.11107509-0.189168193[8,]-0.24541130.319599590.270820116-0.19627810.054952840.479154190[10,1-0.2412407-0.112141990.033560343[11,1-0.26696490.188609070.017363823[12,1-0.23803380.370052720.019773680[13,]-0.24937400.09636970-0.206355645[14,]-0.2356541-0.16332376-0.002635263[15a]-0.262816B0.118488900.115248400[16,]-0.25175720.273478490.044071156ri7,i-0.26032610.11786279O.1522283O5由上面的结果我们可以看到,第一主成分几乎包含所有变量,第三个变量既可以包含在第二个主成分中,又可以包含在第三个主成分中,因此主成分分析并不利于分析。在本文中采用基于主成分的因子分析,并进行因子旋转。4.2快速聚类在分类过程中我们还采用了最短距离法、中间距离法、最长距离法离差平方和法聚类,分析结果如下:ClusterDendrogramDISMhclust(*,"ward.D")图4-1离差平方和法聚类离差平方和法聚类与K-means聚类结果对比:

离差平方和法和大体相似,只有浙江和宁夏的分类结果不同,离差平方和法聚类将浙江分在了第三类,基础行业和能源行业发展优于高新行业,将宁夏分在了第二类,三种行业均衡发展。而K-means聚类方法将浙江分到第一类中,高新行业发展优于基础行业和能源行业,将宁夏分到第三类。地区基础行业咼新行业能源行业浙江分子得分0.238792871.215741610.07084281宁夏分子得分0.4427841-0.625831440.135401由浙江和宁夏在三个主因子上的得分可以看出,浙江在高新行业上的得分高于基础行业和能源行业,应分到第一类。宁夏在基础行业和能源行业的分子得分高于高新行业,应分到第三类。所以K-means聚类结果比较合理,本文采用K-means聚类结果。最短距离法、中间距离法、最长距离法聚类将大部分地区聚为一类,而将少量几个地区划成三类,使每类中只包含一两个地区,聚类效果不好。三种聚类结果如下:-2.0---2.0--0.5-0.0-ClusterDendrogramDISMhclust(*,"single")图4-2最短距离法聚类

ClusterDendrogramTDISMhclustClusterDendrogramTDISMhclust(*,"median")图4-3中间距离法聚类图4-4最长距离法聚类典型相关分析典型相关分析是研究两个随机向量相关程度的一个重要方法,其核心思想是通过线性变换将向量间的相关结构转化成最简单的形式。在这里我们研究基础行业和高新行业之间的典型相关性。5.1典型相关计算利用R语言中的“cancor()”函数可以完成典型相关分析,其部分结果如下:表5-1典型相关变量的相关系数序号1234567相关系数0.944590.833510.730210.684910.507320.365820.019535.2典型相关系数的显著性检验做相关分析的目的是利用降维的方法来处理数据,因此首先需要作典型相关系数的显著性检验来判断选择多少对典型变量。若认为典型相关系数宀则就不必考虑第K对典型变量。通过R语言程序计算,结果表明只需一对典型变量。5.3典型相关结果分析用XI,X2,X3,X4,X5,X6,X7,X8,X9,X10,XII,X12,X13,X14,X15,X16,X17分别代表数据标准化后的农、林、牧、渔业,制造业,电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,信息传输、软件和信息技术服务业,金融业,房地产业,租赁和商务服务业,科学研究和技术服务业,水利、环境和公共设施管理业,居民服务、修理和其他服务行业,教育,卫生和社会工作,文化、体育和娱乐业。由于只有第一典型相关变量是显著的,所以只考虑第一组典型相关变量:U=0.102X+0.088X-0.055X+0.013X-0.037X+0.034X-0.077X+0.117X,1245671013-0.005X14V=-0.146X+0.007X+0.141X+0.009XO+0.179X-0.030X+0.010Xln891112151617从表达式中我们可以看出基础行业的第一典型变量U1主要代表了农、林、牧、渔业X1和水利、环境和公共设施管理业X13的发展,这两个行业的系数最高,且呈现正相关关系,说明农、林、牧、渔业和水利、环境和公共设施管理业会促进基础行业的发展。高新行业的第一典型变量V2主要代表了教育行业X15的发展程度,同时与信息传输、软件和信息技术服务业X8有较高的负相关,与租赁和商务服务业X11有较高的正相关,说明教育行业和信息传输、软件和信息技术服务业会促进高新行业的发展,而租赁和商务服务业会阻碍高新行业的发展。同时第一典型相关系数达到0.94,因此基础行业的发展与高新行业的发展有较高的相关关系,尤其是基础行业中的农、林、牧、渔业和水利、环境和公共设施管理业的发展可大大促进高新行业的发展,而高新行业中的教育行业和信息传输、软件和信息技术服务业的发展反过来也会促进基础行业的发展。判别分析判别分析是用于判断样品所属类型的一种统计方法。判别分析的目的是对一直归类的数据建立由数值指标构成的归类规则,然后把这样的规则应用到未知归类的样品去归类。最常用的判别准则有距离判别、费希尔判别、贝叶斯判别。在这里我们根据聚类分析中归类结果取第二类和第三类地区共25个样本作为训练样本,取基础行业和高新行业的分子得分作为变量建立分类标准,并将训练样本代回,计算错判率,评价判别效果。6.1距离判别距离判别的基本思想是:计算新样本x到各个总体的距离,距离哪个总体距离最近就认为它来自该总体,通常采用的距离是马氏距离。当两个总体的协方差阵相等时,采用线性判别函数;当两个总体的协方差阵不相等时,采用二次函数判别函数。并且只有当两个总体的均值存在显著差异是,进行距离判别分析才有意义。则两类城市的各自的样本的均值分别为:表6-1两类城市变量均值类基础行业咼新行业2类-0.4070707-0.37794033类1.1266504-0.2698488可以两个总体的均值有显著性差异,可以进行距离判别分析。表6-2距离判别的结果2:2类城市3:3类城市预测组个体数总数23协方差阵相等2152173088协方差阵不等2152173088由表6-2可知:在假设各个总体的协方差阵相等时,采用距离判别有2个样本被误判,这来两个样本本属于2类城市而被误判为3类城市,正确率为92%,误判率为8%,正确率较高。假设各个总体的协方差阵不相等时的距离判别结果与协方差阵相等时相同。6.2费希尔线性判别费希尔判别的思想是将k组p维数据分别投影到某个固定方向上,使得各个组的数据的投影尽可能地分离,然后基于线性投影给出判别函数。费希尔判别不要求假设k个总体的分布,而且不仅可以用于k个总体的协方差阵全相等的情形,也适用于当k个总体的协方差阵不全相等的情形。表6-3费希尔线性判别结果2:2类城市3:3类城市预测组个体数总数232152173178由表6-3的判别结果可知:有三个样本被误判,其中两个样本本为2类,却被误判给3类,一个样本本为3类,却被误判给了2类。正确率为88%,误判率为12%。6.3贝叶斯判别贝叶斯判别是假定对研究对象已有一定的认识,这种认识常用先验概率来描述,当取得样本后,就可以用样本来修正已有的先验概率分布,得出后验概率分布,再通过后验概率分布进行各种统计推断。这里我们采用的先验概率分别为17/25、8/25,再将训练样本代回,得到的判断结果如下:表6-4贝叶斯判别分析结果2:2类城市3:3类城市预测组个体数总数23协方差阵相等2134173088协方差阵不等2152173088由表6-4的结果可知:当假设协方差阵相等时,有四个原本属于2类的城市被误判给了3类,正确率为84%,误判率为16%;当假设协方差不相等时,有两个本属于2类的城市被误判给了3类,正确率为92%,误判率为8%。6.4三种判别分析方法比较表6-5三种判别方法的效率距离判别费希尔判别贝叶斯判别协方差阵相等协方差阵不等协方差阵相等协方差阵不等正确率92%92%88%84%92%误判率8%8%12%16%8%由三种方法的正确率可知,当假设两个总体的协方差阵相等时,贝叶斯判别方法的正确率最低,为84%,距离判别的正确率最高,为92%;当假设两个总体的协方差阵不等时,距离判别和贝叶斯判别有相同的正确率,为92%,费希尔判别方法的正确率最低,为88%。由于贝叶斯判别方法考虑了误判的损失,因此在本例中,当假设协方差阵不等时,贝叶斯判别方法效果最佳。因此可用新样本进行分类预测。参考文献⑴吴密霞.林春玲.多元统计分析[M].北京:科学出版社.2014.薛毅,陈立萍.R统计建模与R软件[M].北京:清华大学出版社.2007.薛薇.基于R的统计分析与数据挖掘[M].北京:中国人民大学出版社.2014附录:#导入数据rm(list=ls())setwd("C:\\Users\\Administrator\\Desktop\\数据")job1<-read.csv("4-16分地区按行业分城镇私营单位就业人员平均工资(2013年)-副本.csv",header=TRUE)job<-scale(job1[,2:18])M<-cor(job)##相关系数图##library("corrgram")corrgram(M,lower.panel=panel.shade,upper.panel=panel.pie,txt.panel=panel.txt,main="原有变量的相关系数图")##基于主成分的因子分析####确定主成分个数##R<-eigen(M)R$valueslibrary("psych")scree(rx=M,factor=TRUE,main="基于主成分的碎石图")##主成分分析(非旋转)##(pc<-principal(r=M,nfactors=3,rotate="none"))##主成分分析(旋转)##library("GPArotation")(pc2<-principal(r=M,nfactors=3,rotate="varimax"))#因子载荷图##par(mfrow=c(1,2))factor.plot(pc,lable=rownames(pc$loadings))factor.plot(pc2,lable=rownames(pc2$loadings))##计算因子得分##pc3<-principal(r=M,nfactors=3,totate="varimax",scores=TRUE,method="regression")pc3$weightpcfs<-as.matrix(job)%*%pc3$weightpcfs##聚类分析##DISM<-dist(pcfs,method="euclidean")clur<-hclust(d=DISM,method="ward.D2")clur<-hclust(d=DISM,method="single")clur<-hclust(d=DISM,method="median")clur<-hclust(d=DISM,method="complete")par(mfrow=c(l,l))plot(clur,labels=jobl[,l])re<-rect.hclust(clur,k=4)box()##判断聚类个数##plot(clur$height,29:1,type="b",cex=0.7,xlab="距离测度”,ylab="聚类数目")##聚类成员##job$memb<-cutree(clur,k=4)table(job$memb)plot(job$memb,pch=job$memb,ylab="类别编号",xlab="省市",main="聚类的类成员",axes=FALSE)par(las=2)axis(1,at=1:30,labels=job1[,1],cex.axis=0.8)axis(2,at=1:4,labels=1:4,cex.axis=0.8)box()##k-means聚类##set.seed(12345)clur2<-kmeans(pcfs,centers=4,nstart=4)clur2$sizeclur2$centersjob$k<-clur2$cluster##聚类图##plot(job$k,pch=job$k,ylab="类别编号",xlab="省市",main="聚类的类成员",axes=FALSE)par(las=2)axis(1,at=1:30,labels=job1[,1],cex.axis=0.8)axis(2,at=1:4,labels=1:4,cex.axis=0.8)box()legend("topleft",c("第一类",”第二类",:第三类",”第四类”),pch=1:4,cex=0.5)##类中心折线图##plot(clur2$center[1,],type="l",ylim=c(-3,3),xlab="聚类变量”,ylab="组均值”,main="各类聚类变量均值的变化折线图”,axes=FALSE)axis(1,at=1:3,labels=c("基础行业","高新行业","能源行业"),cex.axis=0.8)par(las=2)box()lines(1:3,clur2$center[2,],lty=2,col=2)lines(1:3,clur2$center[3,],lty=3,col=3)lines(1:3,clur2$center[4,],lty=4,col=4)legend("topleft",c("第一类",”第二类",”第三类",”第四类"),lty=1:4,col=1:4,cex=0.5)##k均值聚类结果评价##clur2$betweenss/clur2$totss*100##主成分分析####确定主成分个数##R<-eigen(M)R$valuesplot(R$values,type="b",ylab="特征值",xlab="特征值编号")(cR<-cumsum(R$values)/sum(R$values))##主成分分析##(U<-as.matrix(R$vectors[,1:3]))##典型相关分析==========================================================ca<-cancor(job[,c(1,2,4,5,6,7,10,13,14)],job[,c(8,9,11,12,15,16,17)])caU<-as.matrix(job[,c(1,2,4,5,6,7,10,13,14)])%*%ca$xcoefV<-as.matrix(job[,c(8,9,11,12,15,16,17)])%*%ca$ycoefUVpar(mfrow=c(1,2),mar=c(4,4,2,2))plot(U[,1],V[,1],xlab="U1",ylab="V1")#相关变量得分散点图#相关系数检验corcoef.test<-function(r,n,p,q,alpha=0.1){m<-length(r);Q<-rep(0,m);lambda<-1for(kinm:1){lambda<-lambda*(1-r[k]A2);Q[k]<--log(lambda)}s<-0;i<-mfor(kin1:m){Q[k]<-(n-k+1-1/2*(p+q+3)+s)*Q[k]chi<-1-pchisq(Q[k],(p-k+1)*(q-k+1))if(chi>alpha){i<-k-1;break}s<-s+1/r[k]A2}i}corcoef.test(ca$cor,n=30,p=10,q=7)#判别分析#组织数据job2<-cbind(pcfs[,1:2],job$k)pan<-subset(job2,job2[,3]==2ljob2[,3]==3)pan<-as.data.frame(pan)T2<-subset(pan,pan[,3]==2)T3<-subset(pan,pan[,3]==3)(colMeans(T2[,l:2]))(colMeans(T3[,l:2]))#Fisher判别library("MASS")(result<-lda(V3〜PC1+P

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论