版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、实验七、利用SPSS进行主成分分析【例子】以全国31个省市的8项经济指标为例,进行主成分分析第一步:录入或调入数据(图1)国啊生产居民淮费固立说严职T1*货物周转弟M格I育品專售T如产值1139<692505,00519.01614400373.£0117.30112.60B43.432夭律92QJ12720.00345.466601J00342.90115.20110.G0SB2勾3卞北2849.521258.007O4.37妊田002033.0115.20115.301234.354山西1092.49150.002?0.JD4721717.0116.90116.60K37.
2、2558G2.891307.00250.294134JOO791.70117.60116.6041939E辽宁2793.372397.00397.994G1100137170116.1L114.0U104O.S571129.201872UU320.4b43000497.40116.011420762.47a2UH.53233400414SM02480116.101U30124LI?9抽佃5343.UU996.4BIL/JULI20?AJna.71113.001b42.95105155.251926.001434.95狂43ULIILLbtLIns.ei114.30ATJbol11浙江2249.
3、001006.39661900764.40I1&EL113.50916.531220曲日126<00474.004E09UJ如賺UI14SC112.70GQ4.14132160.512320.00653.9768E7BEDS.30ne20114.40433.5714江西1206.11)102DO332.844211<11.70I1E.SQ116.90571.3415山5002.31527.DU122955614500I1S6.60117.61114.20IB何TS3UUJJJIlad.uu670J5壮44.LU1S744D11&.Q114.9013B75GJ17期北
4、2J91.421627.UU57I.5B4tli>DO849.00120.00116601220.Z213湖商21?6.TL1408no422.514797IUI1.EOii.oa115.50343j631?广东5361J2001冏®匪5000E矩弍1I14.0C1r.501335.3520丁西1506.161314.DU2.536105656.COI吒40116.10554.3721361,17IdKOO196356340UJ2;210113.6011'.30(1.3322TOT3534.001261.DO922.54464500902.-0iiafid117.001
5、431.3123&30.07942.00150.84437500301.10121.4口117.20324.7221i206.ea161.0033inD6I49M3lu.<011.30118.10716.652555.531110.0017.877.282.CO4.0I17.301U906.57茁1000031208003QD27£9600500.=0112D匚117.00BOO3B27553351007nn114316493m607.CO119ea1I6.5D4387973IG6311師no477B573m61EOnaoo116JO105BD7=(16A751355n
6、n619B507001;1snI1710115301144U30新鑑334S71489DO376S5WSIT339.CO119.701167042076图1原始数据(未经标准化)第二步:打开“因子分析”对话框。沿着主菜单的“AnalyzeDataReductionFactor"的路径(图2)打开因子分析选项框(图3)旨全国他介省帀区经if发展的日项措标-如55DataEditorkEdit的州£ataIransfcrm|AnalyzeSrptisFties拠nth刊Help国副團闻旳|c|因P;国内生产E1北京1394一E|2天津920.1r32349上4山西1092rs蒙
7、832上6辽宁2753.2ReportsDescriptiveStatists卜CompareMear»s卜GeneralLrerModel卜Correlate卜因eg咋tsion卜Classi卜二职工工贽118144.006650100BetaRedaction卜|FactorinI5cale卜MonparmetricTesti卜MultipleResponse卜u斗让IUli34134.00e491100图2打开因子分析对话框的路径图3因子分析选项框第三步:选项设置。首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3
8、)。在本例中,全部8个变量都要用上,故全部调入(图4)。因无特殊需要,故不必理会“Valu”栏。下面逐项设置。toFAnalysisVariables:21妙国內生产吻居民消费矽固定资产參职工工资斜算物周转商品零售工业产值AlOK|PasteBesetCancelHelpSelectionVariable:ORotation.图4将变量移到变量栏以后1. 设置Descriptives描述选项。单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。图5描述选项框在Statistics统计栏中选中Univariatedescriptives复选项,则输出结果中将会给
9、出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initialsolution复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)在CorrelationMatrix栏中,选中Coefficients复选项,则会给出原始变量的相关系数矩阵(分析时可参考);选中Determinant复选项,则会给出相关系数矩阵的行列式,如果希望在Excel中对某些计算过程进行了解,可选此项,否则用途不大。其它复选项一般不用,但在特殊情况下可以用到(本例不选)。设置完成以后,单击Continue按钮完成设置(图5)。2. 设置Extraction选项。打开Extraction对话框(
10、图6)。因子提取方法主要有7种,在Method栏中可以看到,系统默认的提取方法是主成分(PrincipalComponents),因此对此栏不作变动,就是认可了主成分分析方法。在Analyze栏中,选中Correlationmatrix复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中Covarianeematrix复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。在Display栏中,选中Unrotatedfactorsolution(非旋转因子解)复选项,则在分析结果中给出未经旋转的因子提取结果。对于主成分分
11、析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。选中ScreePlot(“山麓”图),则在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。在Extract栏中,有两种方法可以决定提取主成分(因子)的数目。一是根据特征根(EigenvalueS的数值,系统默认的是'c=1。我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。如果默认乙二1,则所有方差大于等于1的主成分将被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将'c值降低,例如取=0.9;如果认为最
12、后的提取的主成分数量偏多,则可以提高-c值,例如取c=1.1。主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值的设定,要在反复试验以后才能决定。一般而言,在初次分析时,最好降低特征根的临界值(如取c=0.8),这样提取的主成分将会偏多,根据初次分析的结果,在第二轮分析过程中可以调整特征根的大小。第二种方法是直接指定主成分的数目即因子数目,这要选中Numberoffactors复选项。主成分的数目选多少合适?开始我们并不十分清楚。因此,首次不妨将数值设大一些,但不能超过变量数目。本例有8个变量,因此,最大的主成分提取数目为8,不得超过此数。在我们第一轮分析中,采用系统默认的方法
13、提取主成分。图6提取对话框需要注意的是:主成分计算是利用迭代(Iterations)方法,系统默认的迭代次数是25次。但是,当数据量较大时,25次迭代是不够的,需要改为50次、100次乃至更多对于本例而言,变量较少,25次迭代足够,故无需改动。设置完成以后,单击Continue按钮完成设置(图6)。3. 设置Scores设置。选中Saveasvariable栏,则分析结果中给出标准化的主成分得分(在数据表的后面)至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的“回归”(Regression法即可。FactorAnalysis:FactorPSaveasvariablesMet
14、hod皿RegiessionLBartlett厂Anderson-RubinMDisplayfactorscorecoefficientmatrix图7因子得分对话框选中Displayfactorscorecoefficientmatrix,则在分析结果中给出因子得分系数矩阵及其相关矩阵。设置完成以后,单击Continue按钮完成设置(图7)。4. 其它对于主成分分析而言,旋转项(Rotation)可以不必设置;对于数据没有缺失的情况下,Option项可以不必理会。全部设置完成以后,点击OK确定,SPSS艮快给出计算结果(图8)。JFactorAnalysisDeuriptiwWtaUNX、砌
15、315tri.E/iflhmL-l.-Ltz-J30居1745.930961J6419330E11SQG3BO=S1r54=.&331310坦X306GMC039960993011739672J3259L:30H4gt.7i.aceaa30工1护恒594.5S736aoCunuidUuii'ijtrlK*至閃生吉眼工工许薜品善诸工业声催Ccrrabujr国刃主严i.oaoZfe?9511业.&P-.Z/3,074.26?l.IXID.4£,71B-.151.岛-.593.3B3SSL.426i.om.400.431.28D-.359-702刃3_丄矍UL.71
16、0l.DDO-.356.135-.530.104赏*WBH.617-.isi.A31LDOO-.253.22jfi55用看汩S-273-.235<2tU.偌叫2S3i.iua.7t3-.IS>.264-.no*.539.022.753tom-.102亠业产値,S74,«3-92.104,0:9r!2!j1Q2l.oro1CM*皿i_-1133E-CH图8主成分分析的结果第四步,结果解读在因子分析结果(Output)中,首先给出的DescriptiveStatistics第一列Mean对应的变量的算术平均值,计算公式为1nXjXjny第二列Std.Deviation对应的是
17、样本标准差,计算公式为12,1/2-j鬥(Xj-Xj)nTy第三列AnalysisN对应是样本数目。这一组数据在分析过程中可作参考DescriptiveStatisticsMeanStd.DeviationAnalysisN国内生产1921.0931474.8060330居民消费1745.933861.6419330固定资产511.5083402.8854830职工工资5457.6331310.2180530货物周转666.1400459.9669930消费价格117.28672.0253130商品零售114.90671.8980830工业产值862.9980584.5872630接下来是Co
18、rrelationMatrix(相关系数矩阵),一般而言,相关系数高的变量,大多会进入同一个主成分,但不尽然,除了相关系数外,决定变量在主成分中分布地位的因素还有数据的结构。相关系数矩阵对主成分分析具有参考价值,毕竟主成分分析是从计算相关系数矩阵的特征根开始的。相关系数阵下面的Determinant=1.133E-0.4是相关矩阵的行列式值,根据关系式det('l-R)=0可知,det(Q=det(R),从而Determinant=1.133E-0.4=X*b*左X*疋花疋辰这一点在后面将会得到验证。CorrelationMatrixa国内生产居民消费固定资产职工工资货物周转消费价格商
19、品零售工业产值国内生产1.000.267.951.191.617-.273-.264.874居民消费.2671.000.426.718-.151-.235-.593.363固定资产.951.4261.000.400.431-.280-.359.792职工工资.191.718.4001.000-.356-.135-.539.104货物周转.617-.151.431-.3561.000-.253.022.659消费价格-.273-.235-.280-.135-.2531.000.763-.125商品零售-.264-.593-.359-.539.022.7631.000-.192工业产值.874.3
20、63.792.104.659-.125-.1921.000a.Determinant=1.133E-04在Communalities中,给出了因子载荷阵的初始主成分方差(Initial)和提取主成分方差(Extraction),后面将会看到它们的含义。CommunalitiesInitialExtraction国内生产1.000.945居民消费1.000.800固定资产1.000.902职工工资1.000.875货物周转1.000.857消费价格1.000.957商品零售1.000.929工业产值1.000.903ExtractionMethod:PrincipalComponentAnaly
21、sis.在TotalVarianeeExplained全部解释方差)表的InitialEigenvalues(初始特征根)中,给出了按顺序排列的主成分得分的方差(Total),在数值上等于相关系数矩阵的各个特征根入因此可以直接根据特征根计算每一个主成分的方差百分比(%ofVarianee)。由于全部特征根的总和等于变量数目,即有m=刀存8,故第一个特征根的方差百分比为Mm=3.755/8=46.939,第二个特征根的百分比为Mm=2.197/8=27.459,,其余依此类推。然后可以算出方差累计值(Cumulative%)。在ExtractionSumsofSquaredLoadings给出了
22、从左边栏目中提取的三个主成分及有关参数,提取的原则是满足,这一点我们在图6所示的对话框中进行了限定。TotalVarianeeExplainedComponentInitialEigenvaluesExtractionSumsofSquaredLoadingsTotal%ofVarianeeCumulative%Total%ofVarianeeCumulative%13.75546.93946.9393.75546.93946.93922.19727.45974.3982.19727.45974.39831.21515.18689.5841.21515.18689.5844.4025.0319
23、4.6155.2132.66097.2756.1381.72498.99976.5E-02.81899.81781.5E-02.183100.000ExtractionMethod:PrincipalComponentAnalysis.ScreePlotepavcocgjComponentNumber图8特征根数值衰减折线图(山麓图)主成分的数目可以根据相关系数矩阵的特征根来判定,如前所说,相关系数矩阵的特征根刚好等于主成分的方差,而方差是变量数据蕴涵信息的重要判据之一。根据2值决定主成分数目的准则有三:i只取21的特征根对应的主成分从TotalVarianceExplainec表中可见,第一
24、、第二和第三个主成分对应的2值都大于1,这意味着这三个主成分得分的方差都大于1。本例正是根据这条准则提取主成分的。ii累计百分比达到80%85%以上的值对应的主成分在TotalVarianceExplained表可以看出,前三个主成分对应的2值累计百分比达到89.584%,这暗示只要选取三个主成分,信息量就够了。iii根据特征根变化的突变点决定主成分的数量从特征根分布的折线图(ScreePlo)上可以看到,第4个值是一个明显的折点,这暗示选取的主成分数目应有p<4(图8)。那么,究竟是3个还是4个呢?根据前面两条准则,选3个大致合适(但小有问题)在ComponentMatrix(成分矩阵
25、)中,给出了主成分载荷矩阵,每一列载荷值都显0.885实际上是国内生产总值(GDP)与第一个主成分的相关系数将标准化的GDP数据与第一主成分得分进行回归,示了各个变量与有关主成分的相关系数。以第一列为例,决定系数R2=0.783(图9),容易算出R=0.885,这正是GDP在第一个主成分上的载荷ComponentMatrixaComponent123国内生产.885.384.121居民消费.607-.598.271固定资产.912.161.212职工工资.466-.722.368货物周转.486.738-.275消费价格-.509.252.797商品零售-.620.594.438工业产值.82
26、3.427.211ExtractionMethod:PrincipalComponentAnalysis.a.3componentsextracted.F面将主成分载荷矩阵拷贝到Excel上面作进一步的处理:计算公因子方差和方差贡献。首先求行平方和,例如,第一行的平方和为h12=0.88492+0.38362+0.12092=0.9449这是公因子方差。然后求列平方和,例如,第一列的平方和为$2=0.88492+0.60672+0.82272=3.7551这便是方差贡献(图10)。在ExceI中有一个计算平方和的命令sumsq,可以方便地算出一组数据的平方和。显然,列平方和即方差贡献。事实上,
27、有如下关系成立:相关系数矩阵的特征根=方差贡献=主成分得分的方差至于行平方和,显然与前面Communalities表中的Extraction列对应的数据一样。如果我们将8个主成分全部提取,则主成分载荷的行平方和都等于1(图11),即有hi=1,s=初到此可以明白:在Communalities中,Initial对应的是初始公因子方差,实际上是全部主成分的公因子方差;Extraction对应的是提取的主成分的公因子方差,我们提取了3个主成分,故计算公因子方差时只考虑3个主成分图9国内生产总值(GDP)的与第一主成分的相关关系(标准化数据)LABCDEI5第一主成分第二主成分第二主成分公因子方差6国
28、内生产0.8849000.3836190.1208860.9448247居艮消费0.606719-0.5981770.271S1307995348固定资产0.9116870.1611060.211970.9020719职工工資0.46622277224100.367938a87461710货物周转0,4858310,738275-0.2752520,35684511消费价格-0.50856362519090.796633a95671812商品零售-0.61958905943750.4375550.92862713工业产值0.822729a4267370.210970a90349614方差责袜3
29、.7551332.1967041,2148957.16673315特征根3.7551332196YQ41214翻5166733图10主成分方差与方差贡献Component12345678:国内生产.885.384.121-.203-6.87E-021.143E-022.420E-029.192E-02居民消费.607-.598.271.409-7.61E-02.1575.525E-021.317E-02固定资产.912.161.212-.270-7.71E-028.271E-028.113E-02-7.36E-02职工工资.466-.722.368-.164.304-1.64E-02-7.62
30、E-023.949E-03货物周转.486.738-.275.212.3052.254E-026.855E-02-6.02E-03消费价格-.509.252.797.0722.716E-02-.161.1072.435E-03商品零售-.620.594.438-.0273.531E-02.247-9.23E-021.634E-03工业产值.823.427.211.209-9.38E-02-.137-.157-2.30E-02ComponentMatrixaExtractionMethod:PrincipalComponentAnalysis.a.8componentsextracted.ACD
31、EFGH1J112345678公因干方差2凰内生产0*38490.38360.1Z09-0.2U3270E87U.U114(XJ24Z0.091913居民消隽0.S067-0.5000.27120.40G5-0.07G10.15680.05520.013214固宦瓷产0.5117门一16110.212-0.2705-0.07710.0S270.0011-0.07415职工工资0.4662-0,7220.3&79-0.16350.30421-6016-0.0760.0039116货粳周转0.48580.73837,2750.211840.30502602250.0685-0.00617涪
32、费价洛-0.5090.25190.79666071760.02716-61610.10710024:1n8曲品零匡-0.520.594:40.437B-0.02670.0353100"-0.0920.001619二业产值0.32270.42G70.2110.20968-0,0938-0.157-0.157-0.02S11.0方琴奇就3.75512.19671.21490.402440.212Rn.1前0,0654H(T恥R11特征棍375512.19671.214S0.40244匕21280+1380.0654n01461.133E-04图11全部主成分的公因子方差和方差贡献提取主成
33、分的原则上要求公因子方差的各个数值尽可能接近,亦即要求它们的方差极小,当公因子方差完全相等时,它们的方差为0,这就达到完美状态。实际应用中,只要公因子方差数值彼此接近(不相差太远)就行了。从上面给出的结果可以看出:提取3个主成分的时候,居民消费的公因子方差偏小,这暗示提取3个主成分,居民消费方面的信息可能有较多的损失。至于方差贡献,反映对应主成分的重要程度,这一点从方差的统计学意义可以得到理解。在图11中,将最后一行的特征根全部乘到一起,得0.0001133这正是相关系数矩阵的行列式数值(在Excel中,求一组数据的乘积之和的命令是product)。最后说明ComponentScoreCoef
34、ficientMatrix(成分得分系数矩阵)和ComponentScoreCovarianeeMatrix(成分得分协方差矩阵),前者是主成分得分系数,后者是主成分得分的协方差即相关系数。从ComponentScoreCovarianeeMatri可以看出,标准化主成分得分之间的协方差即相关系数为0(j工k)或1(j=k),这意味着主成分之间彼此正交即垂直。初学者常将ComponentScoreCoeffieientMatrix表中的数据当成主成分得分或因子得分,这是误会。成分得分系数矩阵的数值是主成分载荷除以相应的特征根得到的结果。在ComponentMatrix表中,将第一列数据分别除以
35、入=3.755第二列数值分别除以沪2.197,,立即得到ComponentScoreCoefficient;反过来,如果将ComponentScoreCoefficientMatrix表中的各列数据分别乘以入=3.755,42.197,,则可将其还原为主成分载荷即ComponentMatrix中的数据。ComponentScoreCoefficientMatrixComponent123国内生产.236.175.100居民消费.162-.272.223固定资产.243.073.174职工工资.124-.329.303货物周转.129.336-.227消费价格-.135.115.656商品零售-
36、.165.271.360工业产值.219.194.174ExtractionMethod:PrincipalComponentAnalysis.ComponentScores.ComponentScoreCovarianeeMatrixComponent12311.000.000.0002.0001.000.0003.000.0001.000ExtractionMethod:PrincipalComponentAnalysis.ComponentScores.实际上,主成分得分在原始数据所在的SPSS!前数据栏中给出,不过给出的都是标准化的主成分得分(图12a);将各个主成分乘以相应的&quo
37、t;朋卩特征根的二次方根可以将其还原为未经标准化的主成分得分f緡分1得分2得分3得分一得分二得分三42743-1.52320.49020.84250-2.295DD64870.33935-1,78001-146264GG940-2.68230-119310700551.586321.192111.381302.390501.33560-,51028.26259-51833-100600.3953068090-.03667.48824-.34594-154950.73500-.3073035822.65519-56666169230.96940-.63430-.19950-,266041.09716-.39310-.4314D1.2310027330.22955-.6423B53920.34440-721201.6499
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉林大学《篮球IV》2021-2022学年第一学期期末试卷
- 医疗保险政策宣传工作效果总结
- 医疗服务项目管理方案
- 中学反欺凌宣传与教育方案
- 矿山作业可燃有毒气体检测方案
- 建筑工地汽车式起重机施工方案
- 做课件教程教学课件
- 2024-2025学年新教材高中数学第六章计数原理二排列排列数课时素养评价含解析新人教A版选择性必修第三册
- 2024-2025学年新教材高中政治第一单元各具特色的国家第二课课时2单一制和复合制课时作业含解析新人教版选择性必修1
- 商场公共卫生保洁服务实施方案
- 江西省萍乡市2024-2025学年高二上学期期中考试地理试题
- 2023年贵州黔东南州州直机关遴选公务员考试真题
- 黑龙江省龙东地区2024-2025学年高二上学期阶段测试(二)(期中) 英语 含答案
- 4S店展厅改造装修合同
- 送货简易合同范本(2篇)
- 全国职业院校技能大赛赛项规程(高职)智能财税
- 七年级上册音乐教案 人音版
- 某小区住宅楼工程施工组织设计方案
- 3-4单元测试-2024-2025学年统编版语文六年级上册
- 北师版数学八年级上册 5.8三元一次方程组课件
- 2025届湖北省武汉市新洲一中阳逻校区高二上数学期末学业水平测试模拟试题含解析
评论
0/150
提交评论