版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实验七、利用SPSS进行主成分分析【例子】以全国31个省市的8项经济指标为例,进行主成分分析。第一步:录入或调入数据(图1)。背份I国内生产居民涓夷1固定资产职二工资货物周转I消费忻格I商品零售二业产悄1北京139^1.092^05.JOG19.31014400372.SOP7.3C112.CO043.432大津92C/12720.DO345.436501CO3^2.E0LE.2C110.GO582.513河北284C-.521268.DO704.87^3JCO2023.:aPE.2C116.8012B4.S641d1092.4E1250.DO230.33^721CO717.20PE.9C115.60G37.255032.381337.DOJbU.JJQ34UJrtl.^UIV.5L116.00419.396辽宁UdUr.JU387.99SU」13/1./Uri=/L1I^.UU1840.5671IJL.JL320.45心」LU比上£Urt.JL1|£.IU心.4「y刖丄亠2J3^.JU4如心丄屁UJrt/L1IGU1240.379上活2462.675J43.JUUJU.4JIL/JUJ2Q7.40rt.,'L113.UU1642.9610江苏5155.25UJb.JU1434.95694JUU山上上Ll115.801H.3U11126.6411浙江2249.JU1006.39GG19.00■-M7-U116.60113.oUyib.sy12安機2003.69IJb/.JU■VI」」4LUU」90S.30r^i.yi1IJ7Uyji.ii132160.522320.DO553.975357W609.3D115.2D114.40433.6714江西iJUt.-l11H2.JU2S2.S41LU■<Tl./Uit.yi116.yu6/I.J-115止击5002.3^11527.DO1229.55S145W1195.60I17.6D114.2022J7.S915河崗3002.7^11034.DO570.354344W1574.^0I16.6D114.901^7.3217jjyl.-LIbJ/.川571,6B■<tablu丄uI2L.UL1Ib.bUI22U./218湖南2195.701408.DO422.614797Winri.aoI19.0D115.5084S.SS13广韦5381.722599.DO1539.838233W655.50\1A.W111.601336.3520广西1bUt/tIdU.JU6'IUbLU666丄Li118.401lb.1U分13213GJ.171814.DO198.356340JZO232.10113.50111.3064.3322匹川353J.001261.00822.544G45JZO902.30118.50117.001431.3123贵州63C.07912.30150.31£<75CO3CI.IOI2I.1C117.2032172241200.631261.DO334.0D6149JZO310.JO121.30118.10716.652556.9a1110.DO17.877382JZO4.20117.30114.905.5726innrn:l?riRin3Q027丄:qmm可nunI1Cnr117nnBQ09827r|.需653.351007.00114.81E』33[n5D7.0D119.8D116.604687928165.311445.0047.7B6753m61.60118.00116.301Q6.8029宁亘169751365m21刖5079m■;1FnI'7T115.30114.403083J.571469.0037B.955348m339.00119.7D11B.7D428.76图1原始数据(未经标准化)第二步:打开“因子分析”对话框。沿着主菜单的“Analyze—DataReduction^Factor”的路径(图2)打开因子分析选项框(图3)。旨全国3D牛睿帀区经:Sf发展的8项指标-5P55DataEditors\里J幻|c|闻6s\里J幻|c|闻6省份国內生产1北京1394.E2天津920.13河北2849.EI4山西1092.J5內蒙832.E6辽宁2793<FileEditViewDataTransformAnalyzeGraphsUtilitiesWindowHelpReports 卜DescriptiveStatistics卜CompareMeans卜GeneralLinearModel卜Correlate 卜Regression 卜匚lassiFi: 卜DataReduction5cale 卜NonparametricTemIim卜MultipleResponse 卜匚职工工资1B144.0066501.00F日匚thin : ■CT.uu34134.00'94911.00图2打开因子分析对话框的路径IFactorAnalysis2d产费产资转格售值生消资工周价零产份內民定工物费品业習国居固职赁消商T型參步莎莎秽战步莎Variables:Descriptives... SelectionVariable:
ra IFactorAnalysis2d产费产资转格售值生消资工周价零产份內民定工物费品业習国居固职赁消商T型參步莎莎秽战步莎Variables:Descriptives... SelectionVariable:
ra Value...IExtraction...Rotation...Scores...Options...图3因子分析选项框第三步:选项设置。首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。在本例中,全部8个变量都要用上,故全部调入(图4)。因无特殊需要,故不必理会“Va^e”栏。下面逐项设置。2S1Variables:SelectionVariable:Value...I产费产资转格售值生消资工周价零产內民定工物费品业国居固职货消商〒2S1Variables:SelectionVariable:Value...I产费产资转格售值生消资工周价零产內民定工物费品业国居固职货消商〒Extraction...Rotation... Scores... Options...Extraction...Rotation... Scores... Options...图4将变量移到变量栏以后设置Descriptives描述选项。单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。
FactorAnalysis:DescriptivesStaticcs1^UnivariatedescriptivesFinitialsolution2SJCorrelationMatrix—2SJ皆Coefficients厂Significancelevels磧DeterminantI-InverseI-Inverse厂ReproducedI-Anti-image图5描述选项框在Statistics统计栏中选中Univariatedescriptives复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initialsolution复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。在CorrelationMatrix栏中,选中Coefficients复选项,则会给出原始变量的相关系数矩阵(分析时可参考);选中Determinant复选项,则会给出相关系数矩阵的行列式,如果希望在Excel中对某些计算过程进行了解,可选此项,否则用途不大。其它复选项一般不用,但在特殊情况下可以用到(本例不选)。设置完成以后,单击Continue按钮完成设置(图5)。设置Extraction选项。打开Extraction对话框(图6)。因子提取方法主要有7种,在Method栏中可以看到,系统默认的提取方法是主成分(PrincipalComponents),因此对此栏不作变动,就是认可了主成分分析方法。在Analyze栏中,选中Correlationmatrix复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中Covariancematrix复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。在Display栏中,选中Unrotatedfactorsolution(非旋转因子解)复选项,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。选中ScreePlot(“山麓”图),则在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。在Extract栏中,有两种方法可以决定提取主成分(因子)的数目。一是根据特征根(Eigenvalues)的数值,系统默认的是九=1。我们知道,在主成分分析中,主成分得c分的方差就是对应的特征根数值。如果默认九=1,则所有方差大于等于1的主成分将被c保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将九值降低,例如取九=0.9;如果认为最后的提取的主成分数量偏多,则可以提高九值,例如取九=1.1。c c c主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值的设定,要在反复试验以后才能决定。一般而言,在初次分析时,最好降低特征根的临界值(如取
九二0.8),这样提取的主成分将会偏多,根据初次分析的结果,在第二轮分析过程中c可以调整特征根的大小。第二种方法是直接指定主成分的数目即因子数目,这要选中Numberoffactors复选项。主成分的数目选多少合适?开始我们并不十分清楚。因此,首次不妨将数值设大一些,但不能超过变量数目。本例有8个变量,因此,最大的主成分提取数目为8,不得超过此数。在我们第一轮分析中,采用系统默认的方法提取主成分。图6提取对话框需要注意的是:主成分计算是利用迭代(Iterations)方法,系统默认的迭代次数是25次。但是,当数据量较大时,25次迭代是不够的,需要改为50次、100次乃至更多。对于本例而言,变量较少,25次迭代足够,故无需改动。设置完成以后,单击Continue按钮完成设置(图6)。设置Scores设置。选中Saveasvariables栏,则分析结果中给出标准化的主成分得分(在数据表的后面)。至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的“回归”(Regression)法即可。图7因子得分对话框选中Displayfactorscorecoefficientmatrix,则在分析结果中给出因子得分系数矩阵及其相关矩阵。设置完成以后,单击Continue按钮完成设置(图7)。其它。对于主成分分析而言,旋转项(Rotation)可以不必设置;对于数据没有缺失的情况下,Option项可以不必理会。全部设置完成以后,点击0K确定,SPSS很快给出计算结果(图8)。FactorAnalysisDKcrlptiwStatisticsMeanStd.Deviaticn月rial阳5N主K三〒L921.093K74.aC6D330居民消费05.9990GL6419930511.93634D2.aBS^B30P1'■/'5457.6331310.218D530edfi.MCO302.02531II商品零害.9067L.affiDS30丄泊E62P3EO504.5872630CorrdatiotnMatrix刃丄7严同严产职TT占商品頁音一产乍Zu-.LUj- 国內生产1.000.267・此1,191-.273-.E&4.374,古土汨非.267i.mo.斗26.710-.151-.235.3E3固竝产.951.4261.DC0.4D0.431-.230.792開丁T许.191.710■4CDL.ODO-.356-.135-.53?■1D4览物周转.617-.151■阳1-.3561.000-.253■02Z.&59亠幵li坏-.273-.235・.2圧1-.195-.2531.1X0.763-.1右商品零售-.264-.393-.539.022.763l.nm-.152严•直.874.363.792.104.659-.125-192lJliDHa.DetEfmria-it二1A33E<I4图8主成分分析的结果第四步,结果解读。在因子分析结果(0utput)中,首先给出的DescriptiveStatistics,第一列Mean对应的变量的算术平均值,计算公式为X=1Hxjnij
i=1第二列Std.Deviation对应的是样本标准差,计算公式为b=工(X-X)2]1/2jn—1 ij ji=1第三列AnalysisN对应是样本数目。这一组数据在分析过程中可作参考。
DescriptiveStatisticsMeanStd.DeviationAnalysisN国内生产1921.0931474.8060330居民消费1745.933861.6419330固定资产511.5083402.8854830职工工资5457.6331310.2180530货物周转666.1400459.9669930消费价格117.28672.0253130商品零售114.90671.8980830工业产值862.9980584.5872630接下来是CorreiationMatrix(相关系数矩阵),一般而言,相关系数高的变量,大多会进入同一个主成分,但不尽然,除了相关系数外,决定变量在主成分中分布地位的因素还有数据的结构。相关系数矩阵对主成分分析具有参考价值,毕竟主成分分析是从计算相关系数矩阵的特征根开始的。相关系数阵下面的Determinant=l.133E—0.4是相关矩阵的行列式值,根据关系式det@I-R)二0可知,det(〃)=det(R),从而Determinant=1.133E-0.4=2*2*2*2*2*2*2*2。这一点在后面1 2 3 4 5 6 7 8将会得到验证。CoirelationMatrix国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值国内生产1.000.267.951.191.617-.273-.264.874居民消费.2671.000.426.718-.151-.235-.593.363固定资产.951.4261.000.400.431-.280-.359.792职工工资.191.718.4001.000-.356-.135-.539.104货物周转.617-.151.431-.3561.000-.253.022.659消费价格-.273-.235-.280-.135-.2531.000.763-.125商品零售-.264-.593-.359-.539.022.7631.000-.192工业产值.874.363.792.104.659-.125-.1921.000a.Determinant=1.133E-04在Communalities中,给出了因子载荷阵的初始主成分方差(Initial)和提取主成分方差(Extraction),后面将会看到它们的含义。CommunalitiesInitialExtraction国内生产1.000.945居民消费1.000.800固定资产1.000.902职工工资1.000.875货物周转1.000.857消费价格1.000.957商品零售1.000.929工业产值1.000.903ExtractionMethod:PrincipalComponentAnalysis.
在TotalVarianceExplained(全部解释方差)表的InitialEigenvalues(初始特征根)中,给出了按顺序排列的主成分得分的方差(Tota1),在数值上等于相关系数矩阵的各个特征根久,因此可以直接根据特征根计算每一个主成分的方差百分比(%ofVariance)。由于全部特征根的总和等于变量数目,即有m=E2=8,故第一个特征根的方差百分比为人/m=3.755/8=46.939,第二个特征根的百分比为m=2.197/8=27.459,……,其余依此类推。然后可以算出方差累计值(Cumulative%)。在ExtractionSumsofSquaredLoadings,给出了从左边栏目中提取的三个主成分及有关参数,提取的原则是满足2>1,这一点我们在图6所示的对话框中进行了限定。eulavnegiExtractionMethod:PrincipalComponentAnalysis.eulavnegiExtractionMethod:PrincipalComponentAnalysis.TotalVArianceExplainedComponentInitialEigenvaluesExtractionSumsofSquaredLoadinqsTotal%ofVarianeeCumulative%Total%ofVarianeeCumulative%13.75546.93946.9393.75546.93946.93922.19727.45974.3982.19727.45974.39831.21515.18689.5841.21515.18689.5844.4025.03194.6155.2132.66097.2756.1381.72498.99976.5E-02.81899.81781.5E-02.183100.000主成分的数目可以根据相关系数矩阵的特征根来判定,如前所说,相关系数矩阵的特征根刚好等于主成分的方差,而方差是变量数据蕴涵信息的重要判据之一。根据I值决定主成分数目的准则有三:i只取;>1的特征根对应的主成分从TotalVarianceExplained表中可见,第一、第二和第三个主成分对应的久值都大于1,这意味着这三个主成分得分的方差都大于1。本例正是根据这条准则提取主成分的。ii累计百分比达到80%~85%以上的2值对应的主成分在TotalVarianceExplained表可以看出,前三个主成分对应的久值累计百分比达到89.584%,这暗示只要选取三个主成分,信息量就够了。iii根据特征根变化的突变点决定主成分的数量从特征根分布的折线图(ScreePlot)上可以看到,第4个久值是一个明显的折点,这暗示选取的主成分数目应有PW4(图8)。那么,究竟是3个还是4个呢?根据前面两条准则,选3个大致合适(但小有问题)。在ComponentMatrix(成分矩阵)中,给出了主成分载荷矩阵,每一列载荷值都显示了各个变量与有关主成分的相关系数。以第一列为例,0.885实际上是国内生产总值(GDP)与第一个主成分的相关系数。将标准化的GDP数据与第一主成分得分进行回归,决定系数R2=0.783(图9),容易算出R=0.885,这正是GDP在第一个主成分上的载荷。ComponentMatrbaComponent123国内生产.885.384.121居民消费.607-.598.271固定资产.912.161.212职工工资.466-.722.368货物周转.486.738-.275消费价格-.509.252.797商品零售-.620.594.438工业产值.823.427.211ExtractionMethod:PrincipalComponentAnalysis.a.3componentsextracted.下面将主成分载荷矩阵拷贝到Excel上面作进一步的处理:计算公因子方差和方差贡献。首先求行平方和,例如,第一行的平方和为h12=0.88492+0.38362+0.12092=0.9449这是公因子方差。然后求列平方和,例如,第一列的平方和为S]2=0.88492+0.60672+・・・+0.82272=3.7551这便是方差贡献(图10)。在Excel中有一个计算平方和的命令sumsq,可以方便地算出一组数据的平方和。显然,列平方和即方差贡献。事实上,有如下关系成立:相关系数矩阵的特征根=方差贡献=主成分得分的方差至于行平方和,显然与前面Communalities表中的Extraction列对应的数据一样。如果我们将8个主成分全部提取,贝性成分载荷的行平方和都等于1(图11),即有h=1,Sj
=卯到此可以明白:在Communalities中,Initia1对应的是初始公因子方差,实际上是全部主成分的公因子方差;Extraction对应的是提取的主成分的公因子方差,我们提取了3个主成分,故计算公因子方差时只考虑3个主成分。值总产生内国-4第一主成分O543210123---值总产生内国-4第一主成分O543210123---图9国内生产总值(GDP)的与第一主成分的相关关系(标准化数据)ACDE5第主成分第一主成分第二主成分公因子方差6国內生产0.SS49000.3S36190.12088&0.9448247居艮消费0.606719-0.5981770.2713130.7995348固定资产0.9116S70.1611060.211^970.902071g职工工资0.466222-0.7224100.3&7^380.87461710贺物周转0.4050310.730275-0.2752520.85684511消费价格-0.50S5630.2519090.79&&3S0.95671812商品零售-0.6195090.5943750.4375550.92862713工业产值0.S227290.4267370.210^700.90349614方差責就3.7551332.196T041.2148957.166T3315特征根3.7551332.1967041.214S957.166733图10主成分方差与方差贡献
ComponentMatriWComponent12345678国内生产.885.384.121-.203-6.87E-021.143E-022.420E-029.192E-02居民消费.607-.598.271.409-7.61E-02.1575.525E-021.317E-02固定资产.912.161.212-.270-7.71E-028.271E-028.113E-02-7.36E-02职工工资.466-.722.368-.164.304-1.64E-02-7.62E-023.949E-03货物周转.486.738-.275.212.3052.254E-026.855E-02-6.02E-03消费价格-.509.252.797.0722.716E-02-.161.1072.435E-03商品零售-.620.594.438-.0273.531E-02.247-9.23E-021.634E-03工业产值.823.427.211.209-9.38E-02-.137-.157-2.30E-02ExtractionMethod:PrincipalComponentAnalysis.a.8componentsextracted.AECDEFGHIJ112345678公因手方差2国内生产U.BB490.3B350.1209-i.-U.UtHY0.0114U.i.uyiy13居商肖费0.G0G7-0.5DQ0.2712C.4005-0.07G10.15CQ0.0552C.013214固定瓷立0.9117n.:ahA.217-0.2705-0.0771门一件70.0011-A.H7415职工工资0.4662-0.722(i.3679-C.16350.30421-0.016-0.075C.003916货物周转0.4B580.73B3-0.27E0.21184:0.305020.02250.0685-0.00617涓费价格-1).5090.2519(i.736£0.071760.02716-0.1£10.1071C.002418-0.620.59440.4376-C.02670.03531Q.24:tS-Q.OSZ0.001619工业产值0.S2270.<2670.2110.20SSS-0.0C-3S-0.1E7-0.157-0.0231103.75512.19671.21490.402440,21280,1380.06540.0146f?11特征棍3.75512.19671.21490.402440.21280.1380.0654C.01461.133E-D4图11全部主成分的公因子方差和方差贡献提取主成分的原则上要求公因子方差的各个数值尽可能接近,亦即要求它们的方差极小,当公因子方差完全相等时,它们的方差为0,这就达到完美状态。实际应用中,只要公因子方差数值彼此接近(不相差太远)就行了。从上面给出的结果可以看出:提取3个主成分的时候,居民消费的公因子方差偏小,这暗示提取3个主成分,居民消费方面的信息可能有较多的损失。至于方差贡献,反映对应主成分的重要程度,这一点从方差的统计学意义可以得到理解。在图11中,将最后一行的特征根全部乘到一起,得0.0001133,这正是相关系数矩阵的行列式数值(在Exce1中,求一组数据的乘积之和的命令是product)。最后说明ComponentScoreCoefficientMatrix(成分得分系数矩阵)和ComponentScoreCovarianceMatrixC成分得分协方差矩阵),前者是主成分得分系数,后者是主成分得分的协方差即相关系数。从ComponentScoreCovarianceMatrix可以看出,标准化主成分得分之间的协方差即相关系数为0(jHk)或1(j=k),这意味着主成分之间彼此正交即垂直。初学者常将ComponentScoreCoefficientMatrix表中的数据当成主成分得分或因子得分,这是误会。成分得分系数矩阵的数值是主成分载荷除以相应的特征根得到的结果。在ComponentMatrix表中,将第一列数据分别除以2]=3.755,第二列数值分别除以久2=2.197,…,立即得到ComponentScoreCoefficient;反过来,如果将ComponentScoreCoefficientMatrix表中的各列数据分别乘以人=3.755,22=2.197,…,则可将其还原为主成分载荷即ComponentMatrix中
的数据。ComponentScoreCoefficientMatrixComponent123国内生产.236.175.100居民消费.162-.272.223固定资产.243.073.174职工工资.124-.329.303货物周转.129.336-.227消费价格-.135.115.656商品零售-.165.271.360工业产值.219.194.174ExtractionMethod:PrincipalComponentAnalysis.ComponentScores.ComponentScoeCovarianceMatixComponent12311.000.000.0002.0001.000.0003.000.0001.000ExtractionMethod:PrincipalComponentAnalysis.ComponentScores.实际上,主成分得分在原始数据所在的SPSS当前数据栏中给出,不过给出的都是标准化的主成分得分(图12a);将各个主成分乘以相应的J;即特征根的二次方根可以将其还原为未经标准化的主成分得分。
得分1得分1得分2得分订.42743-1.52320.49020.33935-1.7B001-1.062G4700551.50632■1.19211-.51028.26269-.51B33-.83667.4BB24-.34594.85822.65619-.56565-.19950-.2B604-1.09746.27330.22855-.642881.64990-2.211322.615
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025机械设备的买卖合同
- 洛阳理工学院《工科大学化学-物理化学(二)》2023-2024学年第一学期期末试卷
- 污水处理厂导向钻进施工合同
- 墙绘施工合同范本
- 教育培训机构劳务管理
- 食品企业财务健康检查
- 2024年动力煤进口清关共享成功之道!3篇
- 广西壮族自治区河池市2023-2024学年高一上学期1月期末考试数学试题(解析版)
- 医疗器械招投标管理规范
- 医药招投标项目招标文件编制
- 国家开放大学电大《建筑制图基础》机考三套标准题库及答案3
- 降低故障工单回复不合格率
- 可涂色简笔画打印(共20页)
- 灯光架介绍及使用说明
- 十一学校行动纲要
- GB 1886.6-2016 食品安全国家标准 食品添加剂 硫酸钙(高清版)
- 关于房屋征收及土地收储过程中的税收政策(仅供参考)
- 唯一住房补贴申请书(共2页)
- 单面多轴钻孔组合机床动力滑台液压系统课程设计
- 中医养生脾胃为先PPT文档
- 门窗工程成品保护方案(附图)
评论
0/150
提交评论