版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主成分分析在SPSS中的操作应用上更新时间:2005-12-2 16:47:43关注指数:2811一、引言主成分分析和因子分析在社会经济统计综合评价中是两个常被使用的统计分析方法.现在SPSS SAS等统计软件使用越来越普遍,但SPSS并未像SAS 一样,将主成分分析与因子分析作为两个独立的方法并列处理注:主成分分析与因子分析二者是又有着区别与联系,最主要的不同在于它们的数学模型的构建上,具体区别请见参考文献2,而是根据二者之间的关系有机地将主成分分析嵌入到因子分析之中,这样虽然简化了分析程序,却为主成分分析的计算带来不便.且国内许多SPSS教程并没有详细讲解如果应用SPSS进行主成分分析,如
2、何使用SPSS对主成分分析进行计算呢?为使读者能够正确使用SPSS软件进行主成分分析,本文将通过一个实例来详细介绍如何用SPSS做主成分分析.接下来先简单介绍主成分分析原理与模型,以便读者对主成分分析有个大致的了解.二、主成分分析原理和模型 1一主分成分析原理主成分分析是设法将原来众多具有一定相关性比方P个指标,重新组合成一组新的互相无关的综合指标来代替原来的指标.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标.最经典的做法就是用F1 选取的第一个线性组合,即第一个综合指标的方差来表达,即 VarF.越大,表示F1包含的信息越多.因此在所有的线性组合中选取的R应该是方差最大的,
3、故称 R为第一主成分.如果第一主成分缺乏以代表原来 P个指标的信息,再考虑选取 F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再 F2中,用数学语言表达就是要求 CovF1, F2=0,那么称F2为第二主成分,依此类推可以构造出第三、第四, ,第 P个主成分.二主成分分析数学模型 F2=a2ZX+&2ZX+ap2ZXFp=aimZX1+a2mZX2+apmZXp其中a1i, aa,ai=1,2? X的协方差阵W的特征值多对应的特征向量,ZX1, ZX 2,ZX混原始变量经过标准化处理的值, 由于在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量
4、纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响注:本文指的数据标准化是指Z标准化.A=aijpxm=a1,a2,am, Ra='ai, R为相关系数矩阵,九、ai是相应的特征值和单位特征向量,1*归冷冷0.进行主成分分析主要步骤如下:1. 指标数据标准化SPSS软件自动执行;2. 指标之间的相关性判定;3. 确定主成分个数m;4. 主成分Fi表达式;5. 主成分Fi命名;主成分与综合主成分评价值.三、对沿海10个省市经济综合指标进行主成分分析一指标选取原那么本文所选取的数据来自?中国统计年鉴2003?中2002年的统计数据,在沿海10省市经济状况主要指标体系中选取了10个
5、指标:Xi GDPX2人均GDPX3农业增加值X4工业增加值X5第三产业增加值X 6固定资产投资X7根本建设投资X8国内生产总值占全国比重 X9海关出口总额 X10地方财政收入图表1沿海10个省市经济数据地区GDP人均GDP农业增 加值工业增 加值第二产业增加 值固定资 产投资根本建设投资社会消 费品零 售总额海关出 口总额地方 财政 收入辽宁5458.21300014883.31376.2 :>258.41315.95292258.4123.7 399.7山东105501164313903502.538512288.71070.73181.9211.1 610.2河E6076.6904
6、7950.21406.7 :2092.61161.6597.1 1)68.345.9302.3天津2022.62206883.9822.8960703.7361.9941.4115.7171.8江苏1063614397 1122.6 3536.3 3967.223201141.33215.8384.7 643.7上海5408.84062786.22196.2 :>755.81970.2779.3 2()35.2 32>0,5709浙工7670165706802356.530652296.61180.62877.5294.2 566.9福建4682135106631047.11859
7、964.51397.9 1663.3 173.7 272.91177015030 1023.9 4224.6 4793.63022.91275.55013.61843.71202广西2437.25062591.4367995.7542.2352.7 1025.515.1186.7二主成分分析在 SPSS中的具体操作步骤运用SPSS统计分析软件Factor过程2对沿海10个省市经济综合指标进行主成分分析.具体操作步骤如下:1. Analyze Data Reduction Factor Analysis ,弹出 Factor Analysis 对话框2. 把 Xi Xio选入 Variables
8、 框3. Descriptives: Correlation Matrix 框组中选中 Coefficients ,然后点击 Continue,返回 Factor Analysis 对话框4. 点击“OK图表2 Factor Analyze对话才I与Descriptives子对话框呈MvmKi 期剧遵QtiEmrwnl如 nugt LMC -anc BartMl':此w M 审mic如SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后白变量,但SPSS不会直接给出标准化后的数据,如需要得到
9、标准化数据,那么需调用Descriptives过程进行计算.图表3相关系数矩阵Cvnrlainii Mitru皿大也 3»P用信工业*JQf家三产业 期0笆否认宣产IMFas*零舌百曲MA口多到时的人w侬组皿带A fl GDP,即ionla.箕H4&n.mMl3nH业国加由-.0H1711.000.133-.098.IK.ODD5on工业加由W411-w1皿踊1幅s»TO5蒯年三产ilk假设仪9n哂,物wmw963?M料$im手日膂季打通JU掰木庵我投案JP13mm.H69沿.94<.inudN».art624Ml右会看野品牙语豆潮XI.的城岫mw*
10、冏席奥黑口更身即091-13J70JJMrn63pl041000即.削*J9»值.妫1朔1J00I图表4方差分解主成分提取分析表Total Variance ExpliinedCjQXfianEritkutiklEi$tnAbJi$Exmaian Sum? cf Sqmnd LouMpTotal% of Wiajze1CunuMi班 %lota% of VariMj®)7.230n朝73,2057.3207制暗修.as212J4651.5511.2M13316S1,J513,f77a. id?933 U4.14714(69QJM5,C8j.钻499.6406.口 1,21&
11、#187;J50?C12二小g70g.如019血瞰g(Cl心100,00010,0)0ooo100 QOQEktracticn Method:Coa±pcniert 期卬sis.主成分分析在SPSS中的操作应用下更新时间:2005-12-25 20:42:35 关注指数:1904图表5初始因子载荷矩阵Coimponeiil Matrix1CompoiiEiit篁P9哂195人均GDP.112.S24农业增加值77工业赠加值一9瑞-.C05第三产业噌加值.彻,070固定密产投资3的-JM根本建设投资.94,7.024社会消费品零售总刷.977176簿关出口总颜.SOO-C5I地方财政收
12、入.954-128ExiractioTi Metliod; Fiuicipal Ccmpoment Aiwlysif士 2从图表3可知GDP与工业增加值,第三产业增加值、固定资产投资、根本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系.可见许多变量之间直接的相关性比拟强,证实他们存在信息上的重叠.主成分个数提取原那么为主成分对应的特征值大于1的前m个主成分.注:特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准
13、.通过图表 4 方差分解主成分提取分析可知,提取 2个主成分,即 m=2,从图表5 初始因子载荷矩阵可知 GDP、 工业增加值、第三产业增加值、固定资产投资、根本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有 较高载荷,说明第一主成分根本反映了这些指标的信息;人均GDP和农业增加值指标在第二主成分上有较高载荷,说明第二主成分根本反映了人均GDP和农业增加值两个指标的信息.所以提取两个主成分是可以根本反映全部指标的信息,所以决定用两个新变量来代替原来的十个变量.但这两个新变量的表达还不能从输出窗口中直接得到,由于“Component Matrix 是指初始因子载荷矩阵,
14、每一个载荷量表示主成分与对应变量的相关系数.用图表5 主成分载荷矩阵中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数2.将初始因子载荷矩阵中的两列数据输入可用复制粘贴的方法到数据编辑窗口为变量B1、B2,然后利用“Transform a Compute Variable ,在Compute Variable 对话框中输入 “A1=B1/SQR7.22 注:第二主成分 SQR后的括号中填1.235,即可得到特征向量 A1见图表6. 同理,可得到特征向量 A2.将得到的特征向量与标准化后的数据相乘,然后就可以得出主成分表达式注:因本例只是为了说明如何在SPSS进行主成
15、分分析,故在此不对提取的主成分进行命名,有兴趣的读者可自行命名:F1=0.353ZX 1 +0.042ZX 2-0.041ZX 3+0.364ZX 4+0.367ZX 5+0.366ZX 6+0.352ZX 7+0.364ZX 8+0.298ZX 9+0.355ZX 10F2=0.175ZX 1-0.741ZX 2+0.609ZX 3-0.004ZX 4+0.063ZX 5-0.061ZX 6-0.022ZX 7+0.158ZX 8-0.046ZX 9-0.115ZX 10图表 6 Compute Variable 对话框Analyze a Descriptive Statistics a前文
16、提到SPSS会自动对数据进行标准化,但不会直接给出,需要我们自己另外算,我们可以通过Descriptives 对话框来实现:弹出 Descriptives 对话框后,把 Xi Xio 选入 Variables 框,在 Save standardized values as variables 前的方框打上钩,点击“OK,经标准化的数据会自动填入数据窗口中,并以Z开头命名.图表7 Descriptives对话框以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型:即可得到主成分综合模型:F=0.327ZX 1-0.072ZX 2+0.054ZX 3+0.310Z
17、X 4+0.323ZX 5+0.304ZX 6+0.297ZX 7+0.334ZX 8+0.248ZX 9+0.286ZX 10根据主成分综合模型即可计算综合主成分值,并对其按综合主成分值进行排序,即可对各地区进行综合评价比拟,结果见图表图表8综合主成分值城巾第一主成分Fi;排名1第二主成分F2排名综合主成分F;排名5.2310.1164.481江苏2.2520.2351.96r 2山东1.9630.5021.753浙江1.164-0.1980.964上海0.30r 51-2.3610-0.09r 5辽宁-1.2461.961-0.786河北-1.3570.414-1.107福建-1.97r 8 :-0.077-1.70:8天津-3.049-1.019-2.749广西-3.29100.413-2.7510对得出的综合主成分评价值,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年克孜勒苏州b2货运资格证多少道题
- 企业内部的安全文化建设路径与措施
- 创意无限教育领域展会宣传海报设计技巧
- 儿童假期的作息与健康生活的平衡
- 2025年曲靖货车丛业资格证考试题
- 创新产品全案设计从概念到市场的完整流程
- 从需求出发媒体行业设备及软件购买新思维
- 个人成长与减肥过程中的心理调适
- 以科技引领推进小区儿童安全教育普及
- 利用在线工具培养孩子的音乐与舞蹈能力
- 品质管控流程PPT课件.pptx
- 《厨余垃圾处理厂运行监管标准》(征求意见稿)
- 面瘫诊治指南
- 精品专题资料(2022-2023年收藏)广东省教育科学规划项目中期检查报告书马远生
- 风电项目监理大纲附录风电工程设备监理项目表
- 《混凝土结构》(楼盖)课程设计任务书
- 邵雍河洛理数解卦
- 二年级上,数学,3个两位数加减,80题,(竖式计算)
- 赵本山《卖拐》台词
- 上海建设工程通用硅酸盐水泥质量检验报告 - 上海水泥行业协会
- 工程测量英语常用词汇
评论
0/150
提交评论