


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主成分分析在SPSS中的操作应用(上)更新时间:2005-12-216:47:43关注指数:2811一、引言主成分分析和因子分析在社会经济统计综合评价中是两个常被使用的统计分析方法。现在SPSSSAS等统计软件使用越来越普遍,但SPSS并未像SAS一样,将主成分分析与因子分析作为两个独立的方法并列处理注:主成分分析与因子分析二者是又有着区别与联系,最主要的不同在于它们的数学模型的构建上,具体区别请见参考文献2,而是根据二者之间的关系有机地将主成分分析嵌入到因子分析之中,这样虽然简化了分析程序,却为主成分分析的计算带来不便。且国内许多SPSS教程并没有详细讲解如果应用SPSS进行主成分分析,如何
2、使用SPSS对主成分分析进行计算呢?为使读者能够正确使用SPSS软件进行主成分分析,本文将通过一个实例来详细介绍如何用SPSS做主成分分析。接下来先简单介绍主成分分析原理与模型,以便读者对主成分分析有个大致的了解。二、主成分分析原理和模型1(_)主分成分析原理主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用Fi(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Varg)越大,表示Fi包含的信息越多。因此在所有的线性组合中选取的巳应该是方差最大
3、的,故称Fi为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,Fi已有的信息就不需购出现再F2中,用数学语言表达就是要求Cov(Fi,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,第P分主成分。(二)主成分分析数学模型F2=a2ZX+&ZX+ap2ZX>Fp=aimZX1+a2mZX2+apmZXp其中a1i,a2i,,a(i=1,,mbX的协方差阵2的特征值多对应的特征向量,ZXi,ZX2,ZXpM原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的
4、影响,而将原始数据标准化,本文所采用的数据就存在量纲影响注:本文指的数据标准化是指Z标准化。A=(aij)pxm=(a1,a2,am,),Ra=;jai,R为相关系数矩阵,A、ai是相应的特征值和单位特征向量,1A2切>p>0。进行主成分分析主要步骤如下:指标数据标准化(SPSS软件自动执行);指标之间的相关性判定;确定主成分个数m;主成分Fi表达式;主成分Fi命名;主成分与综合主成分(评价)值。三、对沿海10个省市经济综合指标进行主成分分析(_)指标选取原则本文所选取的数据来自中国统计年鉴2003中2002年的统计数据在沿海10省市经济状况主要指标体系中选取了10个指标:XiGD
5、PX2人均GDPX3农业增加值X4工业增加值X5第三产业增加值X6固定资产投资X7基本建设投资X8国内生产总值占全国比重(%)X9海关出口总额X10地方财政收入图表1沿海10个省市经济数据地区GDP人均GDP农业增加值工业增加值卅二广业增加值固定资产投资基本建设投资社会消费品零售总额海关出口总额地方财政收入辽宁5458.21300014883.31376.2:>258.41315.95292258.4123.7399.7山东105501164313903502.538512288.71070.73181.9211.1610.2河北6076.69047950.21406.7:2092.61
6、161.6597.11)68.345.9302.3天津2022.62206883.9822.8960703.7361.9941.4115.7171.8江苏10636143971122.63536.33967.223201141.33215.8384.7643.7上海5408.84062786.22196.2:2755.81970.2779.32()35.232>0.5709浙江7670165706802356.530652296.61180.62877.5294.2566.9福建4682135106631047.11859964.5397.91663.3173.7272.91177015
7、0301023.94224.64793.63022.91275.55013.61843.71202广西2437.25062591.4367995.7542.2352.71025.515.1186.7(二)主成分分析在SPSS中的具体操作步骤运用SPSS统计分析软件Factor过程2对沿海10个省市经济综合指标进行主成分分析。具体操作步骤如下:AnalyzeDataReductionFactorAnalysis,弹出FactorAnalysis对话框把XiX10选入Variables框Descriptives:CorrelationMatrix框组中选中Coefficients,然后点击Cont
8、inue,返回FactorAnalysis对话框点击“OKSMUiCt图表2FactorAnalyze对话框与Descriptives子对话框*tatfTvmKiQdBWUH她IWQE*LMC-ancBartWI':testJsjEicIvSPSS在调用FactorAnalyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。图表3相关系数矩阵Err比做Minix人曲3»PXItl工业#JQf产IMFas*
9、零害H曲MA口g朋收Awg即阿AflGDP,醐ionIMla.邮HIMS.mMl:&业耳施也-.0H1711.000.133侦-.098.IK.ODD5OKI'frtjtoiiW411-w14(0Mis»TO5删时*,岫wm963?MS3)im帅州J51寝度蜓憧JP13M3.1M.944JT1udN».m624Ml94L*3m蜘胃财口Mtv091-11170JJMrn州1000MtJ93f.硕J9».倒1JD0I图表4方差分解主成分提取分析表TotalVarianceExpliinedkutiilEi$tnAbJitExmaianSum?cfSqm
10、ndLouMpCjQXfianEritTotal%ofWiajze1CumHatiw%lota%ofVariMj®CUmtktjm*)7.2307273JIU7.3207讪mas31.3512J4651.5511.2f773.id?33.31941*(6mwj5.C8j.8J*99.64015.Cll.21»J50C12一g019»J98口(Cl100.00010.0)0ooo1D0100EktracticnMethod:Coa±pcniert.主成分分析在SPSS中的操作应用(下)更新时间:2005-12-2520:42:35
11、关注指数:1904图表5初始因子载荷矩阵CoimponeniMatrix1Component12SP195人均GDP.112-J824农业增加值'.103,77工业增加值-.005第三产业增加值一9跖.070固定赞产投资朝-彻基本邃设投资一9W-.024社合消费品零售分翻.977176海关出口总颤.300-C5I地方财政收入.954-128ExiractioTiMetliod;FiuicipalCcmpomentAiwlysifl2就t也从图表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口
12、总额存在着显著关系。可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。注:特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。通过图表4(方差分解主成分提取分析)可知,提取2个主成分,即m=2,从图表5(初始因子载荷矩阵)可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷,说明第一主成分基本反映了这些指标的信
13、息;人均GDP和农业增加值指标在第二主成分上有较高载荷,说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息,所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到,因为“ComponentMatrix”是指初始因子载荷矩阵,每一个载荷量表示主成分与对应变量的相关系数。用图表5(主成分载荷矩阵)中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数2。将初始因子载荷矩阵中的两列数据输入(可用复制粘贴的方法)到数据编辑窗口(为变量B1、B2),然后利用“TransformaCompu
14、teVariable”,在ComputeVariable对话框中输入“A1=B1/SQR(7.22)”二:第二主成分SQR后的括号中填1.235,即可得到特征向量A1(见图表6)。同理,可得到特征向量A2。将得到的特征向量与标准化后的数据相乘,然后就可以得出主成分表达式注:因本例只是为了说明如何在SPSS进行主成分分析,故在此不对提取的主成分进行命名,有兴趣的读者可自行命名:Fi=0.353ZXi+0.042ZX2-0.041ZX3+0.364ZX4+0.367ZX5+0.366ZX6+0.352ZX7+0.364ZX8+0.298ZX9+0.355ZX10F2=0.175ZXi-0.741Z
15、X2+0.609ZX3-0.004ZX4+0.063ZX5-0.061ZX6-0.022ZX7+0.158ZX8-0.046ZX9-0.115ZX10图表6ComputeVariable对话框AnalyzeaDescriptiveStatisticsa前文提到SPSS会自动对数据进行标准化,但不会直接给出,需要我们自己另外算,我们可以通过Descriptives对话框来实现:弹出Descriptives对话框后,把XiX10选入Variables框,在Savestandardizedvaluesasvariables前的方框打上钩,点击"OK,经标准化的数据会自动填入数据窗口中,并以
16、Z开头命名。图表7Descriptives对话框以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型:十勺8十七即可得到主成分综合模型:F=0.327ZX1-0.072ZX2+0.054ZX3+0.310ZX4+0.323ZX5+0.304ZX6+0.297ZX7+0.334ZX8+0.248ZX9+0.286ZX10根据主成分综合模型即可计算综合主成分值,并对其按综合主成分值进行排序,即可对各地区进行综合评价比较,结果见图表8图表8综合主成分值城市第一主成分F1排名1第二主成分F2排名综合主成分F排名5.2310.1164.481江苏2.2520.2351.96r2山东1.9630.5021.753浙江1.164-0.1980.964上海0.30r51-2.3610-0.09r5辽宁-1.2461.961-0.786河北-1.3570.414-1.107福建-1.97r8:-0.077-1.70r8天津-3.049-1.019-2.749广西-3.29100.413-2.7510对得出的综合主成分(评价)值,我们可用实际结果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版数学六年级下册总复习综合练习(数与代数)1-7
- 广东省揭阳市华侨高级中学2025届高三冲刺高考最后1卷物理试题含解析
- 昆明卫生职业学院《交通运输商务管理》2023-2024学年第二学期期末试卷
- 贵州城市职业学院《汽车保险与理赔》2023-2024学年第二学期期末试卷
- 应收账款流程管理图解
- 上海建桥学院《声乐》2023-2024学年第一学期期末试卷
- 西安科技大学《兽医微生物学》2023-2024学年第二学期期末试卷
- 海南比勒费尔德应用科学大学《西方文艺美学专题》2023-2024学年第二学期期末试卷
- 湖北省荆门市京山市2025年数学五年级第二学期期末复习检测模拟试题含答案
- 股骨干骨折中医护理查房
- 2024年宁波职业技术学院单招职业适应性测试题库及答案解析
- 中华民族共同体概论课件专家版7第七讲 华夷一体与中华民族空前繁盛(隋唐五代时期)
- 安全生产目标考核表
- 2024水资源论证区域评估技术指南
- 土石方工程施工组织设计范文样本
- 第3课古代西亚非洲文化教学设计-高中历史选择性必修三
- 文体中心项目策划方案
- 中药饮片处方审核培训课件
- PVC检测报告(外发)
- 幼儿园大班音乐《建筑之歌》
- 智能化弱电工程深化设计工作流程
评论
0/150
提交评论