SPSS在主成分分析中的应用_第1页
SPSS在主成分分析中的应用_第2页
SPSS在主成分分析中的应用_第3页
SPSS在主成分分析中的应用_第4页
SPSS在主成分分析中的应用_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1SPSS 在主成分分析中的应用一、主成分分析引入冯士雍研究员(统计学家)的一个关于“中国人体型分类与国家标准以及服装号码判定”的科研项目(1986-1990 五年间,随机采访了 15200 人左右,得到了 10622 份有效数据(其中男生5115,女生 5507)表一 上衣的 8 个人体部位尺寸的均值与标准差以及条件标准差男生个体(5115)部位 Mean.Std身高给定后的条件 .Std身高和胸围给定后的条件 .Std身高 167.48 6.09 - -颈椎点高 142.91 5.60 1.36 1.34腰围高 100.58 4.44 1.84 1.83坐姿颈椎点高 65.61 2.67 1.74 1.71颈围 36.83 2.11 2.06 1.68胸围 87.53 5.55 5.24 -肩宽 43.24 2.75 2.47 2.25臂长 54.53 3.04 2.23 2.23表二 身高和胸围给定后的条件期望成年男子2颈椎点高 -7.985+0.877*身高+0.0451*胸围腰围高 -8.881+0.677*身高-0.0452*胸围坐姿颈椎点高 7.623+0.315*身高+0.059* 胸围颈围 16.252+0.0047*身高+0.226*胸围肩宽 2.863+0.141*身高+0.192* 胸围臂长 -2.667+0.377*身高+0.0096*胸围二、主成分分析的原理。主成分分析是设法将原来众多具有一定相关性(比如 个指标) ,重新组合p成一组新的互相无关的综合指标来代替原来的指标。 通常数学上的处理就是将原来 个指标作线性组合,作为新的综合指标。最经典的做法就是用 (选取p 1F的第一个线性组合,即第一个综合指标)的方差来表达,即 越大,表示)(Var包含的信息越多。因此在所有的线性组合中选取的 应该是方差最大的,故1F 1F称 为第一主成分。如果第一主成分不足以代表原来 个指标的信息,再考虑p选取 即选第二个线性组合,为了有效地反映原来信息, 已有的信息就不需2 1要再出现在 中,用数学语言表达就是要求 ,则称 为第二主F 0),(21FCov2成分,依此类推可以构造出第三、第四,第 个主成分。 p主成分模型: ppp pXaaXF 21221211满足以下条件:1.每个主成分系数平方和为 1,即: ),21(21 mipiii 2.主成分之前互不相关,即: 0),cov(i3.主成分方差依次递减,即 )(21pFVarrFVa三利用 SPSS 进行主成成分分析实例3影响农村经济发展的因素很多,要综合各方面影响来对湖北省 17 个市(地区)的农村经济进行准确的描述,必须构建合适的指标体系。结合前人研究,依据全面性、整合性、代表性和数据易获得性等原则设计与选取具有代表性的14 个农村经济指标建立如下指标体系:常用耕地面积 (千公顷) 、人均农用1X机械总动力 (千瓦) 、单位耕地面积化肥使用量 (千克/ 公顷)、农村人均用2X3电量 (千瓦时) 、有效灌溉面积 (千公顷) 、农作物总播种面积 (千公4 5X6X顷) 、农村全社会固定资产投资 (亿元)、农林水利一般性预算支出 (亿元)、7 8农村居民人均纯收入 (元)、农村居民人均生活性支出 (元)、农村人均住房9 10面积 (平方米) 、农林牧渔业总产值 (亿元)、金融机构农业贷款 (亿元)、1X12 13医院卫生院总床位数 (张)数据来源于中国区域经济统计年鉴 2009和14X湖北农村统计年鉴 2009 (见表 1) 。第一步:录入或调入数据(图 1) 。表 1 2008 年湖北省各市农村经济发展指标Table 1 Rural economical development indexes of Hubei cities on 2008地区名称Area 1X/千公顷2/千瓦3/千克/公顷4X/千瓦时5/千公顷6/千公顷7X/亿元8/亿元9/元10X/元/平方米12/亿元3X/亿元14/张武汉市 207.80.779.0478.8161.2554.849.620.36349475545.8244.666.835690黄石市 87.10.452.2623.937.8208.516.54566.58.98004十堰市 167.80.469.7108.636.3413.412.07.82841264229.596.437.111271宜昌市 227.60.8147.6228.0101.6545.867.912.44686382244.6226.845.412086襄樊市 421.71.2114.6143.9228.3866.735.210.64880351335.7321.332.314627鄂州市 41.20.6282.6367.228.3116.04.22.25096332337.072.010.82905荆门市 255.81.6104.8269.4181.2565.117.07.35332453436.2226.623.27462孝感市 4260.0 0.5 81.5 154.1 221.6 569.7 42.5 4.2 4636 3598 32.3 231.0 25.0 7920荆州市 462.20.877.8235.4387.9973.436.291335.733.413425黄冈市 328.30.3131.7389.2225.0891.630.913.23744351341.5302.042.811995咸宁市 153.60.571.2153.784.7376.436.37.34411346040.4134.814.85024随州市 136.50.8114.1131.0130.0299.333.44.04967403536.1121.119.03796恩施土家族苗族自治州255.70.487.889.554.3681.515.110.62519247239.4140.722.89642仙桃市 90.11.185.3310.086.5211.111.53.35247354733.677.27.81959天门市 107.00.969.4130.1107.0217.910.52.04760376837.770.66.72244潜江市 68.41.1128.6247.255.1142.99.32.74929320837.262.24.22730神农架林区6.21.3567.0173.70.110.40.30.73330313835.92.11.2120数据来源:由中国区域经济统计年鉴 2009和湖北农村统计年鉴 2009整理得到第二步:为了消除量刚影响,首先实行标准化,然后打开“因子分析”对话框。第三步:选项设置。 设置 Descriptives 选项。单击 Descriptives 按钮,弹出 Descriptives 对话框。5图 5 描述选项框在 Statistics 栏中选中 Univariate descriptives 复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考) ;选中Initial solution 复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用) 。在 Correlation Matrix 栏中,选中 Coefficients 复选项,则会给出原始变量的相关系数矩阵. 设置 Extraction 选项。打开 Extraction 对话框。因子提取方法主要有 7 种,在 Method 栏中可以看到,系统默认的提取方法是主成分.因此对此栏不作变动,就是认可了主成分分析方法。在 Analyze 栏中,选中 Correlation matirx 复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中 Covariance matrix 复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。在 Display 栏中,选中 Unrotated factor solution(非旋转因子解)复选项,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样。选中 Scree Plot(“ 山麓”图或“碎石”图) ,则在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名) ,以便我们直观地判定因子的提取数量是否准确。在 Extract 栏中,有 两种方法可以决定提取主成分(因子)的数目。一是根据特征根(Eigenvalues )的数值。我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。如果默认 ,则所有方差大于等于 1 的主成分将1被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将 值降低,例如取6;如果认为最后的提取的主成分数量偏多,则可以提高 值,例如取 。9.0 1.主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值的设定,要在反复试验以后才能决定第二种方法是直接指定主成分的数目即因子数目,这要选中 Number of factors 复选项。主成分的数目选多少合适?开始我们并不十分清楚。因此,首次不妨将数值设大一些,但不能超过变量数目。本例有 14 个变量,因此,最大的主成分提取数目为 14,不得超过此数。在我们第一轮分析中,采用系统默认的方法提取主成分。需要注意的是:主成分计算是利用迭代(Iterations)方法,系统默认的迭代次数是 25 次。但是,当数据量较大时,25 次迭代是不够的,需要改为 50 次、100 次乃至更多。对于本例而言,变量较少,25 次迭代足够,故无需改动。设置完成以后,单击 Continue 按钮完成设置(图 6) 。 设置 Scores 设置。选中 Save as variables 栏,则分析结果中给出标准化的主成分得分(在数据表的后面) 。至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的“回归 ”(Regression)法即可。选中 Display factor score coefficient matrix,则在分析结果中给出因子得分系数矩阵及其相关矩阵。设置完成以后,单击 Continue 按钮完成设置(图 7) 。 其它。7对于主成分分析而言,旋转项(Rotation)可以不必设置;对于数据没有缺失的情况下,Option 项可以不必理会。全部设置完成以后,点击 OK 确定,SPSS 很快给出计算结果。图 8 主成分分析的结果第四步,结果解读。在因子分析结果(Output)中,首先给出的 Descriptive Statistics,第一列 Mean 对应的变量的算术平均值,计算公式为 nijjx1第二列 Std. Deviation 对应的是样本标准差,计算公式为 2/11)(nijijj x第三列 Analysis N 对应是样本数目。这一组数据在分析过程中可作参考。描述统计量(标准化前)均值 标准差 分析 NVAR00001 192.7647 128.67093 17VAR00002 .7882 .37061 17VAR00003 133.2294 123.43871 17VAR00004 249.0412 145.72437 17VAR00005 125.1118 99.34075 17VAR00006 449.6765 289.58717 17VAR00007 25.2000 18.19797 17VAR00008 7.1647 5.12554 17VAR00009 4528.8235 950.97136 17VAR00010 3569.9412 566.97944 17VAR00011 37.5588 4.16909 17VAR00012 160.6824 103.24050 17VAR00013 23.6588 17.60451 17VAR00014 8876.4706 8236.17426 17描述统计量(标准化后)均值 标准差 分析 NZscore(VAR00001) .0000000 1.00000000 178Zscore(VAR00002) .0000000 1.00000000 17Zscore(VAR00003) .0000000 1.00000000 17Zscore(VAR00004) .0000000 1.00000000 17Zscore(VAR00005) .0000000 1.00000000 17Zscore(VAR00006) .0000000 1.00000000 17Zscore(VAR00007) .0000000 1.00000000 17Zscore(VAR00008) .0000000 1.00000000 17Zscore(VAR00009) .0000000 1.00000000 17Zscore(VAR00010) .0000000 1.00000000 17Zscore(VAR00011) .0000000 1.00000000 17Zscore(VAR00012) .0000000 1.00000000 17Zscore(VAR00013) .0000000 1.00000000 17Zscore(VAR00014) .0000000 1.00000000 17接下来是 Correlation Matrix(相关系数矩阵),一般而言,相关系数高的变量,大多会进入同一个主成分,但不尽然,除了相关系数外,决定变量在主成分中分布地位的因素还有数据的结构。相关系数矩阵对主成分分析具有参考价值,毕竟主成分分析是从计算相关系数矩阵的特征根开始的。给出了按顺序排列的主成分得分的方差(Total) ,在数值上等于相关系数矩阵的各个特征根 ,因此可以直接根据特征根计算每一个主成分的方差百分比(% of Variance) 。由于全部特征根的总和等于变量数目,即有 m=i=14 ,故第一个特征根的方差百分比为 1/m=6.584/14=47.028,第二个特征根的百分比为 2/m=2.497/14= 17.837,其余依此类推。然后可以算出方差累计值(Cumulative %) 。在 Extraction Sums of Squared Loadings,给出了从左边栏目中提取的三个主成分及有关参数,提取的原则是满足 1,这一点我们在图 6所示的对话框中进行了限定。解释的总方差初始特征值 a 提取平方和载入成份 合计 方差的 % 累积 % 合计 方差的 % 累积 %1 6.584 47.028 47.028 6.584 47.028 47.0282 2.497 17.837 64.864 2.497 17.837 64.8643 1.888 13.488 78.353 1.888 13.488 78.353原始4 1.013 7.234 85.587 1.013 7.234 85.5879图8 特征根数值衰减折线图(山麓图)主成分的数目可以根据相关系数矩阵的特征根来判定,如前所说,相关系数矩阵的特征根刚好等于主成分的方差,而方差是变量数据蕴涵信息的重要判据之一。根据 值决定主成分数目的准则有三:i 只取 1 的特征根对应的主成分从 Total Variance Explained 表中可见,第一、第二和第三个主成分对应的 值都大于 1,这意味着这三个主成分得分的方差都大于 1。本例正是根据这条准则提取主成分的。ii 累计百分比达到 80%85%以上的 值对应的主成分在 Total Variance Explained 表可以看出,前三个主成分对应的 值累计百分比达到 89.584%,这暗示只要选取三个主成分,信息量就够了。iii 根据特征根变化的突变点决定主成分的数量从特征根分布的折线图(Scree Plot)上可以看到,第 5 个 值是一个明显的折点,这暗示选取的主成分数目应有 p5(图 8) 。那么,究竟是 5 个还是 4个呢?根据前面两条准则,选 4 个大致合适(但小有问题) 。原始成份101 2 3 4Zscore(VAR00001) .819 -.488 .222 .008Zscore(VAR00002) -.175 .233 .786 .410Zscore(VAR00003) -.502 .099 .049 .751Zscore(VAR00004) .185 .691 -.245 -.262Zscore(VAR00005) .757 -.262 .487 -.127Zscore(VAR00006) .852 -.470 .067 .026Zscore(VAR00007) .804

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论