




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 SPSS 在主成分分析中的应用在主成分分析中的应用 摘要摘要 主成成分分析是一种对数据进行分析的技术 最重要的应用是对原有数主成成分分析是一种对数据进行分析的技术 最重要的应用是对原有数 据进行简化 本文首先对主成成分分析方法的原理进行了简单的阐述 介绍了据进行简化 本文首先对主成成分分析方法的原理进行了简单的阐述 介绍了 进行主成成分分析的工具进行主成成分分析的工具 SPSSSPSS 并以分析全国 并以分析全国 3131 个省市的个省市的 8 8 项经济目标为例 项经济目标为例 给出了详尽的分析 实验结果表明 主成成分分析能有效的将原有的复杂数据给出了详尽的分析 实验结果表明 主成成分分析能有效的将原有的复杂数据 降维 同时包含原数据的大部分信息 降维 同时包含原数据的大部分信息 关键词关键词 SPSSSPSS 主成分分析主成分分析 经济发展指标经济发展指标 1 主成分分析的原理 主成分分析是设法将原来众多具有一定相关性 比如 P 个指标 重新组合 成一组新的互相无关的综合指标来代替原来的指标 通常数学上的处理就是将 原来 P 个指标作线性组合 作为新的综合指标 最经典的做法就是用 F1 选 取的第一个线性组合 即第一个综合指标 的方差来表达 即 Var F1 越大 表 示 F1 包含的信息越多 因此在所有的线性组合中选取的 F1 应该是方差最打 的 故称 F1 为第一主成分 如果第一主成分不足以代表原来 P 个指标的信息 再考虑选取 F2 即选第二个线性组合 为了有效地反映原来信息 F1 已有的信 息就不需要再出现再 F2 中 用数学语言表达就是要求 Cov F1 F2 0 则称 F2 为第二主成分 依此类推可以构造出第三 第四 第 P 个主成分 主成分模型 pp221p1p pp22221122 p1p2211111 aaa aaa aaa XXXF XXXF XXXF pp 满足以下条件 1 每个主成分系数平方和为 1 即 2 1 1 22 2 2 1 miaaa piii 2 主成分之前互不相关 即 0 cov ii FF 3 主成分方差依次递减 即 21p FVarFVarFVar 二 利用 SPSS 进行主成成分分析实例 以全国 31 个省市的 8 项经济指标为例 进行主成分分析 第一步 录入或调入数据 图 1 2 图图 1 1 原始数据 未经标准化 原始数据 未经标准化 第二步 打开 因子分析 对话框 沿着主菜单的 Analyze Data Reduction Factor 的路径 图 2 打 开因子分析选项框 图 3 图图 2 2 打开因子分析对话框的路径打开因子分析对话框的路径 3 图图 3 3 因子分析选项框因子分析选项框 第三步 选项设置 首先 在源变量框中选中需要进行分析的变量 点击右边的箭头符号 将 需要的变量调入变量 Variables 栏中 图 3 在本例中 全部 8 个变量都 要用上 故全部调入 图 4 因无特殊需要 故不必理会 Value 栏 下 面逐项设置 图图 4 4 将变量移到变量栏以后将变量移到变量栏以后 设置 Descriptives 选项 4 单击 Descriptives 按钮 图 4 弹出 Descriptives 对话框 图 5 图 5 描述选项框 在 Statistics 栏中选中 Univariate descriptives 复选项 则输出结果中 将会给出原始数据的抽样均值 方差和样本数目 这一栏结果可供检验参考 选中 Initial solution 复选项 则会给出主成分载荷的公因子方差 这一栏数 据分析时有用 在 Correlation Matrix 栏中 选中 Coefficients 复选项 则会给出原始 变量的相关系数矩阵 分析时可参考 选中 Determinant 复选项 则会给出相 关系数矩阵的行列式 如果希望在 Excel 中对某些计算过程进行了解 可选此 项 否则用途不大 其它复选项一般不用 但在特殊情况下可以用到 本例不 选 设置完成以后 单击 Continue 按钮完成设置 图 5 设置 Extraction 选项 打开 Extraction 对话框 图 6 因子提取方法主要有 7 种 在 Method 栏 中可以看到 系统默认的提取方法是主成分 因此对此栏不作变动 就是认可了 主成分分析方法 在 Analyze 栏中 选中 Correlation matirx 复选项 则因子分析基于数据的相 关系数矩阵进行分析 如果选中 Covariance matrix 复选项 则因子分析基于 数据的协方差矩阵进行分析 对于主成分分析而言 由于数据标准化了 这两 个结果没有分别 因此任选其一即可 在 Display 栏中 选中 Unrotated factor solution 非旋转因子解 复选 项 则在分析结果中给出未经旋转的因子提取结果 对于主成分分析而言 这 5 一项选择与否都一样 对于旋转因子分析 选择此项 可将旋转前后的结果同 时给出 以便对比 选中 Scree Plot 山麓 图 则在分析结果中给出特征根按大小分布的 折线图 形如山麓截面 故得名 以便我们直观地判定因子的提取数量是否准 确 在 Extract 栏中 有两种方法可以决定提取主成分 因子 的数目 一是 根据特征根 Eigenvalues 的数值 系统默认的是 我们知道 在主成 1 c 分分析中 主成分得分的方差就是对应的特征根数值 如果默认 则所 1 c 有方差大于等于 1 的主成分将被保留 其余舍弃 如果觉得最后选取的主成分数量不 足 可以将值降低 例如取 如果认为最后的提取的主成分数量偏多 则 c 9 0 c 可以提高值 例如取 主成分数目是否合适 要在进行一轮分析以后 c 1 1 c 才能肯定 因此 特征根数值的设定 要在反复试验以后才能决定 一般而言 在初次分析时 最好降低特征根的临界值 如取 这样提取的主成 8 0 c 分将会偏多 根据初次分析的结果 在第二轮分析过程中可以调整特征根的大 小 第二种方法是直接指定主成分的数目即因子数目 这要选中 Number of factors 复选项 主成分的数目选多少合适 开始我们并不十分清楚 因此 首次不妨将数值设大一些 但不能超过变量数目 本例有 8 个变量 因此 最 大的主成分提取数目为 8 不得超过此数 在我们第一轮分析中 采用系统默 认的方法提取主成分 图图 6 6 提取对话框提取对话框 6 需要注意的是 主成分计算是利用迭代 Iterations 方法 系统默认的 迭代次数是 25 次 但是 当数据量较大时 25 次迭代是不够的 需要改为 50 次 100 次乃至更多 对于本例而言 变量较少 25 次迭代足够 故无需改动 设置完成以后 单击 Continue 按钮完成设置 图 6 设置 Scores 设置 选中 Save as variables 栏 则分析结果中给出标准化的主成分得分 在数 据表的后面 至于方法复选项 对主成分分析而言 三种方法没有分别 采用 系统默认的 回归 Regression 法即可 图图 7 7 因子得分对话框因子得分对话框 选中 Display factor score coefficient matrix 则在分析结果中给出因 子得分系数矩阵及其相关矩阵 设置完成以后 单击 Continue 按钮完成设置 图 7 其它 对于主成分分析而言 旋转项 Rotation 可以不必设置 对于数据没有 缺失的情况下 Option 项可以不必理会 全部设置完成以后 点击 OK 确定 SPSS 很快给出计算结果 图 8 7 图图 8 8 主成分分析的结果主成分分析的结果 第四步 结果解读 在因子分析结果 Output 中 首先给出的 Descriptive Statistics 第 一列 Mean 对应的变量的算术平均值 计算公式为 n i ijj x n x 1 1 第二列 Std Deviation 对应的是样本标准差 计算公式为 2 1 1 2 1 1 n i jijj xx n 第三列 Analysis N 对应是样本数目 这一组数据在分析过程中可作参考 8 Descriptive Statistics 1921 0931474 8060330 1745 933861 6419330 511 5083402 8854830 5457 6331310 2180530 666 1400459 9669930 117 28672 0253130 114 90671 8980830 862 9980584 5872630 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 MeanStd DeviationAnalysis N 接下来是 Correlation Matrix 相关系数矩阵 一般而言 相关系数高的变量 大多会进入同一个主成分 但不尽然 除了相关系数外 决定变量在主成分中 分布地位的因素还有数据的结构 相关系数矩阵对主成分分析具有参考价值 毕竟主成分分析是从计算相关系数矩阵的特征根开始的 相关系数阵下面的 Determinant 1 133E 0 4 是相关矩阵的行列式值 根据关系式可知 0 det RI det I det R 从而 Determinant 1 133E 0 4 1 2 3 4 5 6 7 8 这一点在后面将会得到验证 Correlation Matrixa 1 000 267 951 191 617 273 264 874 2671 000 426 718 151 235 593 363 951 4261 000 400 431 280 359 792 191 718 4001 000 356 135 539 104 617 151 431 3561 000 253 022 659 273 235 280 135 2531 000 763 125 264 593 359 539 022 7631 000 192 874 363 792 104 659 125 1921 000 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 业业 业业 业业 业业 业业 业业 业业 业业 业业 业业 业业 业业 业业 业业 业业 业业 Determinant 1 133E 04 a 在Communalities 公因子方差 中 给出了因子载荷阵的初始公因子方差 Initial 和提取公因子方差 Extraction 后面将会看到它们的含义 9 Communalities 1 000 945 1 000 800 1 000 902 1 000 875 1 000 857 1 000 957 1 000 929 1 000 903 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 InitialExtraction Extraction Method Principal Component Analysis 在 Total Variance Explained 全部解释方差 表的 Initial Eigenvalues 初始特 征根 中 给出了按顺序排列的主成分得分的方差 Total 在数值上等于相关 系数矩阵的各个特征根 因此可以直接根据特征根计算每一个主成分的方差 百分比 of Variance 由于全部特征根的总和等于变量数目 即有 m i 8 故第一个特征根的方差百分比为 1 m 3 755 8 46 939 第二个特 征根的百分比为 2 m 2 197 8 27 459 其余依此类推 然后可以算出 方差累计值 Cumulative 在 Extraction Sums of Squared Loadings 给出了 从左边栏目中提取的三个主成分及有关参数 提取的原则是满足 1 这一点 我们在图 6 所示的对话框中进行了限定 Total Variance Explained 3 75546 93946 9393 75546 93946 939 2 19727 45974 3982 19727 45974 398 1 21515 18689 5841 21515 18689 584 4025 03194 615 2132 66097 275 1381 72498 999 6 5E 02 81899 817 1 5E 02 183100 000 Component 1 2 3 4 5 6 7 8 Total of Variance Cumulative Total of Variance Cumulative Initial EigenvaluesExtraction Sums of Squared Loadings Extraction Method Principal Component Analysis 10 Scree Plot Component Number 87654321 Eigenvalue 4 3 2 1 0 图图8 8 特征根数值衰减折线图 山麓图 特征根数值衰减折线图 山麓图 主成分的数目可以根据相关系数矩阵的特征根来判定 如前所说 相关系 数矩阵的特征根刚好等于主成分的方差 而方差是变量数据蕴涵信息的重要判 据之一 根据 值决定主成分数目的准则有三 i 只取 1 的特征根对应的主成分 从 Total Variance Explained 表中可见 第一 第二和第三个主成分对应的 值都大于 1 这意味着这三个主成分得分的方差都大于 1 本例正是根据这条 准则提取主成分的 ii 累计百分比达到 80 85 以上的 值对应的主成分 在 Total Variance Explained 表可以看出 前三个主成分对应的 值累计百 分比达到 89 584 这暗示只要选取三个主成分 信息量就够了 iii 根据特征根变化的突变点决定主成分的数量 从特征根分布的折线图 Scree Plot 上可以看到 第 4 个 值是一个明显 的折点 这暗示选取的主成分数目应有 p 4 图 8 那么 究竟是 3 个还是 4 个呢 根据前面两条准则 选 3 个大致合适 但小有问题 在 Component Matrix 成分矩阵 中 给出了主成分载荷矩阵 每一列载 荷值都显示了各个变量与有关主成分的相关系数 以第一列为例 0 885 实际上 11 是国内生产总值 GDP 与第一个主成分的相关系数 将标准化的 GDP 数据与 第一主成分得分进行回归 决定系数 R2 0 783 图 9 容易算出 R 0 885 这 正是 GDP 在第一个主成分上的载荷 Component Matrixa 885 384 121 607 598 271 912 161 212 466 722 368 486 738 275 509 252 797 620 594 438 823 427 211 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 123 Component Extraction Method Principal Component Analysis 3 components extracted a 下面将主成分载荷矩阵拷贝到 Excel 上面作进一步的处理 计算公因子方 差和方差贡献 首先求行平方和 例如 第一行的平方和为 h12 0 88492 0 38362 0 12092 0 9449 这是公因子方差 然后求列平方和 例如 第一列的平方和为 s12 0 88492 0 60672 0 82272 3 7551 这便是方差贡献 图 10 在 Excel 中有一个计算平方和的命令 sumsq 可 以方便地算出一组数据的平方和 显然 列平方和即方差贡献 事实上 有如 下关系成立 相关系数矩阵的特征根 方差贡献 主成分得分的方差 至于行平方和 显然与前面公因子方差 Communalities 表中的 Extraction 列对应的数据一样 如果我们将 8 个主成分全部提取 则主成分载荷的行平方 和都等于 1 图 11 即有 hi 1 sj j 到此可以明白 在 Communalities 中 Initial 对应的是初始公因子方差 实际上是全部主成分的公因子方差 Extraction 对应的是提取的主成分的公因子方差 我们提取了 3 个主成分 故计 算公因子方差时只考虑 3 个主成分 12 0 001000 002000 003000 004000 005000 00 一一一一一一 2 00000 0 00000 2 00000 4 00000 一一一一一 A A A A A A A A A A A AA A A A A A A A A A A AA A A A A A 一一一一一 2 27 0 00 一一一一一 R Sqare 0 78301 图图9 9 国内生产总值 国内生产总值 GDPGDP 的与第一主成分的相关关系 标准化数据 的与第一主成分的相关关系 标准化数据 图图1010 主成分方差与方差贡献主成分方差与方差贡献 Component Matrixa 885 384 121 203 6 87E 021 143E 022 420E 029 192E 02 607 598 271 409 7 61E 02 1575 525E 021 317E 02 912 161 212 270 7 71E 028 271E 028 113E 02 7 36E 02 466 722 368 164 304 1 64E 02 7 62E 023 949E 03 486 738 275 212 3052 254E 026 855E 02 6 02E 03 509 252 797 0722 716E 02 161 1072 435E 03 620 594 438 0273 531E 02 247 9 23E 021 634E 03 823 427 211 209 9 38E 02 137 157 2 30E 02 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 12345678 Component Extraction Method Principal Component Analysis 8 components extracted a 13 图图1111 全部主成分的公因子方差和方差贡献全部主成分的公因子方差和方差贡献 提取主成分的原则上要求公因子方差的各个数值尽可能接近 亦即要求 它们的方差极小 当公因子方差完全相等时 它们的方差为 0 这就达到完美 状态 实际应用中 只要公因子方差数值彼此接近 不相差太远 就行了 从 上面给出的结果可以看出 提取 3 个主成分的时候 居民消费的公因子方差偏 小 这暗示提取 3 个主成分 居民消费方面的信息可能有较多的损失 至于方 差贡献 反映对应主成分的重要程度 这一点从方差的统计学意义可以得到理 解 在图 11 中 将最后一行的特征根全部乘到一起 得 0 这正是相关系数 矩阵的行列式数值 在 Excel 中 求一组数据的乘积之和的命令是 product 最后说明 Component Score Coefficient Matrix 成分得分系数矩阵 和 Component Score Covariance Matrix 成分得分协方差矩阵 前者是主成分得分 系数 后者是主成分得分的协方差即相关系数 从 Component Score Covariance Matrix 可以看出 标准化主成分得分之间的协方差即相关系数为 0 j k 或 1 j k 这意味着主成分之间彼此正交即垂直 初学者常将 Component Score Coefficient Matrix 表中的数据当成主成分得 分或因子得分 这是误会 成分得分系数矩阵的数值是主成分载荷除以相应的 特征根得到的结果 在 Component Matrix 表中 将第一列数据分别除以 1 3 755 第二列数值分别除以 2 2 197 立即得到 Component Score Coefficient 反过来 如果将 Component Score Coefficient Matrix 表中的各列数 据分别乘以 1 3 755 2 2 197 则可将其还原为主成分载荷即 Component Matrix 中的数据 14 Component Score Coefficient Matrix 236 175 100 162 272 223 243 073 174 124 329 303 129 336 227 135 115 656 165 271 360 219 194 174 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 业业业业 123 Component Extraction Method Principal Component Analysis Component Scores Component Score Covariance Matrix 1 000 000 000 0001 000 000 000 0001 000 Component 1 2 3 123 Extraction Method Principal Component Analysis Component Scores 实际上 主成分得分在原始数据所在的SPSS当前数据栏中给出 不过给出的都是 标准化的主成分得分 图12a 将各个主成分乘以相应的 即特征根的二次方根可以 将其还原为未经标准化的主成分得分 15 a 标准化的主成分得分 b 非标准化的主成分得分 图图1212 两种主成分得分两种主成分得分 计算标准化主成分得分的协方差或相关系数 结果与Component Score Covariance Matrix表中的给出的结果一致 见图13 第一因子第二因子第三因子 第一因子 1 第二因子 0 00000 1 第三因子 0 00000 0 00000 1 图图1313 主成分 得分 之间的相关系数矩阵主成分 得分 之间的相关系数矩阵 16 第五步 计算结果分析 从Component Matrix即主成分载荷表中可以看出 国内生产总值 固定资产投资 和工业产值在第一主成分上载荷较大 亦即与第一主成分的相关系数较高 职工工资 和货物周转量在第二主成分上的载荷绝对值较大 即负相关程度较高 消费价格指数 在第三主成分上的载荷较大 即相关程度较高 因此可将主成分命名如下 第一主成分 投入 产出主成分投入 产出主成分 第二主成分 工资 物流主成分工资 物流主成分 第三主成分 消费价格主成分消费价格主成分 问题在于 一方面 居民消费和商品零售价格指数的归类比较含混 另一方面 主成分的命名结构不清 因此 有必要作进一步的因子分析 C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 助力备考2025年注册会计师考试资源试题及答案
- 高性能轿车短期出租协议
- 2025年注册会计师考试应对压力的有效方法试题及答案
- 财务分析在决策中的重要性试题及答案
- 加强新员工融入的工作措施计划
- 国际金融理财师考试另类投资方式试题及答案
- 注会考试中案例题的解析技巧与试题及答案
- 证券从业资格证的复习试题及答案
- 解析交易规则的证券从业资格证考试试题及答案
- 证券从业资格证考试体系化整合知识试题及答案
- 文学作品的跨媒介研究-洞察分析
- 水电站经营权承包合同3篇
- 2025中国华电集团限公司校招+社招高频重点提升(共500题)附带答案详解
- 起重伤害应急预案培训
- 手术室护士入科汇报
- 2025年中考语文复习之小题狂练300题(选择题):文学常识(20题)
- 2024年中级消防员职业鉴定考前必刷必练题库500题(含真题、必会题)
- 天津医科大学眼科医院招聘笔试真题2023
- 【MOOC】电视采访报道-中国传媒大学 中国大学慕课MOOC答案
- 精神科患者首次风险评估单
- 医院培训课件:《外科手术部位感染预防与控制》
评论
0/150
提交评论