版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、市场研究 2005 在社会经济统计综合评价中主成分分析和因子分析 是两个常被使用的统计分析方法 。 现在 SPSS 、 SAS 等统计 软件使用越来越普遍 , 但 SPSS 并未像 SAS 一样 , 将 主 成 分分析与因子分析作为两个独立的方法并列处理 注 :主 成分分析与因子分析二者是又有着区别与联系 , 最主要 的不同在于它们的数学模型的构建上 , 具体区别请见参 考文献 2, 而是根 据 二 者 之 间 的 关 系 有 机 地 将 主 成 分 分 析嵌入到因子分析之中 , 这样虽然简化了分析程序 , 却为 主成分分析的计算带来不便 。 且国内许多 SPSS 教程并没 有详细讲解如何应用
2、 SPSS 进行主成分分析 , 那到底如何 使用 SPSS 进 行 主 成 分 分 析 呢 ? 为 使 读 者 能 够 正 确 使 用SPSS 软件进行主成分分析 , 本文将通过一个实例来详细介绍如何用 SPSS 进行主成分分析 。 接下来先简单介绍主 成分分析原理与模型 , 以便读者对主成分分析有个大致 的了解 。(一 主成分分析原理主成分分析是设法将原来众多具有一定相关性 (比 如 P 个指标 , 重新组合成一组新的互相无关的综合指标 来代替原来的指标 。 通常数学上的处理就是将原来 P 个 指标作线性组合 , 作为新的综合指标 。 最经典的做法就是 用 F 1(选取的第一个线性组合 ,
3、即 第 一 个 综 合 指 标 的 方 差来表达 , 即 Var(F 1 越大 , 表示 F 1包含的信息越多 。 因此在所有的线性组合中选取的 F 1应该是方差最大的 , 故称F 1为第一主成分 。 如果第一主成分不足以代表原来 P 个指标的信息 , 再考虑选取 F 2即选第二个线性组合 , 为了有 效地反映原来信息 , F 1已 有 的 信 息 就 不 需 要 再 出 现 在 F 2中 , 用数学语言表达就是要求 Cov(F 1, F 2=0, 则称 F 2为第 二主成分 , 依此类推可以构造出第三 、 第四 , , 第 P 个 主成分 。(二 主成分分析数学模型F 1=a 11ZX 1+
4、a 21ZX 2+ +a p1ZX p F 2=a 12ZX 1+a 22ZX 2 +a p2ZX pF p =a 1m ZX 1+a 2m ZX 2+ +a pm ZX p其 中 a 1i , a 2i , ,a pi (i=1, ,m 为 X 的 协 方 差 阵 的特征值多对应的特征向量 , ZX 1, ZX 2, , ZX p 是原始 变量经过标准化处理的值 , 因为在实际应用中 , 往往存在 指标的量纲不同 , 所以在计算之前须先消除量纲的影响 , 而将原始数据标准化 , 本文所采用的数据就存在量纲影 响 注 :本文指的数据标准化是指 Z 标准化 。A=(a ij p m =(a 1,
5、a 2, a m , , Ra i =i a i , R 为相关系数矩阵 , i 、a i 是相应的特征值和单位特征向量 , 12 p 0。进行主成分分析主要步骤如下 :1. 根据研究问题选取指标与数据 ;2. 进 行 指 标 数 据 标 准 化 (SPSS 软 件 Factor 过 程 自 动执行 ;3. 进行指标之间的相关性判定 ; 4. 确定主成分个数 m ; 5. 确定主成分 F i 表达式 ; 6. 进行主成分 F i 命名 ;主成分分析在 SPSS 中的操作应用#慧聪国际行业研究院广州分公司张文霖理论与方法一 、 引言二 、 主成分分析原理和模型 1#$200512 7. 计算综合
6、主成分值并进行评价与研究 。 (一 指标选取原则本 文 所 选 取 的 数 据 来 自 中 国 统 计 年 鉴 2003 中2002年的统计数据 , 在沿海 10个省市经济状况主要指标体系中选取了 10个指标 :X 1 GDP X 2 人均 GDP X 3 农业增加值 X 4 工业增加值 X 5 第三产业增加值 X 6 固定资产投资 X 7 基本建设投资 X 8 国内生产总值占全国比重 (% X 9 海关出口总额 X 10 地方财政收入 (二 主成分分析在 SPSS 中的具体操作步骤运 用 SPSS 统 计 分 析 软 件 Factor 过 程 2对 沿 海 10个 省市经济综合指标进行主成分
7、分析 。 具体操作步骤如下 :1.Analyze Data Reduction Factor Analysis , 弹 出 Factor Analysis 对话框2. 把 X 1X 10选入 Variables 框3.Descriptives:Correlation Matrix 框 组 中 选 中 Coeffi-cients , 然后点击 Continue , 返回 Factor Analysis 对话框4. 点击“ OK ” 地方财 政收入第三产业 增加值表 1沿海 10个省市经济数据辽宁 山东 河北 天津 江苏 上海 浙江 福建 广东 广西地区 GDP 人均 GDP农业增加值 工业增加值
8、固定资 产投资基本建 设投资社会消费品 零售总额海关出 口总额表 2Factor Analyze 对话框与 Descriptives 子对话框理 论 与 方 法三 、 对沿海 10个省市经济综合指标进 行主成分分析市场研究 2005 SPSS 在调用 Factor Analyze 过 程 进 行 分 析 时 , SPSS 会自动对原始数据进行标准化处理 , 所以在得到计算结果 后的变量都是指经过标准化处理后的变量 , 但 SPSS 并不直接给出标准化后的数据 , 如需要得到标准化数据 , 则需 调用 Descriptives 过程进行计算 。从表 3可知 GDP 与工业增加值 , 第三产业增加
9、值 、 固定资产投资 、 基本建 设 投 资 、 社 会 消 费 品 零 售 总 额 、 地 方财政收入这几个指标存在着极其显著的关系 , 与海关 出口总额存在着显著关系 。 可见许多变量之间直接的相 关性比较强 , 证明他们存在信息上的重叠 。主成分个数提取原则为主成分对应的特征值大 于 1的前 m 个主成分 。 特征值在某种程度上可以被看成是表 示主成分影响力度大小的指标 , 如果特征值小于 1, 说明 该主成分的解释力度还不如直接引入一个原变量的平均解释力度大 , 因此一般可以用特征值大于 1作为纳入标 准 。 通过表 4(方差分解主成分提取分析 可知 , 提取 2个 主成分 , 即 m
10、=2, 从表 5(初始因子载荷矩阵 可知 GDP 、 工 业增加值 、 第三产 业 增 加 值 、 固 定 资 产 投 资 、 基 本 建 设 投 资 、 社会消费品零 售 总 额 、 海 关 出 口 总 额 、 地 方 财 政 收 入 在第一主成分上有较高载荷 , 说明第一主成分基本反映 了这些指标的信息 ; 人均 GDP 和农业增加值指标在第二 主成分上有较高载荷 , 说明第二主成分基本反映了人均GDP 和农业增加值两个指标的信息 。 所以提取两个主成表 3相关系数矩阵GDP人均 GDP 农业增加值 工业增加值 第三产业增加值 固定资产投资 基本建设投资 社会消费品零售总额 海关出口总额
11、地方财政收入地方 财政 收入第三 产业 增加值GDP农业增加值 工业增加值固定 资产 投资基本 建设 投资社会消 费品零 售总额海关 出口 总额人均GDP 表 4方差分解主成分提取分析表Component Total %of Variance Cumulative %Total %of Variance Cumulative %Initial EigenvaluesExtraction Sums of Squared Loadings Extraction Method:Principal Component Analysis.GDP人均 GDP农业增加值 工业增加值 第三产业增加值 固定资产
12、投资 基本建设投资 社会消费品零售总额 海关出口总额 地方财政收入Extraction Method:Principal Component Analysis.a. 2components extracted.Component 12表 5初始因子载荷矩阵Correlation MatrixTotal Variance Explained 理论与方法Component Matrix a! 200512参考文献1于秀林 , 任雪松 . 多元统计分析 M. 北京 :中国统计出版社 , 1999.8. P154.2林海明 , 张文霖 . 主成分分析与因 子分析详细的异同和 SPSS 软件 J. 统
13、计研究 2005(3 .表 6Compute Variable 对话框分是可以基本反映全部指标的信息 , 所以决定用两个新 变量来代替原来的十个变量 。 但这两个新变量的表达还 不能从输出窗口中 直 接 得 到 , 因 为 “ Component Matrix ” 是 指初始因子载荷矩阵 , 每一个载荷量表示主成分与对应 变量的相关系数 。用表 5(主成分载荷矩阵 中的数据除以主成分相对 应的特征值开平方根便得到两个主成分中每个指标所对 应的系数 2。 将初始因子载荷矩阵中的两列数据输入 (可 用复制粘贴的方法 到数据编辑窗口 (为变量 B1、 B 2 , 然后 利 用 “ Transform
14、 Compute Variable ” , 在 Compute Variable 对 话 框 中 输 入 “ A1=B1/SQR(7.22 ” 注 :第 二 主 成 分 SQR 后的括号中填 1.235, 即可得到特征向量 A1(见表 6 。 同 理 , 可得到特征向量 A2。 将得到的特征向量与标准化后的 数据相乘 , 然后就可以得出主成分表达式 注 :因本例只是 为了说明如何在 SPSS 进行主成分分析 , 故在此不对提取 的主成分进行命名 , 有兴趣的读者可自行命名 :F 1=0.353ZX 1+0.042ZX 2-0.041ZX 3+0.364ZX 4+ 0.367ZX 5+0.366
15、ZX 6+0.352ZX 7+0.364ZX 8+0.298ZX 9+ 0.355ZX 10F 2=0.175ZX 1-0.741ZX 2+0.609ZX 3-0.004ZX 4+ 0.063ZX 5-0.061ZX 6-0.022ZX 7+0.158ZX 8-0.046ZX 9-0.115ZX 10前文提到 SPSS 会自动对数据进行标准化 , 但不会直 接给出 , 需要我们自己另外算 , 我们可以通过 Analyze Descriptive Statistics Descriptives 对 话 框 来 实 现 :弹 出 Descriptives 对 话 框 后 , 把 X 1X 10选
16、入 Variables 框 , 在 Save standardized values as variables 前 的 方 框 打 上 钩 , 点 击 “ OK ” , 经标准化的数据会自动填入数据窗口中 , 并以 Z 开头命名 。以每个主成分所对应的特征值占所提取主成分总的 特征值之和的比例作为权重计算主成分综合模型 :即可得到主成分综合模型 :F=0.327ZX 1-0.072ZX 2+0.054ZX 3+0.310ZX 4+0.323ZX 5+ 0.304ZX 6+0.297ZX 7+0.334ZX 8+0.248ZX 9+0.286ZX 10根据主成分综合模型即可计算综合主成分值 , 并对其 按综合主成分值进行排序 , 即可对各地区进行综合评价 比较 , 结果见表 8。对得出的综合主成 分 (评 价 值 , 我 们 可 用 实 际 结 果 、 经验与原始数据做聚类分析进行检验 , 对有争议的结果 , 可用原始数据做判别分析解决争议 , 具体评价与检验本 文不做论述 , 如读者有兴趣可自行进行检验论述 。本 文 旨 在 阐 述 如 何 利 用 SPSS 软 件 进 行 正 确 的 主 成 分分析 , 使 读 者 能 正 确 使 用 SPSS 进 行 主 成 分 分 析 ,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论