主成分分析方法在主成分分析方法中的应用_第1页
主成分分析方法在主成分分析方法中的应用_第2页
主成分分析方法在主成分分析方法中的应用_第3页
主成分分析方法在主成分分析方法中的应用_第4页
主成分分析方法在主成分分析方法中的应用_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.wd.wd.wd.主成分分析与因子分析及SPSS实现一:原理与方法 (2014-09-08 13:33:57) HYPERLINK javascript:; 转载一、主成分分析1问题提出在问题研究中,为了不遗漏和准确起见,往往会面面俱到,取得大量的指标来进展分析。比方为了研究某种疾病的影响因素,我们可能会收集患者的人口学资料、病史、体征、化验检查等等数十项指标。如果将这些指标直接纳入多元统计分析,不仅会使模型变得复杂不稳定,而且还有可能因为变量之间的多重共线性引起较大的误差。有没有一种方法能对信息进展浓缩,减少变量的个数,同时消除多重共线性这时,主成分分析隆重登场。2主成分分析的原理主成分分

2、析的本质是坐标的旋转变换,将原始的n个变量进展重新的线性组合,生成n个新的变量,他们之间互不相关,称为n个“成分。同时按照方差最大化的原那么,保证第一个成分的方差最大,然后依次递减。这n个成分是按照方差从大到小排列的,其中前m个成分可能就包含了原始变量的大局部方差及变异信息。那么这m个成分就成为原始变量的“主成分,他们包含了原始变量的大局部信息。注意得到的主成分不是原始变量筛选后的剩余变量,而是原始变量经过重新组合后的“综合变量。我们以最简单的二维数据来直观的解释主成分分析的原理。假设现在有两个变量X1、X2,在坐标上画出散点图如下:可见,他们之间存在相关关系,如果我们将坐标轴整体逆时针旋转4

3、5,变成新的坐标系Y1、Y2,如以以下图:根据坐标变化的原理,我们可以算出:Y1 = sqrt(2)/2 * X1 + sqrt(2)/2 * X2Y2 = sqrt(2)/2 * X1 - sqrt(2)/2 * X2其中sqrt(x)为x的平方根。通过对X1、X2的重新进展线性组合,得到了两个新的变量Y1、Y2。此时,Y1、Y2变得不再相关,而且Y1方向变异方差较大,Y2方向的变异方差较小,这时我们可以提取Y1作为X1、X2的主成分,参与后续的统计分析,因为它携带了原始变量的大局部信息。至此我们解决了两个问题:降维和消除共线性。对于二维以上的数据,就不能用上面的几何图形直观的表示了,只能通

4、过矩阵变换求解,但是本质思想是一样的。二、因子分析一原理和方法:因子分析是主成分分析的扩展。在主成分分析过程中,新变量是原始变量的线性组合,即将多个原始变量经过线性坐标变换得到新的变量。因子分析中,是对原始变量间的内在相关构造进展分组,相关性强的分在一组,组间相关性较弱,这样各组变量代表一个 基本要素公共因子。通过原始变量之间的复杂关系对原始变量进展分解,得到公共因子和特殊因子。将原始变量表示成公共因子的线性组合。其中公共因子是所有原始变量中所共同具有的特征,而特殊因子那么是原始变量所特有的局部。因子分析强调对新变量因子的实际意义的解释。举个例子:比方在市场调查中我们收集了食品的五项指标x1-

5、x5:味道、价格、风味、是否快餐、能量,经过因子分析,我们发现了:x1 = 0.02 * z1 + 0.99 * z2 + e1x2 = 0.94 * z1 - 0.01 * z2 + e2x3 = 0.13* z1 + 0.98 * z2 + e3x4 = 0.84 * z1 + 0.42 * z2 + e4x5 = 0.97 * z1 - 0.02 * z2 + e1以上的数字代表实际为变量间的相关系数,值越大,相关性越大第一个公因子z1主要与价格、是否快餐、能量有关,代表“价格与营养第二个公因子z2主要与味道、风味有关,代表“口味e1-5是特殊因子,是公因子中无法解释的,在分析中一般略去

6、。同时,我们也可以将公因子z1、z2表示成原始变量的线性组合,用于后续分析。二使用条件:1样本量足够大。通常要求样本量是变量数目的5倍以上,且大于100例。2原始变量之间具有相关性。如果变量之间彼此独立,无法使用因子分析。在SPSS中可用KMO检验和Bartlett球形检验来判断。3生成的公因子要有实际的意义,必要时可通过因子旋转坐标变化来到达。三、主成分分析和因子分析的联系与区别联系:两者都是降维和信息浓缩的方法。生成的新变量均代表了原始变量的大局部信息且互相独立,都可以用于后续的回归分析、判别分析、聚类分析等等。区别:1主成分分析是按照方差最大化的方法生成的新变量,强调新变量奉献了多大比例

7、的方差,不关心新变量是否有明确的实际意义。2因子分析着重要求新变量具有实际的意义,能解释原始变量间的内在构造。下一篇文章,将介绍主成分分析和因子分析的在SPSS中的实现。主成分分析与因子分析及SPSS实现二:实例讨论 (2014-09-13 06:34:09) HYPERLINK javascript:; 转载标签: HYPERLINK :/search.sina .cn/?c=blog&q=spss&by=tag t _blank spss HYPERLINK :/search.sina .cn/?c=blog&q=%BD%CC%D3%FD&by=tag t _blank 教育 HYPERL

8、INK :/search.sina .cn/?c=blog&q=%CD%B3%BC%C6&by=tag t _blank 统计 HYPERLINK :/search.sina .cn/?c=blog&q=%D2%F2%D7%D3%B7%D6%CE%F6&by=tag t _blank 因子分析分类: HYPERLINK :/blog.sina .cn/s/articlelist_1153366774_1_1.html t _blank SPSSSPSS没有提供单独的主成分分析方法,而是混在因子分析当中,下面通过一个例子来讨论主成分分析与因子分析的实现方法及相关问题。一、问题提出男子十项全能比赛

9、包含100米跑、跳远、跳高、撑杆跳、铅球、铁饼、标枪、400米跑、1500米跑、110米跨栏十个工程,总分为各个工程得分之和。为了分析十项全能主要考察哪些方面的能力,以便有针对性的进展训练,研究者收集了134个顶级运发动的十项全能成绩单,将通过因子分析来到达分析目的。二、分析过程变量视图:数据视图局部:菜单项选择择分析-降维-因子分析:翻开因子分析的主界面,将十项成绩选入变量“框中不要包含总分,如下:点击描述“按钮,翻开对话框,选中系数“和KMO和Bartlett球形度检验“:上图相关解释:系数“:为变量之间的相关系数阵列,可以直观的分析相关性。KMO和Bartlett球形度检验“:用于定量的

10、检验变量之间是否具有相关性。点击继续“,回到主界面,点击抽取“,翻开对话框。方法“ =主成分“,输出“=未旋转的因子解“和碎石图“,抽取“=基于特征值“,其余选择默认。解释:因子抽取的方法:选取默认的主成分法即可,其余方法的计算结果可能有所差异。输出:未旋转的因子解极为主成分分析结果。碎石图有助于我们判断因子的重要性详细介绍见后面。抽取:为抽取主成分因子的方法,一般是基于特征值大于1,默认即可。点击继续“,回到主界面,点击确定“,进入分析。输出的主要表格如下:1相关性检验因子分析要求变量之间有相关性,所以首先要进展相关性检验。首先输出的是变量之间的相关系数矩阵:可以直观的看到,变量之间有相关性

11、。但需要检验,接着输出的是相关性检验:上图有两个指标:第一个是KMO值,一般大于0.7就说明不了之间有相关性了。第二个是Bartlett球形度检验,P值“最大方差法,“输出=“旋转解。点击“继续,回到主界面点击“确认进展分析。输出结果如下:这是选择后的成分矩阵。经过旋转,可以看出:公因子1得分越高,所有的跑步和跨栏成绩越差,而跳远、撑杆跳等需要助跑类工程的成绩也越差,所以公因子1代表的是奔跑能力的反向指标,可称为“奔跑能力。公因子2与铁饼和铅球的正相关性很高,与标枪、撑杆跳等需要上肢力量的工程也正相关,所以该因子可以成为“上肢力量。经过旋转,可以看出公因子有了更合理的解释。四结果的保存在最后,

12、我们还要将公因子储存下来供后续使用。点击“得分按钮,翻开对话框,选中“保存为变量,方法采用默认的“回归方法,同时选中“显示因子得分系数矩阵。SPSS会自动生成2个新变量,分别为公因子的取值,放在数据的最后。同时会输出一个因子系数表格:由上图,我们可以写出公因子的表达式用F1、F2代表两个公因子,Z1Z10分别代表原始变量:F1 = -0.16*Z1+0.161*Z2+0.145*Z3+0.199*Z4-0.131*Z5-0.167*Z6+0.137*Z7+0.174*Z8+0.131*Z9-0.037*Z10F2同理,略去。注意,这里的变量Z1Z10,F1、F2不再是原始变量,而是标准正态变换

13、后的变量。当前位置: HYPERLINK :/ 17bigdata / 一起大数据 HYPERLINK :/ 17bigdata /category/%e8%87%aa%e5%ad%a6%e4%b8%ad%e5%bf%83 自学中心 HYPERLINK :/ 17bigdata /category/%e8%87%aa%e5%ad%a6%e4%b8%ad%e5%bf%83/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90%e4%b8%8e%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98%e8%bd%af%e4%bb%b6 软件 HYPERLINK

14、:/ 17bigdata /category/%e8%87%aa%e5%ad%a6%e4%b8%ad%e5%bf%83/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90%e4%b8%8e%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98%e8%bd%af%e4%bb%b6/spss SPSS正文 HYPERLINK :/ 17bigdata /spss%e4%b8%bb%e6%88%90%e5%88%86%e5%88%86%e6%9e%90%e4%b8%8e%e5%9b%a0%e5%ad%90%e5%88%86%e6%9e%90%e4%b9%8b%

15、e6%af%94%e8%be%83%e5%8f%8a%e5%ae%9e%e8%af%81%e5%88%86%e6%9e%90.html SPSS主成分分析与因子分析之比较及实证分析xsmile 发布于 2015-07-20分类: HYPERLINK :/ 17bigdata /category/%e8%87%aa%e5%ad%a6%e4%b8%ad%e5%bf%83/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90%e4%b8%8e%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98%e8%bd%af%e4%bb%b6/spss SPSS/ HYPE

16、RLINK :/ 17bigdata /category/%e8%87%aa%e5%ad%a6%e4%b8%ad%e5%bf%83/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90%e4%b8%8e%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98%e7%90%86%e8%ae%ba%e7%9f%a5%e8%af%86/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90-%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90%e4%b8%8e%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%

17、98%e7%90%86%e8%ae%ba%e7%9f%a5%e8%af%86 数据分析阅读(399)评论(1)来自 :/ 免信息重叠和减轻工作量,人们就往往希望能找出少数几个互不相关的综合变量来尽可能地反映原来数据所含有的绝大局部信息。而主成分分析和因子分析正是为解决此类问题而产生的多元统计分析方法。近年来,这两种方法在社会经济问题研究中的应用越来越多,其应用范围也愈加广泛。因子分析是主成分分析的推广和开展,二者之间就势必有着许多共同之处,而 SPSS软件不能直接进展主成分分析,致使一些应用者在使用SPSS进展这两种方法的分析时,常常会出现一些混淆性的错误,这难免会使人们对分析结果产生质疑。因

18、此,有必要在运用SPSS分析时,将这两种方法加以严格区分,并针对实际问题选择正确的方法。二、主成分分析与因子分析的联系与区别两种方法的出发点都是变量的相关系数矩阵,在损失较少信息的前提下,把多个变量这些变量之间要求存在较强的相关性,以保证能从原始变量中提取主成分综合成少数几个综合变量来研究总体各方面信息的多元统计方法,且这少数几个综合变量所代表的信息不能重叠,即变量间不相关。主要区别:1. 主成分分析是通过变量变换把注意力集中在具有较大变差的那些主成分上,而舍弃那些变差小的主成分;因子分析是因子模型把注意力集中在少数不可观测的潜在变量即公共因子上,而舍弃特殊因子。2. 主成分分析是将主成分表示

19、为原观测变量的线性组合,1主成分的个数i=原变量的个数p,其中j=1,2,p,是相关矩阵的特征值所对应的特征向量矩阵中的元素, 是原始变量的标准化数据,均值为0,方差为1。其实质是p维空间的坐标变换,不改变原始数据的构造。而因子分析那么是对原观测变量分解成公共因子和特殊因子两局部。因子模型如式2,2其中i=1,2,p, m是因子分析过程中的初始因子载荷矩阵中的元素,是第j个公共因子,是第i个原观测变量的特殊因子。且此处的与的均值都为0,方差都为1。3. 主成分的各系数,是唯一确定的、正交的。不可以对系数矩阵进展任何的旋转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一

20、的、可以进展旋转的,且该矩阵说明了原变量和公共因子的相关程度。4. 主成分分析,可以通过可观测的原变量X直接求得主成分Y,并具有可逆性;因子分析中的载荷矩阵是不可逆的,只能通过可观测的原变量去估计不可观测的公共因 子,即公共因子得分的估计值等于因子得分系数矩阵与原观测变量标准化后的矩阵相乘的结果。还有,主成分分析不可以像因子分析那样进展因子旋转处理。5.综合排名。主成分分析一般依据第一主成分的得分排名,假设第一主成分不能完全代替原始变量,那么需要继续选择第二个主成分、第三个等等,此时综合得分= 各主成分得分各主成分所对应的方差奉献率,主成分得分是将原始变量的标准化值,代入主成分表达式中计算得到

21、;而因子分析的综合得分=各因子得分 各因子所对应的方差奉献率各因子的方差奉献率,因子得分是将原始变量的标准化值,代入因子得分函数中计算得到。区别中存联系,联系中显区别由于上文提到主成分可表示为原观测变量的线性组合,其系数为原始变量相关矩阵的特征值所对应的特征向量,且这些特征向量正交,因此,从X到Y的转换关系是可逆的,便得到如下的关系: 3下面对其只保存前m个主成分奉献大,舍弃剩下奉献很小的主成分,得:i=1,2,p4由此可见,式4在形式上已经与因子模型2忽略特殊因子后的模型即:2*相一致,且j=1,2,m之间相互独立。由于模型2*是因子分析中未进展因子载荷旋转时建设的模型,故如果不进展因子载荷

22、旋转,许多应用者将容易把此时的因子分析理解成主成分分析,这显然是不正确的。然而此时的主成分的系数阵即特征向量与因子载荷矩阵确实存在如下关系:主成分分析中,主成分的方差等于原始数据相关矩阵的特征根,其标准差也即特征根的平方根,于是可以将除以其标准差单位化后转化成适宜的公因子,即令,那么式4变为:4*可得,5式5便是主成分系数矩阵与初始因子载荷阵之间的联系。不能简单地将初始因子载荷矩阵认为是主成分系数矩阵特征向量矩阵,否那么会造成偏差。三、实证分析通过实例来研究SPSS软件中的因子分析和主成分分析及二者分析结果的比较。运用两种分析方法对2005年江苏省13个主要城市的经济开展综合水平进展分析。本文

23、在选取指标时遵循了指标选取的 基本原那么,即针对性、可操作性、层次性、全面性等原那么,选取了以下反映城市经济开展综合水平的9项指标: GDP(X1)亿元 、人均GDP (X2) 元 、城镇居民人均可支配收入(X3)元、农村居民纯收入(X4) 元、第三产业占GDP比重(X5)%、金融机构存款余额X6亿元、万人中各专业技术人员数(X7)人、科技三项和文教科卫支出X8亿元、实际利用 外资(X9) 亿美元。一 数据来源及处理按照上述指标体系,选取了江苏13个城市的数据,所有数据均来源于?江苏统计年鉴2006?。指标都是正指标,无需归一化,SPSS13.0将自动对原始数据进展标准差标准化处理,消除指标量

24、纲及数量级的影响。二 运用SPSS进展分析首先,通过SPSS中的Data Reduction-Factor命令进展因子分析,本文采取主成分分析法来抽取公共因子,并依据特征值大于1来确定因子数目。相关的分析结果及分析,如下:1.相关系数矩阵由于因子分析是基于相关矩阵进展的,即要求各指标之间具有一定的相关性,求出相关矩阵是必要的。KMO统计量是0.659,且Bartlett球体检验 值为190.584,卡方统计值的显著性水平为0.000小于0.01,都说明各指标之间具有较高相关性,因此本文数据适用于作因子分析。2.总方差分解表2中,依据特征值大于1的原那么,提取了2个公因子主成分,它们的累积方差奉

25、献率达91.4555%,这2个公因子主成分包含了原指标的绝大局部信息,可以代替原来9个变量对城市经济开展水平现状进展衡量。3.主成分表达式与因子模型初始因子载荷矩阵见表3反映了公因子与原始变量之间的相关程度,而主成分的系数矩阵并不反映公因子与原始变量之间的相关程度,故不能直接用表3中的 数据表示。根据该系数矩阵与初始因子载荷阵之间的关系如式5,可以计算出前2个特征值所对应的特征向量阵系数矩阵,见表4。很明显表4和表3中的数据相差很大,因此,如果将初始因子载荷阵误认为是主成分系数矩阵,分析结果将会产生较大偏差。主成分的表达式应为:6Y1=0.3622 *Z1+0.3607 *Z2+0.3260*

26、Z9Y2=-0.1298 *Z1-0.0799 *Z2+-0.3849*Z9=79.4012* Y1+12.0543* Y2/100因子模型:X1=0.9684*F1-0.1352*F2X2=0.9642*F1-0.0832*F2X9=0.8714*F1-0.4009*F2其中Z1Z9是X1X9的标准化数据.4.因子得分函数从表3得知,各因子在各变量上的载荷已经向0和1两极分化,故无需进展因子旋转。公因子是不可观测的,估计因子得分应借助于未旋转因子得分系数矩阵,见表5。得到以下因子得分函数:7F1=0.1355*Z1+0.1349*Z2 +0.1219*Z9F2=-0.1247 *Z1-0.0

27、767*Z2 +-0.3696*Z9同样Z1Z9是标准化的数据,其综合得分计算公式:=(73.4228*F1+18.0327*F2)/91.45558三 两种方法综合排名比较按照主成分综合得分和因子综合得分,对江苏13个城市的经济开展综合水平进展排名,见表6。表6中,综合得分出现负值,这只说明该城市的综合水平处于平均水平之下由于主成分因子已经标准化了。从该表看出,主成分分析与因子分析的实证结果,不仅大局部城市的排名存在差异,且综合得分值上存在较大差异,其定量值差异较大,这对于后来的综合定量定性分析,最终所提出的政策建议等都会产生较大影响。因此不能混用。四、完毕语使用主成分分析和因子分析进展综合评价时,可以通过不同的统计软件来完成数据分析,除SPSS软件外,其他软件都分别设有两种方法的过程命令,使用者可以根据需要采用其中一种来分析问题,一般不会混淆。而正是因为SPSS没有直接进展主成分分析的命令,才使得那些本身尚未清楚区分这两种方法的使用者更加迷惑,不慎便会出现混淆性错误。因此,本文很详细地从理论和实证角度,分析了这两种方法的异同及如何运用SPSS软件进展分析。从实证结果看,运用主成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论