主成分分析方法与因子分析方法的比较研究物理学专业_第1页
主成分分析方法与因子分析方法的比较研究物理学专业_第2页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主成分分析方法与因子分析方法的比较研究摘要:主成分分析和因子分析是多元统计中较为关键和常用的两种方法,二者皆是从变量的方差-协方差结构着手,尽可能多的保存原始变量的信息。在此基础上用少量的新变量解释那些原始变量的统计分析方法。本篇论文对主成分分析与因子分析进行研究讨论。这个研究是基于理论和应用两个方面。在原理方面,对主成分方法进行了相关的证明和推倒,对因子分析估算方法进行了深入的研究。从一些方面比较了两个方法的相同点和不同点,这些方面包括概念、基本思想数学模型和计算方法与过程等。关键词:主成分分析;因子分析;应用分析Comparative of Principal Component Anal

2、ysis Method and Factor Analysis MethodAbstract:Principal component analysis and factor analysis are two key and common methods in multivariate statistics. Both of them are based on the variance-covariance structure of variables and preserve as much raw variable information as possible. On this basis

3、, a small number of new variables are used to explain the statistical analysis methods of those original variables. This article studies the principal component analysis and factor analysis from two aspects of theory and application. The principle of component analysis is connect to mathematical ind

4、uction and certification of properties. The factor loading matrix and factor variance estimation methods in factor analysis are further studied. The similarities and differences of the two methods are compared from the aspects of concepts, basic theory, statistical view, mathematical matrix, and cal

5、culation course.Key words: Principal component analysis; Factor analysis; Application analysis引言现今社会,人们开始关注信息的全面性。为了更有效得利用信息,应该对事物进行客观、全方面的综合性的评价。在研究中,为了方便分析以找出规律,需要把多个反映事物的指标(指标统称为变量)进行大量的观察和测试。样本大变量多会为研究带来丰富的信息,但是由于这些变量彼此具有关联,使得观察出的信息出现重复,问题更加复杂,带来不便,给结果的科学性带来不利影响。主成分分析方法是把很多个指标化为少量综合指标的一个统计方法。这种分

6、析方法是从原始变量里筛选出几个主要分量,让它们能尽量保存原始信息。这些信息之间不相关。这个分析方法有数据的压缩和解释的目的。因子分析是经过探究多数变量间系数矩阵的相互依存,筛选出综合的随机变量。这些不可测量的随机变量统称为因子。这种分析方法的目的为淘汰部分变量,用留下的变量去代替全部变量来解决问题。主成分分析法与因子分析法有很多关联,后者是前者的进一步发展。由于两种方法的类似,使用者经常在应用时把两种方法混淆。以至于在使用统计软件时,结果出现偏差。因此要正确恰当地认识两者的相同点与不同点,使之能够得到最佳的运用。1主成分分析的原理及其数学模型1.1基本概念和意义主成分分析是探究怎样把多个指标转

7、化为少量综合性指标的的统计方法之一。该分析法可以把问题从高维空间转换成低维空间去解决,可以使得问题变得更加直观和简便,并且这些少量的综合指标彼此相互不关联,但是又可以表达出原始变量的大部分信息。主成分分析不仅能够降低多个指标数据的维度,而且还能够简化变量系统的统计特征。该分析方法除了能够提供大量的重要系统信息之外,同时可以把多变量数据系统简化成最佳状态。如:数据变异的最大方向,群点的散布范围等。主成分分析是多元统计中较为关键和常用的一个方法,在很多领域起着重要作用,如在数据压缩、综合评价、模式识别等方面都得到了普遍应用。1.2基本原理1.2.1统计思想主成分分析的基本思想 :通过以这个正交变换

8、,使得原始变量(分量相关的随机变量)变换成新变量,各分量之间不相关。从代数角度,就是把原始变量的协方差矩阵转化为对角矩阵。从几何角度,就是把原始变量系统变成新的正交系统,使得此系统指向的正交方向是样本点散布最开的一个方向,从而对该多维变量系统实施降维措施。1.2.2数学模型一般做出数学的措施,是把之前的p个指标线性组合为新的指标。把第一个选择的第线性组合(综合指标)标为 。通常期待第一个线性指标可以包含更多的原有信息。则越大,说明包含的信息越多。因而在全部的线性组合中选择的第一主成分的方差是最大的。由于方差最大的是第1主成分在所有线性组合里,用第1主成分的方差去表达信息是最典型的方法。如若第一

9、主成分不能够完全体现出p个指标的信息,进而再选择第二个线性组合(主成分),依据该原则推出第三,第四,第p个主成分。主成分之间的方差是递减的,他们之间相互不关联。设有n个样本,每个样本由p个指标来描述。得出原始数据矩阵:= (1.2.1)其中用数据矩阵X的P各向量作线性组合可得 (1.2.2)其中组合系数满足 (1.2.3)(2.1.2)中的系数由下列原则确定 即与不相关。是的以上组合中方差最大的,其次为即。 (1.2.4)新的综合指标的总方差保持不变,即 (1.2.5)综合指标按照顺序为原始指标的第1主成分,第2主成分,.,第P主成分。从公式(1.2.4)和(1.2.5)可以看出,用前面的一部

10、分主成分,能够体现出原始指标所包含的绝大多数的信息量。可以利用主成分相互不关联的原理去分析问题。原指标的主成分可以按以下步骤求得。根据式子(1.2.2)知道组合的系数.设 的 协 方 差 矩 阵 为A。这些特 征 根 从 大 到 小 的顺序是为。通过证明,原指标的第i个主成分的组合系数正是A的第i个特征根对应的标准化正交特征向量,具有因而前k个主成分的方差贡献为 (1.2.6)2因子分析的原理及其数学模型2.1基本概念和意义因子分析的首次提出是Charles Spearman 在1904年提出的,Charles Spearman花了他整个后半生去研究和发展该理论,让该理论成为了现代统计学最重要

11、的一个理论。主成分分析法与因子分析法有很多关联,后者是前者的进一步研究发展。因子分析是经过探究多数变量间系数矩阵的相互依存,筛选出综合的随机变量。这些不可测量的随机变量统称为因子。这种分析方法的目的为淘汰部分变量,用留下的变量去代替全部变量来解决问题。按照变量的相关程度进行分类,让同一组类的相关程度较高,不同组类的相关程度低。2.2基本原理2.2.1统计思想因子分析的基础思想是依据原变量之间的关联程度,把最初的变量按照关联程度分,让不同一组间的变量的相关程度较小,同一组内的原变量相关程度较大。不同的分组代表各个不同的结构,这些结构统称为公共因子。用不能观测的综合变量表示这些结构。例如,对学生成

12、绩的综合评价。为了体现变量不可以定量描述,需要提取一些能够反映学生成绩的各科成绩,这些科目成绩为变量,具有一定的联系与依赖,通过这些变量能看到学生的综合素质。 因子分析不仅能够运用于变量还能够运用于样品。第一,得到因子表达式第二,在因子表达式代入相应数据算出因子得分;第三,依据因子得分标出样品的点或者变量的点,使得对他们的分组措施更加直观。这种方法在研究它们之间的相关关系时,不仅可以用于变量之间,而且还能够用于样品。称前者为 R 型因子分析,后者为Q 型因子分析。2.2.2数学模型设有n个样本,每个样本由p个已经标准化的指标来描述。即每个指标的样本均值等于0,方差等于1。正交因子模型为 (2.

13、2.1)其中是相互独立的公共因子,且。它们是从标准化的可观测评价指标分解出来的含义需要依据具体情况啦解释的不可观测指标。是各个指标特有的因子,含义为指标中公共因子不可以解释的部分,与公共因子相互独立,称为特殊因子。是第 i 个指标在第 j 个公共因子上的系数,称为因子载荷。3主成分分析与因子分析的比较3.1相同之处(1)基本思想大致相同 主成分分析与因子分析都能够解除原变量之间的定性联系。这两个方法造出新的综合指标,不仅能够下降原变量的维度,同时还能够简略它们的结构。(2)解决问题的步骤相似 两种方法都是通过相关系数阵或协方差矩阵的特征根和特征向量之 间的不相关的特性,将原始变量的相关性综合成

14、新的综合指标的不相关性。两者的步骤相同,但是后者比前者多了因子旋转、得分两个步骤。(3)确定权数的角度(信息量角度)相同。 主成分分析的方差越大,权数越大,信息量越大,反之亦然。因子分析与主成分分析一样。所以两者都用方差大小体现信息量。(4)分析结果形式相似 两种分析方法都把重点放在变量方差较大的,忽略了方差较小的。出现“大吃小”的现象。3.2不同之处(1) 从概念上看 主成分分析是把多个数量的指标转化成少量互不相关的综合指标的一种统计方法。因子分析把关系复杂的变量(样品)综合转化为少量的几个因子,体现原变量和因子之间的关系,还能依据因子的不同对变量进行分类。后者是在前者基础上更加深入研究。(

15、2)从思想方面上看主成分分析是尽可能把原有的有一定程度相关性的那些指标组成新的互不相关的综合指标替代原有指标。因子分析根据研究变量的相关系数矩阵内在框架,寻找一些不能观测的随机变量。这几个随机因子不仅能够控制全部变量,还可以去刻画它们。然后按照相关程度对变量进行分组,让同一组的变量相关程度高或者同一组的样品相似程度高,但是不同组的相关程度或者相似程度低。(3)从数学模型上看 主成分分析实际上是一种变量的转化。经由变量的变换把重点放在变差比较大的主成分上,放弃那些主成分变差比较小的。然而因子分析的重点是把注意力放在那些少量不可观测的公共因子上,放弃那些特殊因子。 主成分分析是把主成分表示为原观测

16、变量的线性组合。 i=1,p, 实际是原始数据的结构不发生改变,而空间坐标变化因子分析的数学模型则是刻画原始指标的X协方差阵结构。把原始的观测变量分解成两个部分,一部分是公共因子,一部分是特殊因子。 , j=1,p原始变量的个数p与公共因子的个数m相等时,即m=p,则不可以考虑,因此因子分析只与一种变量变换对应。然而在实际上公共因子个数都少于原变量个数,在经济角度上看,公共因子个数越少越好。主成分各个系数是正交的和唯一确定的。主成分和原变量的相关程度不能用系数的大小来表示,系数矩阵不能够进行旋转。但是因子模型的系数矩阵可以表示公共因子与原变量的相关程度,而且系数矩阵不是唯一的。(4)从计算过程

17、看在主成分分析中,可以根据可观测的原变量X求出具有可逆性的主成分F。代表X得协方差矩阵所对应特征值的特征向量。而在因子分析中,载荷矩阵是不可逆的,只有根据可观测的原变量估算出不可观测的公共因子。反映了第i个变量在第j个公共因子上的负荷和相对重要性,也表示第i个变量和第j个公共因子的相关系数。代表第j个原始观测变量的特殊因子,此时和的均值都等于零,方差都等于1.估算的公共因子得分=因子得分系数矩阵 标准化后的原观测变量矩阵主成分分析排名通常根据第1主成分的得分,如果原始变量不能够完全用第1主成分代替,就要接着依次选择第2个主成分、第3个等等。在主成分表达式中代入标准化的原始变量值,计算出主成分得

18、分。在因子得分函数中代入标准化的原始变量值计算出因子得分。4 主成分分析与因子分析的应用4.1应用SPSS进行主成分分析应用SPSS软件利用主成分综合评价全国重点企业的经济效益。数据见下表:表4-1 各地企业经济指标表 编号厂家固定资产利税率资金利税率销售收入利税率资金利润率固定资产产值率流动资金周转天数万元产值能耗全员劳动生产率1琉璃河16.6826.7532.7419.453.265527.821.752大连16.5429.8232.4820.5550.516937.581.313邯郸19.828.5532.9418.259.835533.922.874湘乡32.9542.7847.973

19、3.8766.455032.672.65哈尔滨7.288.9721.34.7834.376239.281.636合肥29.2656.4940.7343.6875.336726.682.137永登21.1335.239.1626.5252.476235.081.738柳州25.4837.8536.6627.5368.186335.782.439耀县19.8328.7833.4120.0759.257139.121.8310工源16.7528.7229.6219.2355.765930.081.6211温州22.2454.5931.053767.956332.331.5712抚顺15.8328.1

20、326.417.5361.286132.771.513峨嵋15.0519.3827.3214.216.127635.851.514大同15.222.433.9916.2346.786541.681.5215绍兴22.2554.5831.053767.936332.331.58资料来源:中国统计年鉴,2004年经标准化后,数据如下表表2x1x2x3x4x5x6x7x8-0.376748276-0.357945867-0.113558994-0.36669374-0.0387936991.1933473261.426820816-0.277121544-0.399839631-0.12223313

21、5-0.01643617-0.145447246-0.209518035-0.87278621-0.703609613-1.2711444720.08815766-0.2938762980.050802708-0.2873228010.3561566141.1933473260.2890347772.2531186372.1248151220.9099987952.2980754361.1681418010.7553149212.2116559970.3012345641.643150022-1.822267065-1.764312434-1.68844294-1.719968257-1.17

22、25475650.043643988-1.009541818-0.5482187061.5890956991.9944355571.2162765962.1414279451.287926758-0.872786212.1648095860.6039442340.3082952390.3104341950.9801934240.438921295-0.0856827770.043643988-0.204793667-0.3223044040.9640897050.5176715630.6215860740.5421035160.85871135-0.09974305-0.3541002051.

23、2590957090.106630743-0.1973764550.121029981-0.1910855370.321891518-1.101432778-0.98377554-0.096390102-0.365972311-0.202122348-0.445270792-0.284346380.112092950.6666359451.046255417-0.7967244370.4791712621.844148916-0.231600581.4786806010.844885083-0.099743050.435396746-0.683767287-0.507599285-0.2567

24、00129-0.926402321-0.4629310040.4385130720.191732240.330666037-0.615992996-0.627674328-0.932199032-0.805372341-0.782399035-2.871374938-1.620400318-0.347911443-0.277121544-0.604582974-0.6229249430.056779497-0.580995275-0.427732592-0.373281398-1.398099436-0.774133008-0.955571561-0.826998383-1.117659575

25、-0.948085871-0.169842661-0.503833793-0.99238622-0.096390102(2)将表2的数据导入SPSS软件,得到分析结果表3 相关矩阵x1x2x3x4x5x6x7x8Correlationx11.000.849.923.902.651.312.489.598x2.8491.000.690.988.723.107.595.265x3.923.6901.000.774.544.366.342.531x4.902.988.7741.000.688.121.596.329x5.651.723.544.6881.000.399.442.359x6.312.1

26、07.366.121.3991.000.343.480 x7.489.595.342.596.442.3431.000.226x8.598.265.531.329.359.480.2261.000表4 总方差解释ComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %14.85860.76160.7594.85860.76160.75921.25915.87176.6311.25915.87176.6313

27、.84110.45987.0614.5266.32593.6575.3864.63898.3566.1161.43399.7287.021.25699.8388.001.024100.000从上表可以看出,前三个主成分解释了所有方差的87.061%。说明这按个主成分代表了87.061%原始数据的信息。确认前三个主成有有足够资格代表原来的8个指标来评价企业的经济效益。这三个主成分分别用来表示。得到因子载荷矩阵,即相关矩阵的前3个特征根的特征向量,输出结果如表5所示:表5Component123x1.959-.018-.238x2.898-.395.038x3-.863.081-.042x4.93

28、1-.349-.0.41x5.790.000.179x6.426.769.351x7.653-.068.642x8.572.615-.312对表5-3的第n列的每个元素分别除以第n个特征根的平方根,就得到主成分分析的第n个主成分系数。结果如表6表6主成分1主成分2主成分3x10.434 067-0.016 487-0.261 167x20.407 766-0.351 1630.040 662x30.390 8110.072 2408-0.369 59x40.420 727-0.311 087-0.041 32x50.356 8340.000 23140.198 903x60.191 6310.

29、686 4530.377 486x70.290 517-0.069 1510.701 934x80.258 7890.546 3096-0.341 87由上表可得3个主成分的线性组合如下:主成分的经济意义由各线性组合中权数较大的几个指标的综合意义来确定。固定资产利税率、资金利税率、销售收入利税率、资金利润率这4个指标的综合反映是这个综合因子。有60.759%的把握去评价企业的经济效益,可以看出这个综合因子代表了经济效益的盈利方面,表达了企业的盈利能力。因此可以确定这四个指标是反映企业经济效益的主要指标。主要是流动资金周转天数和全员劳动生产率的综合反映,代表企业的资金和人力资源的利用程度。主要反

30、映万元产值能耗。这3个综合因子在三个方面影响和刻画着企业经济效益,用它们来考核企业经济效益具有87.061%的可靠性。(4)依据第一主成分得分对各企业经济效益做综合评价。将标准化后的原始数据代入的线性表达式,计算出各个样品的第一主成分得分并排名。如表7所示表7名次琉璃河0.049 4487大连-1.066 5211邯郸0.840 475湘乡3.889 4612哈尔滨-0.752 1110合肥3.957 0571永登0.663 0816柳州1.611 0514耀县-0.474 259工源-0.269 528温州1.723 4233抚顺-3.739 3715峨嵋-2.804 5814大同-1.56

31、9 4312绍兴-2.058 2113从上表看出,合肥排第一,综合效益最好。湘乡的综合效益为第二名;抚顺的综合效益最差。按照公司的主成分得分对运营情况进行比较分析不算合理准确。因此需要进行深入研究。4.2应用SPSS进行因子分析(1)同样用图5-1的数据,对企业经济效益指标体系的八项指标建立因子分析模型。SPSS输出结果。如表8所示:表8 总方差解释ComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %1

32、4.85860.76160.7594.85860.76160.75921.25915.87176.6311.25915.87176.6313.84110.45987.061.84110.45987.0614.5266.32593.6575.3864.63898.3566.1161.43399.7287.021.25699.8388.001.024100.000由上表可看出,前3个特征根较大,其余5个特征根较小。前3个公共因子对样本方差的贡献和为87.061%,选取前3个公共因子建立因子载荷阵。(2)对因子载荷阵进行方差最大化正交旋转,得到结果如表9所示:表9 旋转分量矩阵Component123x1.914-.332.187x2.881-.053.421x3.839.397.029x4.921.000.372x5.593.268.483x6-.047.851.421x7.309-.115.848x8.398.795-.116由上表可得出企业经济效益指标体系的因子分析模型:由上述模型可知,固定资产利税率、资金

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论