版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2第十一章 主成分分析【本章导读及学习目标】主成分分析是多元数据分析中的一个重要方法,它的主要工作目的是在力保数据信息损失最少的原则下,对高维变量空间进行降维处理。事实上,在一个低维空间进行系统分析总要比在高维空间容易得多。在本章中,将讨论主成分分析方法的基本思路和工作原理,介绍主成分分析方法的计算过程以及辅助分析技术,并简要介绍因子分析方法。此外,还将通过一个综合案例来说明如何运用这些方法来解决实际工作中的数据分析问题。通过本章学习,应了解主成分分析和因子分析的工作原理、计算过程、对数据分析结果质量的评价方法、对主成分(或主因子)的解释方法,此外还将讨论主成分分析或因子分析在应用中需要注意的
2、一些基本问题。3第一节 工作目标和基本思路一、主成分分析的工作目的主成分分析有许多成功的应用案例。英国统计学家斯科特(Scott)在1961年曾经对157个英国城镇发展水平进行调查,原始测量的变量是57个。而经过主成分分析,只需5个新的潜在变量,就可以95%的精度表示原始数据的变异情况。可以想象,在5维空间对系统进行任何分析,都比在57维更加快捷、有效。另一个著名的工作是美国经济学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国19291939年各年数据,得到17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息和外贸平衡等。在进
3、行主成分分析后,他竟以97.4%的精度,用3个潜在变量取代了原来的17个变量。根据经济学知识,斯通给这3个潜在变量分别命名为总收入、总收入的变化率,以及经济发展和衰退的趋势(是时间的线性项)。更有意思的是,这3个新变量都是可以直接测量的,因此完全可以通过测量这3个新变量来取代原来对17个变量的测量,于是,问题得到了极大的简化。4一、主成分分析的工作目的在主成分分析应用中,有两种特殊的情况尤其引起人们的关注:如果能将一个 维变量系统有效地降至二维,就可以在平面图上描绘出每一个样本点,从而直接观察样本点之间的相似关系以及样本群点的分布特点和结构。所以,主成分分析使高维空间中数据点的可视性成为可能。
4、在数据信息的分析过程中,对直观图像的观察是一种重要的分析手段,它可以更好地协助系统分析人员的思维与判断,及时发现大规模数据群中的普遍规律与特殊现象,大大提高数据信息的分析效率。另一方面,如果可以在较高的精度下,将一个高维变量系统有效地降至一维,就有可能将高维指标系统构造成一个综合指数,用于多目标评估决策。例如英国统计学家肯道尔(Kendall) 曾评估英国各地区农业生产水平。他采用英国48个郡的10种农作物产量作为评估变量。在进行主成分分析后,第1主成分的累计贡献率达到 47.6%,肯道尔将其称为“生产能力水平”,并把英国各地区按此指数排序,把它们的生产情况分为优、良、中、可、劣五种。而事实表
5、明,这一评估结果与当时有关农业生产能力的地理分布的一般知识是十分一致的。5二、主成分分析的基本原理6二、主成分分析的基本原理7第二节 主成分分析的计算方法一、算法推导8一、算法推导9一、算法推导10一、算法推导11二、主成分分析的计算步骤12三、主成分的基本性质13三、主成分的基本性质14第三节 辅助分析技术一、精度分析15二、解释主成分16二、解释主成分17二、解释主成分18三、特异点的发现19三、特异点的发现通常情况下,如果去掉这一类特异点,往往会使数据分析的有效性有很大的改善。特别是在做主平面图示时,由于极个别特异点的存在,它们会占据平面图的大部分版面,而使其他所有样本点聚集在一团,难以
6、分辨。去掉这几个特异点,就可能立即得到一个更加清晰的平面图示。所以,人们常常先去掉这类点再做主成分分析。然后,可以将这些作为补充元素,放回到主超平面上去,以观察数据的特性。特异点的存在是十分常见的,它们的产生有时是由于一些特殊原因造成的。例如,在分析历史数据时,技术的突变,飞跃式的进展,会使评价企业生产水平的数据统计点有特殊表现。在对产品进行市场分析时,可能会发现一个产品,因为它的某项特别能迎合顾客心理的品质,使其销售状况远远优于其他同类产品。对特异点的分析,有助于找到这些特别的品质。20三、特异点的发现21四、样本点在主超平面上的表现质量22五、数据重构23五、数据重构24第四节 因子分析方
7、法一、因子分析模型因子分析方法(factor analysis)与主成分分析有着十分密切的联系。在应用中,它可以对由主成分分析得到的低维子空间进行适当的坐标旋转变换,从而使潜变量(成分或因子)的实际含义更加清晰。因子分析的思想方法最早出现在心理学研究领域。1904年英国心理学家斯皮尔曼(Spearman) 在美国心理学杂志上发表了题为“客观决定和测量一般智力”的论文,提出智力是由一般因素和特殊因素构成,并给出相应的数学模型。在之后的20多年时间里,许多心理学家围绕着进一步证实或反驳斯皮尔曼的心理因子分析理论作了大量的研究。1933年 霍特林(Hotelling) 在提出主成分分析理论的同时,将
8、因子分析研究纳入统计学领域,并完善了其理论体系。1940年劳莱(Lawley) 发表了关于因子分析的极大似然法专题论文,使因子分析的应用价值得到普遍认同。而随着计算机技术快速发展,因子分析已经成为应用非常广泛的数据分析技术。25一、因子分析模型26二、因子分析的基本原理27二、因子分析的基本原理28第五节 统计软件应用与案例研究一、SPSS软件应用下面以表11-2中的数据为例,简要介绍SPSS的主成分分析和因子分析的基本使用方法。首先说明使用主成分分析的主要过程。第1步:在SPSS中选择Analyze|Dimension Reduction|Factor命令,如图11-4所示,打开Factor
9、 Analysis对话框。第2步:将待分析的变量选入Variables列表框,如图11-5所示。29一、SPSS软件应用第3步:单击Extraction按钮,打开Factor Analysis:Extraction对话框,在Method下拉列表框中选择Principal components选项;下面的选项可以随意设置,比如要求画碎石图就选中Scree plot复选框等。在Extract选项组中,可以按照特征值的大小选主成分,也可以选定主成分的数目,如图11-6所示。之后单击Continue按钮回到主对话框。第4步:如果要进行因子分析,则可以单击Rotation按钮,再在打开的Factor A
10、nalysis:Rotation对话框的Method选项组中选择一个旋转方法(一般情况下常选择Varimax等。而如果要做主成分分析,就选择None);在Display选项组中选中Rotated solution(以输出和旋转有关的结果)以及Loading plot(输出载荷图)复选框如图11-7所示;之后单击Continue按钮回到主对话框。30一、SPSS软件应用第5步:如果要计算主成分(或因子)的具体数值(这里统称为“因子得分”),就要单击Scores按钮,打开Factor Analysis:Factor Scores对话框,再选中Save as variables复选框,并选择计算因子
11、得分的方法(比如Regression),因子得分就会作为变量存在原数据表中的附加列上;这时还可以选中Display factor score coefficient matrix复选框,输出因子得分系数矩阵,如图11-8所示。之后,单击Continue按钮回到主对话框。第6步:在主对话框中,单击OK按钮即完成主成分分析(或因子分析)的计算。31一、SPSS软件应用下面简要介绍应用SPSS软件进行主成分(因子)分析的几个重要的输出结果。(1) 全方差解释表(Total variance explained)。(2) 成分矩阵(Component matrix)。(3) 相关圆图(Componen
12、t plot)。(4) 旋转后的成分矩阵(Rotated component matrix)和旋转后的相关圆图(Component plot in rotated space)。(5) 因子得分系数矩阵(Factor score coefficient matrix)。 (6) 存储因子得分。(7) 绘制主平面图的方法。32一、SPSS软件应用如果要绘制主平面图,可以使用SPSS中的Graphs功能。在主成分分析(或因子分析)计算过程中,如果选中了Factor Analysis:Factor Scores对话框中的Save as variables复选框,则在原数据表中便会出现若干个附加列,这
13、是被标准化的因子得分变量:FAC1-1、FAC2-1等。为了绘制主平面图,具体的操作步骤如下。第1步:在SPSS中选择Graphs|Legacy Dialogs Scatter命令,打开Scatter/Dot对话框,如图11-9所示。33一、SPSS软件应用第2步:单击Simple Scatter按钮,打开Simple Scatterplot对话框。将FAC1-1放入X Axis;将FAC2-1放入Y Axis;再将反映样本点名称的变量放入Label Cases by中,如图11-10所示。34一、SPSS软件应用第3步:单击Options按钮,打开Options对话框,选中Display c
14、hart with case labels复选框,再单击Continue按钮回到主对话框,如图11-11所示。第4步:单击OK按钮即可完成主平面图的绘制工作。此外,如果在Set Markers by栏中放入某个表示样本点分类的变量,还可以在主平面图中看到用不同图形和颜色标明的样本点分类的情况。35二、案例研究(一)案例背景本节案例拟对某房地产开发公司在长江三角洲、珠江三角洲、环渤海地区的具有投资潜力的目标城市进行研究,从而为公司的房地产项目选择提供依据。由于该公司主要从事高科技节能房地产的开发,所售商品房的价格较一般商品房价格稍高,因此其所投资的城市必须具有较高的消费能力。所以在研究中,需要首
15、先筛选出商品房销售均价位于前列的城市,删去商品房均价较低、明显不具有投资潜力的城市。(二)主成分分析(三)城市投资潜力评价指标36本 章 小 结主成分分析是多元数据分析中的一个重要方法,它的基本功能是在数据信息损失最少的原则下,将高维变量空间降到低维空间。此类数据降维技术在科研工作中是很有价值的,因为在一个低维空间进行系统分析总要比在高维空间容易得多。在实际工作中,主成分分析经常被用于在众多的指标中寻找系统的主要影响因素;或者用于对高维空间进行可视化分析;近年来还常被用于构造高维变量系统的综合评价指数。也有人将主成分分析与回归分析结合起来,用于在自变量多重相关的条件下进行多元线性回归建模。本章
16、主要介绍了主成分分析的基本理论、方法及其应用,其主要内容可以概括成以下几个方面。(1) 在本章中,首先讨论了主成分分析方法的工作目标和基本原理,说明如何通过对高维数据系统的平移变换与旋转变换,提取数据集合变异最大的方向,从而将高维空间有效地降至低维。在此基础上,推导了主成分分析的计算方法,并给出了相应的计算步骤。(2) 对于从事实际工作的分析人员来说,更为重要的是要熟练掌握必要的辅助分析技术。因此,本章还进一步讨论了主成分分析中一些基本的辅助分析方法。(3) 在主成分分析内容的基础上,本章还简要地介绍了因子分析方法。事实上,在对主成分分析的应用过程中可以看到,对于主成分的含义解释经常是十分困难
17、的。而因子分析方法通过对由主成分张成的子空间做进一步的旋转变换,使经过变换后得到的每一个新的因子能够和一部分原始变量强相关,而和另一部分原始变量相关性很弱,这样就可以更加容易地解释新因子的含义,进而对降维后的子空间的物理含义给予更清晰的说明。在使用SPSS软件进行实际计算时,因子分析是主成分分析模块中的一个选项,它在具体应用过程中是十分方便的。37思考与练习题一、思考题二、练习题参见教材P33438案 例 分 析中国地区经济发展状况分析参见教材P336分析与提示:(1) 首先,应判断第1、第2主成分的累计贡献率,从而说明主平面的分析精度。(2) 根据SPSS中的图、表结果,指出第1、第2主成分与原变量的相关系数,并大致解释第1主成分与第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论