主成分分析与因子分析.ppt_第1页
主成分分析与因子分析.ppt_第2页
主成分分析与因子分析.ppt_第3页
主成分分析与因子分析.ppt_第4页
主成分分析与因子分析.ppt_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十三章主成分分析和因子分析,介绍: 1、主成分分析和因子分析的概念2、主成分分析和因子分析的过程、主成分分析和因子分析的概念、需求和可能性:在各领域的科学研究中,往往需要大量观测反映事物的多个变量,收集大量的数据进行分析寻找规则。 多变量大样本无疑为科研提供了丰富的信息,但在一定程度上增加了数据采集工作量,更重要的是,多数变量之间存在相关性,增加了问题分析的复杂性,同时可能给分析带来不便。 如果单独分析每个指标,则分析可能是孤立的,而不是集成的。 盲目减少指标会失去很多信息,容易得出错误的结论。 因此,在减少分析指标的同时,应尽量减少原指标所含信息的损失,找到对收集资料进行全面分析的合理方法

2、。 由于各变量间具有一定的相关关系,因此能够以较少的综合指标分别统合各变量中存在的各种信息。 主成分分析和因子分析就是降低这种维数的方法。 主成分分析和因子分析将多个实测变量转化为少数不相关综合指标的多变量统一修正分析方法直线综合指标往往不能直接观测,但它更能反映事物的本质。 因此广泛应用于医学心理学经济学等科学领域和社会化生产。 主成分分析和因子分析的概念(接下来),由于实测的变量之间存在一定的相关关系,所以能够以少数的综合指标分别综合整合各变量中存在的各种信息,但是综合指标之间没有相关,也就是说各指标所代表的信息不重叠。 综合指标被称为因子或主成分(提取若干因子),一般特征值1的累积贡献率

3、为0.8,主成分分析事例P316使用旋转的缺省值进行最简单的主成分分析(缺省主成分分析法:Principal components ) 示例P316 :对美国洛杉矶12人口普查区的5个经济学变量的数据进行因子分析,data13-01a,数据请参阅下一张幻灯片)菜单: analyzedatareductionfactorvariables:pop,School,employ house其他缺省值(主成分分析法principal不旋转)比较有用的结果: 2个主成分(因子) f1、f2和因子载荷矩阵(Component Matrix ),根据该表,各原始变量(标准化值) 的因子表达式: pop0.

4、581 f1. 806 f2school0. 767 f1-0. 545 f2employ0. 672 f1. 726 f 2服务0.932 f1-0. 104 f2house0. 799。 各个原变量都是5个因子的线性组合,可以提取两个因子f1和f2,可以概括原变量中包含的信息的93.4%。 f1和f2之前的系数表示此系数对变量的影响程度,也称为变量系数的载荷。 但是,因为各因子(主成分)的系数(负荷)没有大的差异,所以命名困难。 因此,为了命名因子,旋转可以使系数分成0和1两极,这使用可选项。洛奇将12个人口调查区的数据编号总人口中等学校平均总员工数专业服务中等住宅价格no pop学龄Sc

5、hool employ项目数services house 1570012.82500250002100010.9600100033400.8100 . 61700140250005400012.8160014025000682008.326006012007120011.44001016008910011.53300601400990012.534001800180010960013 1200012940011.4400010013000、因子分析例322旋转Rotation由于系数没有显着的差异,所以将进行旋转的(Rotation:method一般用Varimax )系数分化为0和1的两极,

6、 示例相同的菜单: analyzedatareductionfactorvariables:pop、School、employ、Services、house Extraction :使用默认值选择特征值1 )1) Rotation:method选择varimax score : save as variables和displayfactorscorecoefficientmatrix,并选择两个主要成分(因子) f1。 f2和旋转后的因子载荷矩阵,根据该表,各原始变量(标准化值)的因子表达式: pop0. 01602 f1. 9946 f2school0. 941 f1-0. 00882 f2

7、employ0. 137 f1. 9 0605f2第一主因子对中等学校的平均学龄、专业服务项目、中等住房价格有绝对值大的负荷(代表一般社会福利条件因子)。 第二主因子是总人口和总员工人数有很大负荷(表示人口-人口因子).P326是比较有用的结果:因子得分fac1_1、fac2_1。 其校正公式:因子得分系数与原变量的归一化值之积的和(P326 )。 然后,因子得分可以用来执行分簇p 327 (分析分簇-水平分簇)。 主成分分析实例P330不旋转市场研究中的顾客偏好分析,而是在市场研究中,分析顾客的偏好和当前市场的产品与顾客的偏好之间的差异,寻找新产品开发的方向。 顾客偏好分析常用主成分分析方法

8、(因子不旋转)。 例P330 :数据来自SAS公司,1980年汽车制造商从竞争对手中选出了17种车型,访问了25位顾客,要求他们根据自己的喜好评分17种车型。 评分范围09.9、9.9表示最高水平的偏好。 data13-02a(1725:17个case,25个变量V1-V25 ) 菜单: analyzedatareductionfactorvariables:v1- v 25 extraction :方法: principalcomponentsextracces 360 save as variables相对有用的结果: 3个nt Matrix :第一和第二主成分的载荷图比较有用的结果:因子

9、得分fac1_1,faaac之后,可以利用因子得分进行各种分析:制作偏好图:在fac1_1,fac2_1制作散点图假设你是公司的财务管理者,掌握公司的所有数据,如固定资产、流动资金、借款金额和期限、各种税、工资支出、原料消费、产值、利润、折旧、员工人数、员工分工和教育程度等。 如果能让我介绍上述公司的状况的话,能照原样提出这些指标和数字吗? 当然不能。 要高度概括各个方面,用一两个指标简单明了地说明情况。 主成分分析,每个人都会遇到有很多变量的数据。 例如全国和各地区的多数经济和社会变量的数据各学校的研究、教育等各种变量的数据等。这些数据的共同特征是变量多,这样的多个变量中有很多相关的。 人们

10、想找到那些少数的“代表”进行说明。 在本章中,降低主成分分析和因子分析这两个变量次元数,介绍使说明、理解、分析变得容易的方法。 实际上主成分分析可以说是因子分析的特例。 在引入主成分分析之前,让我们看一下以下示例。 成绩数据(student.sav )、100名学生的数学、物理、化学、国语、历史、英语成绩如下表(一部分)所示。 本例可以提出的问题是,当前的问题是,这个数据的6个变量是否可以用一个或两个综合变量来表现,这一、两个综合变量中包含多少原始信息呢? 可以使用找到的综合变量对学生进行排序吗? 这种与数据相关的问题可以推广到企业、学校的分析、排名、判别、分类等问题上。主成分分析、例子中的数

11、据点是6维,也就是说,各观测值是6维空间中的1点。 我们想用低维空间表现6维空间。 首先,假设只有两个变量(横轴和纵轴表示)是二维的。因此,每个观测值都有两个坐标值,与这两个坐标轴对应。如果这些数据形成椭圆形格子(这可以在变量的二维正则假设下进行),则椭圆的长轴和短轴在短轴方向上数据的变化少的极端的状况下,短轴稍微退化的话,那么只能在长轴的方向上说明这些点的变化,这样,从二维向一维的维简并自然就完成了。 在主成分分析中,如果坐标轴与椭圆的长轴平行,则表示长轴的变量表示数据的主要变化,表示短轴的变量表示数据的次要变化。 但是,坐标轴通常不与椭圆的短轴平行。 因此,必须找到椭圆的长轴,并将其转换为

12、新变量与椭圆的长轴平行。 如果长轴变量代表数据中的大部分信息,则将原始两个变量替换为该变量(截断二维)即可完成降维。 椭圆(球)的长轴越大,降维也是理所当然的。 主成分分析在多维变量的情况下与二维类似,也有高维的椭圆体,但只是直观上看不到。 首先找到高维椭球体的主轴,把表示多个数据信息的最长的几个轴作为新变量,这样主成分分析就基本完成了。 请注意,高维椭球体的主轴也与二维的情况相同,相互垂直。 这些相互正交的新变量是原始变量的线性组合,称作主要组件。 主成分分析有几个变量和几个主成分,就像二维椭圆有两个主轴,三维椭圆体有三个主轴一样。 选择的主要成分越少,降低维度越好。 什么是标准? 这就是这

13、些选出的主成分所代表的主轴长度之和占主轴长度总和的大部分。 有些文献提出,所选主轴的全长约占所有主轴长度之和的85%即可,但实际上,这只不过是粗略的说法,具体选择几个取决于实际情况。 同时,对于我们的数据,SPSS输出在这里的Initial Eigenvalues在这里的6个主轴的长度上也被称为特征值(数据相关阵列的特征值)。 前两个成分特征值的累积占总方差的81.142%。 后特征值的贡献越来越少。 特征值的贡献从SPSS的所谓碎石图也可以看出,如何解释这2个主要成分。 前面所述的主要成分是原6个变量的线性组合。 是什么样的组合? SPSS可以输出下表。 的双曲馀弦值。 其中,每列表示将主要

14、成分线性组合为原始变量的系数(百分比)。 例如,作为第一主要成分是数学、物理、化学、语文、历史、英语这6个元变量的线性组合,系数(比例)为-0.806、-0.674、-0.674、0.893、0.825、0.0如果用x1,x2,x3,x4,x5,x6分别表示原来的6个变量,用y1,y2,y3,y4,y5,y6表示新的主成分,则原来的6个变量x1, 关于x2、y2的关系,x1=-0.806 y1. 353 y2x2=-0.674 y1. 531 y2x3=-0.675 y1. 513 y2x4=0. 893 y1. 306 y2x5=0. 825 y10.435 y2x 6例如,x1式中的y 1

15、的系数为-0.806 相关系数(绝对值)越大,主要成分相对于该变量的代表性成分也越大。 可以看出,第一主要成分对各变量有充分的解释。 最后几个主要成分和原变量没有多大关系。 可以将第一和第二主要成分的载荷点绘制成二维图形,以直观地显示原始变量的解释方式。 这个图叫做负荷图。 该图左边的三个点是数学、物理、化学三科,右边的三个点是语文、历史、外语三科。 图中的6个点比较混乱并不易看出,但将认识到这些点的坐标是前面的第一二主要成分载荷,坐标是前面表中的第一一二列中的整数,仍然能够识别。 因子分析、主成分分析在原理上是寻找椭球体的所有主轴。 因此,本来就有一些变量,也有一些主要成分。 因子分析预先决定要搜索若干成分,在此称为因子(factor ) (如两个),并且它要搜索两个。 由此,数学模型在因子分析和主成分分析上存在很多差异。 另外

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论