已阅读5页,还剩46页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章 主成分分析,第一节 主成份分析简介第二节 主成份分析的基本思想第三节 主成份分析的基本原理第四节 主成份分析的主要步骤第五节 主成份分析应用实例,Principal components analysis(PCA),第一节 主成份分析简介,也称主分量分析。由霍特林(Hotelling)于1933年首先提出。利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。每个主成分都是原始变量的线性组合。各个主成分之间互不相关。,就是设法将原指标重新组合成一组新的相互无关的几个综合指标来代替原来指标,利用降维的思想,在损失很少信息的前提下把多个原指标转化为几个综合指标的多元统计方法。,一、主成份分析概念,二、主成分分析的内涵,将彼此相关的指标变量转化为彼此不相关的指标变量;将个数较多的指标变量转化为个数较少的指标变量。将意义单一的指标变量转化为意义综合的指标变量。,第二节 主成份分析的基本思想,研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成份),在保留原始变量主要信息的前提下起到降维和简化问题的作用。,相关数据的散点图:序号 胸围 体重Id x1x2 1 1453.52 1352.0n 2558.0,一对数据 (x1,x2) 一个点 x1 , x2线性相关 倾斜直线,第三节 主成分分析的基本原理,基本原理,原坐标系:。x1,x2相关。x1,x2变异均匀新坐标系:。Z1,Z2不相关。Z1,Z2变异不均匀 var(Z1)var(Z2),坐标变换公式: z1= cosx1 + sinx2 + c1 z2=-sinx1 + cosx2 + c2,坐标变换,忽略不计,基本原理,坐标变换公式:Z1= cosX1+sinX2Z2=-sinX1+cosX2,Z1= w11 X1 +w12 X2Z2= w21 X1 +w22 X2,XZ线性变换,线性变换,标准化变量:,假定有n个地理样本,每个样本共有p个变量,构成一个np阶的地理数据矩阵,(3.5.1),当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。,定义:记x1,x2,xP为原变量指标,z1,z2,zm(mp)为新变量指标,(3.5.2),系数lij的确定原则: 1. zi与zj(ij;i,j=1,2,m)相互无关;,2. z1是x1,x2,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,xP的所有线性组合中方差最大者; zm是与z1,z2,zm1都不相关的x1,x2,xP, 的所有线性组合中方差最大者。 则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xP的第1,第2,第m主成分。,从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 , p)在诸主成分zi(i=1,2,m)上的荷载 lij( i=1,2,m; j=1,2 ,p)。 从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。,主成分分析的基本原理,寻找一个适当的线性变换:将彼此相关的变量转变为彼此不相关的新变量;方差较大的几个新变量就能综合反应原多个变量所包含的主要信息;新变量各自带有独特的专业含义。,第四节 主成份分析的计算步骤,一、计算相关系数矩阵 rij(i,j=1,2,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为,(3.5.3),(3.5.4),二 计算特征值与特征向量 1. 解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列 ;,2. 分别求出对应于特征值的特征向量 ,要求 =1,即,其中表示向量 的第j个分量。,3. 计算主成分贡献率及累计贡献率 贡献率,累计贡献率,一般取累计贡献率达85%95%的特征值所对应的第1、第2、第m(mp)个主成分。,4. 计算主成分载荷 5.各主成分的得分,(3.5.5),(3.5.6),总 结,用不相关的变量取代相关的变量;合并变量信息、减少变量个数。,第五节 主成份分析方法应用实例,应用实例1,表7.1 某农业生态经济系统21个区域单元的有关数据,表7.1为某地区农业生态经济系统21区域单元相关指标数据,运用主成分分析方法可以用更少的指标信息较为精确地描述该地区农业生态经济的发展状况。,步骤如下: 1.将表中的数据作标准差标准化处理,然后将它们代入公式,计算相关系数矩阵,如表7.2所示.,表7.2相关系数矩阵,2.由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(表7.3)。由表7.3可知,第1,第2,第3主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第1、第2、第3主成分z1,z2,z3即可。,表7.3特征值及主成分贡献率,3.对于特征值=4.661 0,=2.089 0,=1.0430分别求出其特征向量e1,e2,e3,再用公式计算各变量x1,x2,x9在主成分z1,z2,z3上的载荷(表7.4)。,表7.4 主成分载荷,上述计算过程,可以借助于SPSS软件系统实现。,(1)第1主成分z1与x1,x5,x6,x7,x9呈现出较强的正相关,与x3呈现出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第1主成分z1是生态经济结构的代表。 (2)第2主成分z2与x2,x4,x5呈现出较强的正相关,与x1呈现出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第2主成分z2代表了人均资源量。,分析:,显然,用3个主成分z1、z2、z3代替原来9个变量(x1,x2,x9)描述农业生态经济系统,可以使问题更进一步简化、明了。,(3)第3主成分z3与x8呈现出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第3主成分在一定程度上代表了农业经济结构。 (4)另外,表7.4中最后一列(占方差的百分数),在一定程度上反映了3个主成分z1、z2、z3包含原变量(x1,x2,x9)的信息量多少。,应用实例2,山东欠发达县域的可持续发展能力的主成份分析,曲阜师范大学学报(自然科学版)2008年第1期,研究对象,图 山东省欠发达县的分布图,借鉴县域可持续发展研究的成果56,选择20个原始指标或生成统计指标,共包括:人口密度(X1)、人口自然增长率(X2)、非农业人口比重(X3)、人均GDP(X4)、GDP增长率(X5)、二产比重(X6)、三产比重(X7)、社会消费品零售总额(X8)、乡村从业人员数(X9)、每百人中的中小学校在校人数(X10)、每百劳动力中文盲或半文盲(X11)、农村居民人均纯收入(X12)、万人拥有医疗机构院床位数(X13)、万人邮电业务总量(X14)、万人拥有电话机数(X15)、生物丰富度指数(X16)、植被覆盖指数(X17)、水资源丰度指数(X18)、土地退化指数(X19)、环境污染指数(X20),这20项指标反映地区的经济、社会、资源和环境等状况,体现了各欠发达县的可持续发展实力,各项数据均取自山东统计年鉴和淄博统计年鉴 (2005年)。,1.将数据作标准差标准化处理,然后将它们代入公式,计算相关系数矩阵,如所示.,2.由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(表1)。,从表1可以看出,8个公因子对方差的累计贡献率达到了83.3130%,即保留了原有指标83.3130%的信息。它们分别对应着原样本数据点数据变异的最大方向和次大方向,这是原变量系统的一个最佳整合,因此,我们可以83.3130%的精度将变量的有效维数从20维降至8维。,表1特征值及其累计贡献率,3.对于特征值=5.3886 ,=2.4995, , =2.2570分别求出其特征向量e1,e2, , e8,再用公式计算各变量x1,x2,x20在主成分z1,z2, , z8上的载荷(表1)。,上述计算过程,可以借助于SPSS软件实现。,表2旋转后的因子载荷矩阵,从表2可以看出,公因子Z1在人均GDP、三产比重、农村居民人均纯收入、中、小学校在校人数、每百劳动力中文盲或半文盲和水资源丰度指数上的载荷较大,说明公因子Z1主要反映的是经济发展水平、居民生活水平和教育状况;公因子Z2在人均社会消费品零售总额和环境污染指数上的载荷较大,说明公因子Z2主要反映的是居民消费和环境质量状况;公因子Z3在乡村从业人员数和万人拥有电话机数上的载荷较大,说明公因子Z3主要反映的是劳动力状况和通讯设施状况;公因子Z4在生物丰富度指数和植被覆盖指数上的载荷较大,说明公因子Z4主要反映的是资源状况;公因子Z5在GDP增长率和邮电业务总量上的载荷较大,说明公因子Z5主要反映的是经济发展潜力;公因子Z6在二产比重和土地退化指数上的载荷较大;公因子Z7在人口密度和非农业人口比重上的载荷较大,说明公因子Z7主要反映的是人口和城镇化状况;公因子Z8在人口自然增长率和万人拥有医疗机构床位数上的载荷较大,说明公因子Z8主要反映的是医疗卫生状况。,分析过程:,SPSS实现步骤,拿上题为例,选AnalyzeData ReductionFactor进入主对话框;把人口密度等9个原始指标选入Variables,然后点击Extraction,在Method选择方法主成分分析(Principal components),下面的选项可以随意,比如要画碎石图就选Scree plot,另外在Extract选项可以按照特征值的大小选主成分(或因子),也可以选定因子的数目;之后回到主对话框(用Continue)。然后点击Rotation,再在该对话框中的Method选择一个旋转方法(如果是主成分分析就选None),在Display选Rotated solution(以输出和旋转有关的结果)和Loading plot(以输出载荷图);之后回到主对话框(用Continue)。如果要计算因子得分就要点击Scores,再选择Save as variables(因子得分就会作为变量存在数据中的附加列上)和计算因子得分的方法(比如Regression);要想输出Component Score Coefficient Matrix表,就要选择Display factor score coefficient matrix;之后回到主对话框(用Continue)。这时点OK即可。,SPSS实现步骤,将以上数据导入到数据窗口中,先定义各变量为numberic型。激活Analysis菜单选Data Reduction的Factor.命令项,弹出Factor Analysis对话框(图1)。在对话框左侧的变量列表中选变量X1至X9,点击钮使之进入Variables框。,图 1 因子分析对话框,点击Descriptives.钮,弹出Factor Analysis:Descriptives对话框(图2),在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差,在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵,并选KMO and Bartletts test of sphericity项,要求对相关系数矩阵进行统计学检验。点击Continue钮返回Factor Analysis对话框。,图2 描述性指标选择对话框,图3 因子提取方法选择对话框,点击Extraction.钮,弹出Factor Analysis:Extraction对话框(图3),系统提供如下因子提取方法:,点击Rotation.钮,弹出Factor Analysis:Rotation对话框,系统有5种
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 售房补充合同范本
- 城市国有土地租赁合同范本
- 《管理会计学》模拟题库358题(含标准答案)
- 公司投资合同范本
- 微生物学检验技术 课件 3项目三:痰液标本采集与处理
- 手术定金合同范本
- 油采购合同范本
- 中止合同范本
- 三级护士述职报告
- 熟料运输合同范本
- 前列腺癌的放化疗护理
- 机场英语-Airport-English课件
- 电力电缆基础知识专题培训课件
- 石材加工工艺及技术标准
- 数学教师的专业发展-课件
- 六年级上册美术课件-第1课 建筑艺术的美 ▏人美版 (共27张PPT)
- 教培用诊断学少尿无尿多尿课件
- 医院引流管护理考核评价标准
- 培养孩子的好习惯课件
- 二年级上册总复习(表内乘法)-完整版PPT
- 四年级美术上册课件-14.漂亮的房间4-苏少版(共17张PPT)
评论
0/150
提交评论