




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?
引子1目前一页\总数四十页\编于十一点当然不能。汇报什么?发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。需要把这种有很多变量的数据进行高度概括,用少数几个指标简单明了地把情况说清楚。2目前二页\总数四十页\编于十一点主成分分析(PrincipalComponentsAnalysis)和因子分析(FactorAnalysis)就是把变量维数降低以便于描述、理解和分析的方法。主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标),而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。这些综合变量就叫因子或主成分,它是不可观测的,即它不是具体的变量(这与聚类分析不同),只是几个指标的综合。在引入主成分分析之前,先看下面的例子。什么是主成分分析法?3目前三页\总数四十页\编于十一点成绩数据53个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。4目前四页\总数四十页\编于十一点从本例可能提出的问题能不能把这个数据表中的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?5目前五页\总数四十页\编于十一点事实上,以上的三个问题在地理学研究中,也会经常遇到。它所涉及的问题可以推广到对企业、对学校、对区域进行分析、评价、排序和分类等。比如对n个区域进行综合评价,可选的描述区域特征的指标很多,而这些指标往往存在一定的相关性(既不完全独立,又不完全相关),这就给研究带来很大不便。若选指标太多,会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉对区域影响较大的指标,影响结果的可靠性。6目前六页\总数四十页\编于十一点这就需要我们在相关分析的基础上,采用主成分分析法找到几个新的相互独立的综合指标,达到既减少指标数量、又能区分区域间差异的目的。7目前七页\总数四十页\编于十一点
二、主成分分析的基本原理8目前八页\总数四十页\编于十一点(一)主成分分析的几何解释
例中数据点是六维的;即每个观测值是6维空间中的一个点。希望把6维空间用低维空间表示。先假定只有二维,即只有两个变量,语文成绩(x1)和数学成绩(x2),分别由横坐标和纵坐标所代表;每个学生都是二维坐标系中的一个点。9目前九页\总数四十页\编于十一点空间的点如果这些数据形成一个椭圆形状的点阵(这在二维正态的假定下是可能的)该椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少;在极端的情况,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。10目前十页\总数四十页\编于十一点•••••••••••••••••••••••••••••••••••••假定语文成绩(X1)和数学成绩(X2)的相关系数ρ=0.6。设X1和X2分别为标准化后的分数,右图为其散点图。11目前十一页\总数四十页\编于十一点那么随机向量的方差—协方差矩阵为可以看出,在变量标准化的情况下的方差—协方差矩阵与其相关矩阵相等。由求矩阵特征值和特征向量的方法:令可以求出:12目前十二页\总数四十页\编于十一点对应的特征向量分别为:显然,这两个特征向量是相互正交的单位向量。而且它们与原来的坐标轴X1和X2的夹角都分别等于45º。如果将坐标轴X1和X2旋转45º,那么点在新坐标系中的坐标(Y1,Y2)与原坐标(X1,X2)有如下的关系:Y1和Y2均是X1和X2的线性组合系数代表什么?13目前十三页\总数四十页\编于十一点•••••••••••••••••••••••••••••••••••••在新坐标系中,可以发现:虽然散点图的形状没有改变,但新的随机变量Y1和Y2已经不再相关。而且大部分点沿Y1轴散开,在Y1轴方向的变异较大(即Y1的方差较大),相对来说,在Y2轴方向的变异较小(即Y2的方差较小)。14目前十四页\总数四十页\编于十一点事实上,随机变量Y1和Y2的方差分别为:可以看出,最大变动方向是由特征向量所决定的,而特征值则刻画了对应的方差。这只是我们举的一个例子,对于一般情况,数学上也能证明。15目前十五页\总数四十页\编于十一点在上面的例子中Y1和Y2就是原变量X1和X2的第一主成分和第二主成分。实际上第一主成分Y1就基本上反映了X1和X2的主要信息,因为图中的各点在新坐标系中的Y1坐标基本上就代表了这些点的分布情况,因此可以选Y1为一个新的综合变量。当然如果再选Y2也作为综合变量,那么Y1和Y2则反映了X1和X2的全部信息。16目前十六页\总数四十页\编于十一点从几何上看,找主成分的问题就是找出p维空间中椭球体的主轴问题,就是要在x1~xp的相关矩阵中m个较大特征值所对应的特征向量。究竟提取几个主成分或因子,一般有两种方法:特征值>1累计贡献率>0.8那么如何提取主成分呢?
(二)主成分分析的基本思想
17目前十七页\总数四十页\编于十一点假定有n个地理样本,每个样本共有p个变量,构成一个n×p阶的地理数据矩阵
(3.5.1)
综合指标如何选取呢?这些综合指标要想尽可能多地反映原指标的信息,综合指标的表达式中要含有原指标,那么我们通常是取原指标的线性组合,适当调整它们的系数,使综合指标间相互独立且代表性好。18目前十八页\总数四十页\编于十一点
定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标(3.5.2)
可以看出,新指标对原指标有多个线性组合,新指标对哪个原指标反映的多,哪个少,取决于它的系数。系数lij的确定原则:①
zi与zk(i≠k;i,k=1,2,…,m;j=1,2,…,p)相互无关;19目前十九页\总数四十页\编于十一点
②
z1是x1,x2,…,xP的一切线性组合中方差最大者(最能解释它们之间的变化),z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;…;zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者。
则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第1,第2,…,第m主成分。
20目前二十页\总数四十页\编于十一点
从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的荷载lij(i=1,2,…,m;j=1,2,…,p)。从数学上可以证明,它们分别是相关矩阵(也就是x1,x2,…,xP的相关系数矩阵)m个较大的特征值所对应的特征向量。
21目前二十一页\总数四十页\编于十一点三、主成分分析的计算步骤22目前二十二页\总数四十页\编于十一点(一)计算相关系数矩阵
rij(i,j=1,2,…,p)为原变量xi与xj标准化后的相关系数,rij=rji,其计算公式为(3.5.3)
(3.5.4)
23目前二十三页\总数四十页\编于十一点
(二)计算特征值与特征向量1、解特征方程,求出特征值,并使其按大小顺序排列;
2、分别求出对应于特征值的特征向量,要求=1,即,其中表示向量的第j个分量,也就是说为单位向量。24目前二十四页\总数四十页\编于十一点3、计算主成分贡献率及累计贡献率贡献率累计贡献率
一般取累计贡献率达85%~95%的特征值所对应的第1、第2、…、第m(m≤p)个主成分。
25目前二十五页\总数四十页\编于十一点4、计算主成分载荷
在主成分之间不相关时,主成分载荷就是主成分zi与变量xj之间的相关系数(在数学上可以证明)
5、各主成分的得分
得到各主成分的载荷以后,可以按照(3.5.2)计算各主成分的得分
(3.5.5)
26目前二十六页\总数四十页\编于十一点(3.5.6)
每个地区的综合评价值为:对各个主成分进行加权求和。权重为每个主成分方差的贡献率。27目前二十七页\总数四十页\编于十一点四、SPSS在主成分分析中的应用28目前二十八页\总数四十页\编于十一点以全国31个省市的8项经济指标为例,进行主成分分析。第一步:录入或调入数据(图1)。图1原始数据(未经标准化)29目前二十九页\总数四十页\编于十一点30目前三十页\总数四十页\编于十一点⒈设置描述(Descriptives)选项。单击描述按钮,弹出描述对话框选中单变量描述性(Univariatedescriptives)复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目选中原始分析结果(Initialsolution)复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。在相关矩阵(CorrelationMatrix)栏中,选中系数(Coefficients)复选项,则会给出原始变量的相关系数矩阵;选中行列式(Determinant)复选项,则会给出相关系数矩阵的行列式,如果希望在Excel中对某些计算过程进行了解,可选此项,否则用途不大。其它复选项一般不用,但在特殊情况下可以用到。设置完成以后,单击Continue按钮完成设置(图5)。31目前三十一页\总数四十页\编于十一点打开抽取对话框。因子提取方法主要有7种,在方法(Method)栏中可以看到,系统默认的提取方法是主成分.因此对此栏不作变动,就是认可了主成分分析方法。⒉设置抽取(Extraction)选项。在分析(Analyze)栏中,选中相关性矩阵(Correlationmatirx)复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中协方差矩阵(Covariancematrix)复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。32目前三十二页\总数四十页\编于十一点在输出(Display)栏中,选中Unrotatedfactorsolution(非旋转因子解)复选项,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。选中ScreePlot(碎石图),则在分析结果中给出特征根按大小分布的折线图以便我们直观地判定因子的提取数量是否准确。33目前三十三页\总数四十页\编于十一点在抽取栏中,有两种方法可以决定提取主成分(因子)的数目。一是根据特征根(Eigenvalues)的数值,系统默认的是λ=1。我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。如果默认λ=1,则所有方差大于等于1的主成分将被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将λ值降低,例如取λ=0.9;如果认为最后的提取的主成分数量偏多,则可以提高λ值,例如取λ=1.1。主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值的设定,要在反复试验以后才能决定。一般而言,在初次分析时,最好降低特征根的临界值(如取λ=0.8),这样提取的主成分将会偏多,根据初次分析的结果,在第二轮分析过程中可以调整特征根的大小。34目前三十四页\总数四十页\编于十一点第二种方法是直接指定主成分的数目即因子数目,这要选中Numberoffactors复选项。主成分的数目选多少合适?开始我们并不十分清楚。因此,首次不妨将数值设大一些,但不能超过变量数目。本例有8个变量,因此,最大的主成分提取数目为8,不得超过此数。在我们第一轮分析中,采用系统默认的方法提取主成分。
需要注意的是:主成分计算是利用迭代(Iterations)方法,系统默认的迭代次数是25次。但是,当数据量较大时,25次迭代是不够的,需要改为50次、100次乃至更多。对于本例而言,变量较少,25次迭代足够,故无需改动。设置完成以后,单击Continue按钮完成设置。35目前三十五页\总数四十页\编于十一点选中保存为变量(Saveasvariables)栏,则分析结果中给出标准化的主成分得分(在数据表的后面)。至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的“回归”(Regression)法即可。选中显示因子得分系数矩阵(Displayfactorscorecoefficientmatrix),则在分析结果中给出因子得分系数矩阵及其相关矩阵。设置完成以后,单击Continue按钮完成设置。⒊设置得分(Scores)设置。36目前三十六页\总数四十页\编于十一点⒋其它对于主成分分析而言,旋转项(Rotation)可以不必设置;对于数据没有缺失的情况下,选项(Option)项可以不必理会。全部设置完成以后,点击OK确定,SPSS很快给出计算结果实例:全国31个省市的8项经济指标37目前三十七页\总数四十页\编于十一点
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年注册会计师答案保障试题及答案
- 投资咨询工程师对行业变化的响应试题及答案
- 典型建设工程合同样本
- 三方合作协议及连带责任合同
- 北京市租车合同中的责任划分细则
- 商业房产买卖合同全文
- 仓储合同范本及快递配送条款
- 专业离婚合同起草指南:一步到位
- 城市停车场充电桩建设合同范本
- 2023三年级语文下册 第五单元 16 宇宙的另一边(新学习单)教学实录 新人教版
- 搭伙过日子同居的协议书
- GB/T 44099-2024学生基本运动能力测评规范
- ISO28000:2022供应链安全管理体系
- 招标代理服务投标技术方案技术标
- 2024年浪潮入职测评题和答案
- 全媒体运营师-国家职业标准(2023年版)
- 建筑施工现场安全警示牌标示(标志图片)
- 智慧城市产业发展
- 建行存款保险知识讲座
- 《工厂供配电技术》课件
- 2024年中考英语热点阅读练习9 中秋节(含解析)
评论
0/150
提交评论