版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主成分分析一、什么是主成分分析及基本思想1、什么是主成分分析主成分概念首先由Karlparson在1901年引进,不过当时只对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机向量:在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。也是数学上处理降准的一种方法,例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多?而是从多种指标中综合成几个少数的综合指标,做为分类的型号,利用主成分分析将十几项指标综合成3项指标,一项是反映长度的指标,一项是反映胖瘦的指标,一项是反映特体的指标。在商业经济中用主成分分析可将复杂的一些数据综合成几个商业指数形式,如物价指数、生活费用指数,商业活动指数等等。主成分分析除了可以单独用来处理上面所讨论的这一类问题外,还可以与其它方法结合起来使用,例如与回归分析结合起来就是主成分回归,它可以克服回归问题中由于自变量之间的高度相关而产生的分析困难。2基本思想主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2
即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,称F2为第二主成分,依此类推可以造出第三,四,…,第p个主成分。不难想像这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际工作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是由于它使我们抓住了上要矛盾,并从原始数据中进一步提取了某些新的信息,因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。2、主成分分析的数学模型及几何解释(1)、数学模型设有n个样品,每个样品观测p项指标(变量),X1,X2,…,Xp,得到原始数据资料阵:其中用数据矩阵X的p个向量(即p个指标向量)X1,…,Xp作线性组合(即综合指标向量)为:简写成(注意:Xi是n维向量,所以Fi也是n维向量)上述方程组要求:的一切线性组合中方差最大的。如何求满足上述要求的方程组的系数aij呢?下一节将会看到每个方程式中的系数向量不是别的而恰好是X的协差阵的特征值所对应的特征向量;也就是说,数学上可以证明使Var(F1)达到最大,这个最大值是在的第一个特征值所对应特征向量处达到。依此类推使Var(Fp)达到最大值是在的第p个特征值所对应特征向量处达到。这里要说明两点:一个是数学模型中为什么作线性组合?基于两种原因:①数学上容易处理;②在实践中效果很好。另一个要说明的是每次主成分的选取使Var(Fi)最大,如果不加限制就可使Var(Fi)
则就无意义了,而常用的限制是要求(2)、主成分的几何意义从代数学观点看主成分就是p个变量X1…,Xp的一些特殊的线性组合,而在几何上这些线性组合正是把X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样品变差最大的方向(或说具有最大的样品方差)。下面以最简单的二元正态变量来说明主成分的几何意义。设有n个样本,每个样本有p个变量记为X1,…,Xp,它们的综合变量记为F1,F2,…,Fp。当p=2时,原变量是X1,X2,设它们有下图的相关关系:对于二元正态分布变量,n个点的散布大致为一个椭园,若在椭园长轴方向取坐标轴F1,在短轴方向取F2,这相当于在平面上作一个坐标变换,即按逆时针方向旋转角度,根据旋轴变换公式新老坐标之间有关系:我们看到F1,F2是原变量X1和X2的线性组合,用矩阵表示是显然且是正交矩阵,即从上图还容易看出二维平面上的n个点的波动(可用方差表示)大部分可以归结为在F1轴上的波动,而在F2轴上的波动是较小的。如果上图的椭园是相当扁平的,那么我们可以只考虑F1方向上的波动,忽略F2方向的波动。这样一来,二维可以降为一维了,只取第一个综合变量F1即可。而F1是椭园的长轴。一般情况,p个变量组成p维空间,n个样本就是p维空间的n个点,对p元正态分布变量来说,找主成分的问题就是找p维空间中椭球体的主轴问题。3主成分的推导及性质在下面推导过程中,要用到线性代数中的两个定理先作一下复习:定理一若A是P阶实对称阵,则一定可以找到正交阵定理二若上述矩阵A的特征根所对应的单位特征向量则实对称A属于不同特征根所对应的特征向量是正交的即,l主成分的推导设其中求主成分就是寻找X的线性函数a’X使相应的方差尽可能地大即使达到最大值,且设协差阵∑的特征根为单位特征向量为相应的由前面线性代数定理可知:且因此所以达到最大值,且而且同理上述推导表明:X1,X2,…,Xp的主成分就是以∑的特征向量为系数的线性组合,它们互不相关,其方差为∑的特征根。由于∑的特征根了解这一点也就可以明白为什么主成分的名次是按特征根取值大小的顺序排列的,所以有:VarF
1≥VarF2≥…≥VarFp>o。在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前是个。定义称第一主成分的贡献率为主成分的贡献率就是主成分的方差在全部方差中的比值因此第一值越大,表明第一主成分综合X1…,Xp信息的能力越强。如果前k个主成分的贡献率达到85%,表明取前是个主成分基本包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题的分析和研究。前两个主成分的累计贡献率定义为值得指出的是:当协差阵∑未知时,可用其估计值S(样本协差阵)来代替,设原始资料阵为:则其中而相关系数阵:其中显然当原始变量Xl,…,Xp标准化后,则实际应用时,往往指标的量纲不同,所以在计算之前先消除量纲的影响,而将原始数据标准化,这样一来S和R相同。因此一般求R的特征根和特征向量,并且不妨取R=X’X。因为这时的R与只差一个系数,显然不变,它并不影响求主成分与的特征根相差n倍,但它们的特征向量(2)、主成分的主要性质性质1F的协差阵为对角阵A。证明:记
显然性质2性质3证明:其中为单位向量第i个分量为1,其余为0。所以4计算步骤及实例设有n个样品,每个样品观测p个指标,将原始数据写成矩1.将原始数据标准化。这里不妨设上边矩阵已标准化了。2.建立变量的相关系数阵:不妨设3.求尺的特征根及相应的单位特征向量:4.写出主成分例对全国30个省市自治区经济发展基本情况的八项指标作主成分分析,原始数据如下:第一步将原始数据标准化。第二步建立指标之间的相关系数阵R如下第三步求R的特征值和特征向量。从上表看,前3个特征值累计贡献率已达89.564%,说明前3个主成分基本包含了全部指标具有的信息,我们取前3个特征值,并计算出相应的特征向量:因而前三个主成分为:第一主成分:第二主成分:第三主成分:在第一主成分的表达式中第一、二、三项指标的系数较大,这三个指标起主要作用,我们可以把第一主成分看成是由国内生产总值、固定资产投资和居民消费水平所该划的反映经济发展状况的综合指标;在第二主成分中,第四、五、六、七项指标的影响大,且第六、七项指标的影响尤其大,可将之看成是反映物价指数、职工工资和货物周转量的综合指标;在第三主成分中,第八项指数影响最大,远超过其它指标的影响,可单独看成是工业总产值的影响。可输出每个变量的均数、标准差和样本量系统默认)输出原始分析结果,给出各因子的特征根及其占相应的特征根总和的百分比和累计百分比(贡献率);列出所有变量间的相关系数矩阵。列出所有相关系数显著性检验的p值。下拉菜单,提供了7种用于选择公因子的提取方法,一般选取系统默认的主成分分析法使用变量间的相关矩阵进行分析(系统默认)以特征根的值大于某数值为提取标准,系统默认为
1,即选取特征根大于1的所有特征值对应的主成分;自定义提取主成分的个数,如果在其后的矩形框内键入2,表示选两个主成分显示未经旋转变换因子的提取结果;列出了各公因子的方差比,即按照所选标准提取相应数量主成分后,各变量中的信息分别被提取出的比例。从表中可见,8个变量的提取量都达79%以上,说明所有变量的信息都提取的比较充分。
累计贡献率占特征根总合的百分比特征根3者累计贡献率达到85%以上,不需要再增加主成分,特征根大于1
给出了三个主成分的特征向量,本例按主成分分析法中特征根大于或等于1的原则提取了三个主成分5附注
1.从∑和从R出发计算主成分一般是不同的,当变量取值范围彼此相差很大或度量单位不同时,应该考虑标准化,以便使计算结果有合理的解释,避免出现误解。如果没有上述度量单位和数量级的差异,从∑和从R出发计算的结果对主成分的解释或计算贡献时,在一般情况下是不会发生矛盾的。
2.主成分是原始变量的线性组合,它不能简单地解释为单变量的属性作用,因而不能直接说明单个原始变量属性对主成分的作用,而应该同时看一些起主要作用的原始变量的综合作用,依此给主成分一个合理解释。
3.从主成分的数学推导,不难看出主成分仅依赖于X1,X2,…,Xp的协差阵(或相关系数阵)并不要求分布是多元正态的,即未对总体分布提出什么特定的要求。
4.主成分个数的确定。一种方法在前边计算过程中已提到即根据实际问题的需要由累计贡献率的大小来确定,因此一般就选前二、三个主成分代替原来p个变量的信息,而不会损失很多信息。一般要达到85%5.主成分分析用于系统评估系统评估是指对系统营运状态做出评估,而评估一个系统的营运状态往往需要综合考察许多营运的指标.例如对某一类企业经济效益作评占,影响企业经济效益就有许多指标,很难直接比较其优劣,听以解决评估问题的焦点就是希望科学、客观地将一个多指标问题综合成一个单指标的形式,也就是说只有在一维空间中才能使排序评估成为可能,因此产生了许许多多评估方法。鉴于系统评估在社会、经济等许多领域中有着广泛而重要的应用,下面介绍三种方法。第一种方法,利用主成分F1…,Fp做线性组合,并以每个主成分Fi
的方差贡献率作为权数构造一个综合评价函数:也称y为评估指数,依据对每个系统计算出的y值大小进行排序比较或分类划级。这一方法目前在一些专业文献中都有介绍,但在实践中经常看到它的应用效果并不理想,主要原因是产生主成分的特征向量的各分量符号不一致,很难进行排序评估,因此有下面的改进方法。第二种方法,只用第一个主成分作评估指数即Y=F1,理由是:第一主成分与原始变量X1,…,Xp综合相关度最强即从这个意义上看,如果想以一个综合变量来代替原来所有原始变量,则最佳选择应该是F1,另一方面由于第一主成分F1对应于数据变异最大的方向也就是使数据信息损失最小,精度最高的一维综合变量。但值得指出的是使用这种方法是有前提条件的即要求所有评估指标变量都是正相关的,也就是说对听有变量均有同增、同减的趋势,这个前提条件是基于代数中的Frobinius定理。定理若相关系数阵中的每一个元素都是正值,即对一切则只矩阵的第一个特征向量中的所有分量均大于零,即如果不满足这个前提条件,在原变量系统中X1,…,Xp有一部分变量正相关,另一部分变量负相关,则无法保证第一个特征向量u1>o,因此生成的F1有一部分与原变量正相关与另一部分变量负相关甚至于一部分变量无关,这时很难以n取值的大小来排序。特别是当出现某一分量时使用Fq作为评估指数,更要慎重防止遗漏上的重要信息。第三种方法是在前两种方法的基础上又作了改进,具体做法.
(1)将原始资料阵进行标准化处理记为标准化后的变量记为(2)令即根据变量的重要程度赋予权数,重要的变量取大些,这时因此,变量的方差分别为由于一部分在系统评估中更为重要的变量被赋予更大的权因此在这些指标上,变量的变差被拉长,于是在求第一主成分时,这些指标会得到更多的重视。(3)对标准化又加权后的数据阵计算协差阵求的最大特征值和特征向量(4)令然后按进行排序比较或分类划级。
6.除本章介绍的主成分分析之外,还有主成分回归和加权主成分分析等。顾名思义,主成分回归,就是把各主成分作为新的自变量代替原变量作回归,在一般情况下它可以克服多重共线性带来的干扰。所谓加权主成分分析是当原来指标X1,…Xp的重要程度存在较大差异时,这时对原指标应辅以加权,即相当于用一个权数阵去乘而得出其中然后对其作主成分分析.思考题1、用主成分分析研究股票内在的联系。2、对国民经济增长方式作主成分分析。3、房地产指标的主成分分析。第四节主成分回归分析一、主成分估计主成分估计是以P个主成分中的前q个贡献大的主成分为自变量建立回归方程,估计参数的一种方法。它可以消除变量间的多重共线性。回归方程对各变量进行标准化处理对于解释变量X*,使得z=X*U1、给定c,2、删去的特征根所对应的主成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家电制造招投标时间流程
- 财务人员劳资管理实施办法
- 2024年度版权管理合同2篇
- 广告审查项目审批指南
- 航空航天材料招投标专用范本
- 跨国煤炭贸易运输招标文件
- 武术馆租赁合同样板
- 人力资源服务业合作2024年新篇章:园区项目携手共赢2篇
- 铣刨桥面工程2024合同5篇
- 乳制品安全员招聘协议范本
- 内蒙古自治区锡林郭勒盟2024-2025学年高一上学期11月期中 生物试题(含答案)
- 关于健康的课件图片
- 2024年度上海市高校教师资格证之高等教育心理学题库与答案
- 2024秋期国家开放大学本科《会计实务专题》一平台在线形考(形考作业一至四)试题及答案
- 适合全院护士讲课
- 2024年医学高级职称-全科医学(医学高级)考试近5年真题集锦(频考类试题)带答案
- 2024年全国半导体行业职业技能竞赛(智能硬件装调员赛项)理论考试题库(含答案)
- 自然科学基金项目申报书(模板)
- 急救理论知识试题库(附参考答案)
- 批判与创意思考学习通超星期末考试答案章节答案2024年
- 高中语文《荷塘月色》教学课件-新人教版必修2
评论
0/150
提交评论