版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2023/2/21主成分分析PrincipalComponentsAnalysis2023/2/22第五章主成分分析
目录上页下页返回结束
§5.1主成分分析的基本思想与理论§5.2主成分分析的几何意义§5.3总体主成分及其性质§5.4样本主成分的导出§5.5有关问题的讨论§5.6主成分分析步骤及框图§5.7主成分分析的上机实现2023/2/23第五章主成分分析
目录上页下页返回结束
主成分分析(principalcomponentsanalysis)也称主分量分析,是由霍特林(Hotelling)于1933年首先提出的。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个]综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。本章主要介绍主成分分析的基本理论和方法、主成分分析的计算步骤及主成分分析的上机实现。2023/2/24
目录上页下页返回结束
§5.1.1
主成分分析的基本思想既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:1.每一个主成分都是各原始变量的线性组合;2.主成分的数目大大少于原始变量的数目2023/2/25
目录上页下页返回结束
§5.1.1
主成分分析的基本思想3.主成分保留了原始变量绝大多数信息4.各主成分之间互不相关通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。2023/2/26
目录上页下页返回结束
§5.1.2
主成分分析的基本理论设对某一事物的研究涉及个指标,分别用表示,这个指标构成的维随机向量为。设随机向量的均值为,协方差矩阵为。对进行线性变换,可以形成新的综合变量,用表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足下式:(5.1)2023/2/27
目录上页下页返回结束
§5.1.2
主成分分析的基本理论由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量的统计特性也不尽相同。因此为了取得较好的效果,我们总是希望的方差尽可能大且各之间互相独立,由于
=而对任给的常数,有2023/2/28
目录上页下页返回结束
§5.1.2
主成分分析的基本理论
因此对不加限制时,可使任意增大,问题将变得没有意义。我们将线性变换约束在下面的原则之下:1.,即:
2.
3.是的一切满足原则1的线性组合中方差最大者;是与不相关的所有线性组合中方差最大者;…,是与都不相关的的所有线性组合中方差最大者。2023/2/29
目录上页下页返回结束
§5.3总体主成分及其性质由上面的讨论可知,求解主成分的过程就是求满足三条原则的原始变量的线性组合的过程。本节先从总体出发,介绍求解主成分的一般方法及主成分的性质,然后介绍样本主成分的导出。2023/2/210
目录上页下页返回结束
§5.3.1总体主成分
由以上结论,我们把的协方差矩阵的非零特征值对应的标准化特征向量分别作为系数向量,分别称为随机向量的第一主成分、第二主成分、…、第主成分。的分量依次是的第一主成分、第二主成分、…、第主成分的充分必要条件是:(1),即为阶正交阵;(2)的分量之间互不相关;(3)的个分量是按方差由大到小排列。2023/2/211
目录上页下页返回结束
§5.3.1总体主成分
(二)主成分的性质性质1的协方差阵为对角阵。这一性质可由上述结论容易得到,证明略。性质2记,有证明:记则有于是2023/2/212
目录上页下页返回结束
§5.3.1总体主成分
定义5.1称为第个主成分的方差贡献率,称为主成分的累积贡献率。
由此进一步可知,主成分分析是把个随机变量的总方差分解为个不相关的随机变量的方差之和,使第一主成分的方差达到最大,第一主成分是以变化最大的方向向量各分量为系数的原始变量的线性函数,最大方差为。表明了的方差在全部方差中的比值,称为第一主成分的贡献率。这个值越大,表明这个新变量综合信息的能力越强,也即由的差异来解释随机向量的差异的能力越强。2023/2/213
目录上页下页返回结束
§5.3.1总体主成分正因如此,才把称为的主成分。进而我们就更清楚为什么主成分的名次是按特征根取值的大小排序的。
进行主成分分析的目的之一是为了减少变量的个数,所以一般不会取个主成分,而是取个主成分,取多少比较合适,这是一个很实际的问题,通常以所取使得累积贡献率达到85%以上为宜,即(5.5)这样,既能使损失信息不太多,又达到减少变量,简化问题的目的。另外,选取主成分还可根据特征值的变化来确定。图5-2为SPSS统计软件生成的碎石图。
2023/2/214
目录上页下页返回结束
§5.3.1总体主成分
定义5.2第个主成分与原始变量的相关系数称做因子负荷量。因子负荷量是主成分解释中非常重要的解释依据,因子负荷量的绝对值大小刻画了该主成分的主要意义及其成因。在下一章因子分析中还将要对因子负荷量的统计意义给出更详细的解释。由下面的性质我们可以看到因子负荷量与系数向量成正比。
性质3(5.6)
证明:令:为单位向量。则又2023/2/215
目录上页下页返回结束
§5.3.1总体主成分
于是
于是
由性质3知因子负荷量与向量系数成正比,与的标准差成反比关系,因此,绝不能将因子负荷量与向量系数混为一谈。在解释主成分的成因或是第个变量对第个主成分的重要性时,应当根据因子负荷量而不能仅仅根据与的变换系数。2023/2/216
目录上页下页返回结束
§5.3.1总体主成分
性质4(5.7)证明:由性质3有(5.8)性质5证明:因为向量是随机向量的线性组合,因此也可以精确表示成的线性组合。由回归分析知识知,与的全相关系数的平方和等于1,而因为之间互不相关,所以与的全相关系数的平方和也就是,因此,性质5成立。2023/2/217
目录上页下页返回结束
§5.3.1总体主成分
定义5.3与前个主成分的全相关系数平方和称为对原始变量的方差贡献率,即
(5.9)这一定义说明了前个主成分提取了原始变量中的信息,由此我们可以判断我们提取的主成分说明原始的能力。2023/2/218
目录上页下页返回结束
§5.4样本主成分的导出由此可知新的综合变量(主成分)彼此不相关,并且的方差为,则分别称为第一、第二、……、第个主成分。由上述求主成分的过程可知,主成分在几何图形中的方向实际上就是的特征向量的方向,关于主成分分析的几何意义我们还要在下一节详细讨论;主成分的方差贡献就等于的相应特征值。这样,我们在利用样本数据求解主成分的过程实际上就转化为求相关阵或协方差阵的特征值和特征向量的过程。
2023/2/219
目录上页下页返回结束
§5.5.1关于由协方差矩阵或相关矩阵出发求解主成分由前面的讨论可知求解主成分的过程实际就是对矩阵结构进行分析的过程,也就是求解特征值的过程。在实际分析过程中,我们可以从原始数据的协方差矩阵出发,也可以从原始数据的相关矩阵出发,其求主成分的过程是一致的。但是,从协方差阵出发和从相关阵出发所求得的主成分一般来说是有差别的,而且这种差别有时候还很大。下面我们举例说明这个问题,为了叙述方便,我们以二维数据为例。【例5.1】假定我们研究某一经济问题共涉及两个指标:产值和利税。其中产值以百万元计,利税以万元计,得原始资料矩阵如下:2023/2/220
目录上页下页返回结束
§5.5.3主成分分析与重叠信息
首先应当认识到主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般认为当原始数据大部分变量的相关系数都小于0.3时,运用主成分分析不会取得很好的效果。很多研究工作者在运用主成分分析方法时,都或多或少存在着对主成分分析去除原始变量重叠信息的期望,这样,在实际工作中初始就可以把与某一研究问题相关而可能得到的变量(指标)都纳入分析过程,再用少数几个主成分浓缩这些有用信息(假定已剔除了重叠信息),然后对主成分进行深入分析。在对待重叠信息方面,生成的新的综合变量(主成分)是有效剔除了原始变量中的重叠信息,还是仅仅按原来的模式将原始信息中的绝大部分用几个不相关的新变量表示出来,这一点还值得讨论。2023/2/221
目录上页下页返回结束
§5.5.3主成分分析与重叠信息这样求得的主成分已经与没有第一个指标重叠信息时不一样了,因为主成分方差的总和已经变为而不是,每个主成分解释方差的比例也相应发生变化,而整个分析过程没有对重叠信息作任何特殊处理。也就是说,由于对第一个指标罗列了两次,其在生成的主成分构成中也起到了加倍的作用。这一点是尤其应该引起注意的,这意味着主成分分析对重叠信息的剔除是无能为力的,同时主成分分析还损失了一部分信息。对此文献[4]举例进行了说明。这就告诉我们在实际工作中,在选取初始变量进入分析时应该小心,对原始变量存在多重共线性的问题,在应用主成分分析方法时一定要慎重。应该考虑所选取的初始变量是否合适,是否真实地反映了事物的本来面目,如果是出于避免遗漏某些信息而特意选取了过多的存在重叠信息的变量时,就要特别注意应用主成分分析所得到的结果。2023/2/222
目录上页下页返回结束
§5.5.3主成分分析与重叠信息如果所得到的样本协方差矩阵(或是相关阵)最小的特征值接近于0,那么就有(5.11)进而推出(5.12)这就意味着,中心化以后的原始变量之间存在着多重共线性,即原始变量存在着不可忽视的重叠信息。因此,在进行主成分分析得出协方差阵或是相关阵发现最小特征根接近于零时,应该注意对主成分的解释,或者考虑对最初纳入分析的指标进行筛选,由此可以看出,虽然主成分分析不能有效地剔除重叠信息,但它至少可以发现原始变量是否存在着重叠信息,这对我们减少分析中的失误是有帮助的。2023/2/223
目录上页下页返回结束
§5.7主成分分析的上机实现
【例5.4】全国重点水泥企业经济效益综合评价例。利用主成分综合评价全国重点水泥企业的经济效益。原始数据(数据来自1984年中国统计年鉴)见表5-10。2023/2/224
目录上页下页返回结束
§5.7主成分分析的上机实现
厂家编号及指标固定资产利税率资金利税率销售收入利税率资金利润率固定资产产值率流动资金周转天数万元产值能耗全员劳动生产率1琉璃河16.6826.7531.8418.453.255528.831.752邯郸19.727.5632.9419.259.825532.922.873大同15.223.432.9816.2446.786541.691.534哈尔滨7.298.9721.34.7634.396239.281.635华新29.4556.4940.7443.6875.326926.682.146湘乡32.9342.7847.9833.8766.465032.872.67柳州25.3937.8236.7627.5668.186335.792.438峨嵋15.0519.4927.2114.216.137635.761.759耀县19.8228.7833.4120.1759.257139.131.8310永登21.1335.239.1626.5252.476235.081.7311工源16.7528.7229.6219.2355.765830.081.5212抚顺15.8328.0326.417.4361.196132.751.613大连16.5329.7332.4920.6350.416937.571.3114江南22.2454.5931.053767.956332.331.5715江油12.9220.8225.1212.5451.076639.181.83表5-102023/2/225
目录上页下页返回结束
§5.7主成分分析的上机实现
经标准化后的数据取名为“重点水泥厂”见表5-11。x1x2x3x4x5x6x7x8-0.14367-0.35795-0.11356-0.36669-0.038791.1933471.426821-0.277120.246189-0.293880.050803-0.287320.3561571.1933470.2890352.253119-0.33473-0.622920.056779-0.581-0.42773-0.37328-1.3981-0.77413-1.35585-1.76431-1.68844-1.71997-1.172550.043644-1.00954-0.548221.5048441.9944361.2162772.1414281.287927-0.872792.164810.6039441.9540870.9099992.2980751.1681420.7553152.2116560.3012351.643150.9807270.5176720.6215860.5421040.858711-0.09974-0.35411.259096-0.35409-0.9322-0.80537-0.7824-2.87137-1.6204-0.34791-0.27712表5-112023/2/226
目录上页下页返回结束
§5.7主成分分析的上机实现
续表5-110.26168-0.197380.12103-0.191090.321892-1.10143-0.98378-0.096390.4307920.3104340.9801930.438921-0.085680.043644-0.20479-0.3223-0.13464-0.20212-0.44527-0.284350.1120930.6666361.046255-0.79672-0.2534-0.2567-0.9264-0.462930.4385130.1917320.330666-0.61599-0.16304-0.12223-0.01644-0.14545-0.20952-0.87279-0.70361-1.27114-2.009841.844149-0.23161.4786810.844885-0.099740.435397-0.68377-0.62906-0.827-1.11766-0.94809-0.16984-0.50383-0.99239-0.09639x1x2x3x4x5x6x7x80.26168-0.197380.12103-0.191090.321892-1.10143-0.98378-0.096390.4307920.3104340.9801930.438921-0.085680.043644-0.20479-0.3223-0.13464-0.20212-0.44527-0.284350.1120930.6666361.046255-0.79672-0.2534-0.2567-0.9264-0.462930.4385130.1917320.330666-0.61599-0.16304-0.12223-0.01644-0.14545-0.20952-0.87279-0.70361-1.27114-2.009841.844149-0.23161.4786810.844885-0.099740.435397-0.68377-0.62906-0.827-1.11766-0.94809-0.16984-0.50383-0.99239-0.09639x1x2x3x4x5x6x7x8续表5-110.26168-0.197380.12103-0.191090.321892-1.10143-0.98378-0.096390.4307920.3104340.9801930.438921-0.085680.043644-0.20479-0.3223-0.13464-0.20212-0.44527-0.284350.1120930.6666361.046255-0.79672-0.2534-0.2567-0.9264-0.462930.4385130.1917320.330666-0.61599-0.16304-0.12223-0.01644-0.14545-0.20952-0.87279-0.70361-1.27114-2.009841.844149-0.23161.4786810.844885-0.099740.435397-0.68377-0.62906-0.827-1.11766-0.94809-0.16984-0.50383-0.99239-0.09639x1x2x3x4x5x6x7x82023/2/227
目录上页下页返回结束
§5.7主成分分析的上机实现导入spss中计算出其相关阵R如下,见表5-12:表5-122023/2/228
目录上页下页返回结束
§5.7主成分分析的上机实现在确定主成分个数之前,与例5-3相同的spss操作,得出软件输出结果5-6如下:输出结果5-6(1)2023/2/229
目录上页下页返回结束
§5.7主成分分析的上机实现输出结果5-6(2)2023/2/230
目录上页下页返回结束
§5.7主成分分析的上机实现从上表及上图可看出,前3个主成分解释了全部方差的87.085%,也即包含了原始数据的信息总量达到了87.085%,这说明前三个主成分代表原来的8个指标评价企业的经济效益已经有足够的把握。设这3个主成分分别用来表示,按照例5-3操作,只不过在点击extraction按钮时,在numberoffactors中填写3,即可得到相关矩阵的前三个特征根的特征向量,见表5-13:表5-132023/2/231
目录上页下页返回结束
§5.7主成分分析的上机实现由上表,三个主成分的线性组合如下:(5.14)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 甲控材料招标交易日志
- 合资企业终止合同的操作指南
- 2024合伙份额转让合同合伙份额转让合同范本
- 2024临时用工合同书样本
- 卫生院聘用合同模板道客
- 指定货代合同模板
- 产品销售策略和客户关系培训考核试卷
- 求租车间库房合同范例
- 宝洁公司合同范例
- 洗车店租房合同模板
- 日常安全隐患排查表
- 手术室实习出科
- 初中英语新课程标准测试题及标准答案
- 2024-2029年中国硅锰合金市场深度调查研究报告
- 2023-2024学年统部编版四年级语文下册第五单元测试卷(含答案)
- 2023年外研版英语必修一全册课文翻译
- 会计专业生涯发展报告
- 小学生科技创新活动方案
- 国医馆活动策划方案
- 中国工业清洗协会职业技能证考试(化学清洗)试题
- 花馍行业分析
评论
0/150
提交评论