主成分分析课件_第1页
主成分分析课件_第2页
主成分分析课件_第3页
主成分分析课件_第4页
主成分分析课件_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/3/221主成分分析

目录上页下页返回结束

§1主成分分析的基本思想与理论§2总体主成分及其性质§3样本主成分的导出§4有关问题的讨论§5主成分分析的上机实现2023/3/222

目录上页下页返回结束

厂家编号及指标固定资产利税率资金利税率销售收入利税率资金利润率固定资产产值率流动资金周转天数万元产值能耗全员劳动生产率1琉璃河16.6826.7531.8418.453.255528.831.752邯郸19.727.5632.9419.259.825532.922.873大同15.223.432.9816.2446.786541.691.534哈尔滨7.298.9721.34.7634.396239.281.635华新29.4556.4940.7443.6875.326926.682.146湘乡32.9342.7847.9833.8766.465032.872.67柳州25.3937.8236.7627.5668.186335.792.438峨嵋15.0519.4927.2114.216.137635.761.759耀县19.8228.7833.4120.1759.257139.131.8310永登21.1335.239.1626.5252.476235.081.7311工源16.7528.7229.6219.2355.765830.081.5212抚顺15.8328.0326.417.4361.196132.751.613大连16.5329.7332.4920.6350.416937.571.3114江南22.2454.5931.053767.956332.331.5715江油12.9220.8225.1212.5451.076639.181.83【引例】

根据下面的数据,对全国重点水泥企业经济效益进行综合评价,并提出改进方案。原始数据(数据来自1984年中国统计年鉴)见下表2023/3/223

目录上页下页返回结束

主成分分析(PrincipalComponentsAnalysis)也称主分量分析,是由霍特林(Hotelling)于1933年首先提出的。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,同时使问题得到简化,提高分析效率。2023/3/224

目录上页下页返回结束

§1主成分分析的基本思想与理论§1.1主成分分析的基本思想§1.2主成分分析的基本理论2023/3/225

目录上页下页返回结束

§1.1

主成分分析的基本思想考虑多个指标对某一问题进行分析的时候会产生如下问题:为了避免遗漏重要的信息而考虑尽可能多的指标;指标增多会增加问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。2023/3/226

目录上页下页返回结束

既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。2023/3/227

目录上页下页返回结束

3.主成分保留了原始变量绝大多数信息4.各主成分之间互不相关1.每一个主成分都是各原始变量的线性组合2.主成分的数目大大少于原始变量的数目利用主成分分析得到的主成分与原始变量之间有如下基本关系:2023/3/228

目录上页下页返回结束

§1.2

主成分分析的基本理论设对某一事物的研究涉及个指标,分别用表示,这个指标构成的维随机向量为。设随机向量的均值为,协方差矩阵为。对进行线性变换,可以形成新的综合变量,用表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足下式:(1.1)2023/3/229

目录上页下页返回结束

上述线性变换需要约束在下面的原则之下:1.,即:

2.

3.是的一切满足原则1的线性组合中方差最大者;是与不相关的所有线性组合中方差最大者;…,是与都不相关的的所有线性组合中方差最大者。2023/3/2210

目录上页下页返回结束

基于以上三条原则决定的综合变量分别称为原始变量的第一、第二、…、第个主成分。其中,各综合变量在总方差中占的比重依次递减,在实际研究工作中,通常只挑选前几个方差最大的主成分,从而达到简化系统结构,抓住问题实质的目的。2023/3/2211

目录上页下页返回结束

§2总体主成分及其性质由上面的讨论可知,求解主成分的过程就是求满足三条原则的原始变量的线性组合的过程。2023/3/2212

目录上页下页返回结束

§2.1总体主成分主成分分析的基本思想就是在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。而这里对于随机变量而言,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度的信息的反应,而相关矩阵不过是将原始变量标准化后的协方差矩阵。因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。一般地说,从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的。2023/3/2213

目录上页下页返回结束

此时:

结论:设随机向量的协方差矩阵为,为的特征值,为矩阵各特征值对应的标准正交特征向量,则第i个主成分为:

(一)从协方差矩阵出发求解主成分2023/3/2214

目录上页下页返回结束

由以上结论,我们把的协方差矩阵的非零特征值对应的标准化特征向量分别作为系数向量,分别称为随机向量的第一主成分、第二主成分、…、第主成分。的分量依次是的第一主成分、第二主成分、…、第主成分的充分必要条件是:(1),即为阶正交阵;(2)的分量之间互不相关;(3)的个分量是按方差由大到小排列。

注:无论的各特征根是否存在相等的情况,对应的标准化特征向量总是存在的,我们总可以找到对应各特征根的彼此正交的特征向量。这样,求主成分的问题就变成了求特征根与特征向量的问题。2023/3/2215

目录上页下页返回结束

定义2.1

称为第个主成分的方差贡献率,称为主成分的累积贡献率。

表明了主成分方差在全部方差中的比值,称为第一主成分的贡献率。这个值越大,表明这个变量综合信息的能力越强,也即由的差异来解释随机向量的差异的能力越强。2023/3/2216

目录上页下页返回结束

正因如此,才把称为的主成分。进而我们就更清楚为什么主成分的名次是按特征根取值的大小排序的。进行主成分分析的目的之一是为了减少变量的个数,所以一般不会取个主成分,而是取个主成分,取多少比较合适,这是一个很实际的问题,通常以所取使得累积贡献率达到85%以上为宜,即(2.2)这样,既能使损失信息不太多,又达到减少变量,简化问题的目的。另外,选取主成分还可根据特征值的变化来确定。图2-1为SPSS统计软件生成的碎石图。

2023/3/2217

目录上页下页返回结束

图2-1由图2-1可知,第二个及第三个特征值变化的趋势已经开始趋于平稳,所以,取前两个或是前三个主成分是比较合适的。这种方法确定的主成分个数与按累积贡献率确定的主成分个数往往是一致的。在实际应用中有些研究工作者习惯于保留特征值大于1的那些主成分,但这种方法缺乏完善的理论支持。在大多数情况下,当m=3时即可使所选主成分保持信息总量的比重达到85%以上。2023/3/2218

目录上页下页返回结束

(二)从相关阵出发求解主成分

考虑如下的数学变换:令:其中,与分别表示变量的期望与方差。于是有令:于是,对原始变量进行标准化:2023/3/2219

目录上页下页返回结束

经过上述标准化后,显然有

由于上面的变换过程,原始变量的相关阵实际上就是对原始变量标准化后的协方差矩阵,因此,由相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则是相一致的,在此不再赘述。仍用分别表示相关阵的特征值与对应的标准正交特征向量,此时,求得的主成分与原始变量的关系式为:(2.3)2023/3/2220

目录上页下页返回结束

§3样本主成分的导出记

在实际研究工作中,总体协方差阵与相关阵通常是未知的,于是需要通过样本数据来估计。设有个样品,每个样品有个指标,这样共得到个数据,原始资料矩阵如下:

2023/3/2221

目录上页下页返回结束

为样本协方差矩阵,作为总体协方差阵的无偏估计,是样本相关矩阵,为总体相关矩阵的估计。由前面的讨论知,若原始资料阵是经过标准化处理的,则由矩阵求得的协方差阵就是相关矩阵,即与完全相同。因此求解主成分只要从出发,求特征根和特征向量即可。

根据线性方程组的理论知,要求系数矩阵行列式为0,即

即因为为正定矩阵,所以其特征根都是非负实数,将它们依大小顺序排列,其相应的特征向量记为,则相对于的方差为:同理有即对于有最大方差,有次大方差,……,并且,协方差为:2023/3/2222

目录上页下页返回结束

2023/3/2223

目录上页下页返回结束

§4有关问题的讨论§4.1关于由协方差矩阵或相关矩阵出发求解主成分§4.2主成分分析不要求数据来自于正态总体§4.3主成分分析与重叠信息2023/3/2224

目录上页下页返回结束

§4.1关于由协方差矩阵或相关矩阵出发求解主成分由前面的讨论可知求解主成分的过程实际就是对矩阵结构进行分析的过程,也就是求解特征值的过程。在实际分析过程中,我们可以从原始数据的协方差矩阵出发,也可以从原始数据的相关矩阵出发,其求主成分的过程是一致的。但是,从协方差阵出发和从相关阵出发所求得的主成分一般来说是有差别的,而且这种差别有时候还很大。下面我们举例说明这个问题,为了叙述方便,我们以二维数据为例。2023/3/2225

目录上页下页返回结束

可以得到,原始变量的协方差阵与相关阵分别为:

由协方差阵出发求解主成分,得到结果见表4-1:【例4.1】

假定我们研究某一经济问题共涉及两个指标:产值和利税。其中产值以百万元计,利税以万元计,得原始资料矩阵如下:2023/3/2226

目录上页下页返回结束

表4-1对应两特征值的标准正交特征向量为:表4-22023/3/2227

目录上页下页返回结束

因此,所得的主成分的表达式为:其中,第一主成分保留了原始变量99.50%的信息,我们在分析中就可以把第二主成分舍掉,这样达到简化问题的目的。2023/3/2228

目录上页下页返回结束

由相关矩阵求解主成分的结果见表4-3:表4-3对应两特征值的标准正交特征向量为:表4-42023/3/2229

目录上页下页返回结束

此时,所得主成分的表达式为:由从相关矩阵出发求解主成分的结果可知,第一主成分保留了原始变量66.29%的信息。

2023/3/2230

目录上页下页返回结束

由此可以看出,由协方差阵出发求解主成分所得的结果及由相关阵出发求解主成分所得的结果有很大不同,所得主成分解释原始变量方差比例与主成分表达式均有显著差别,且两者之间不存在简单的线性关系。正因有此差别,所以在处理实际问题时就面临着选取由协方差矩阵出发求解主成分还是由相关阵出发求解主成分的问题,为了更好的理解这种差别,我们对原始变量转换成同一度量单位再求主成分。对产值与利税均以万元计,原始数据资料阵变为以下形式:相关矩阵没有变化,协方差矩阵变为:2023/3/2231

目录上页下页返回结束

由此协方差矩阵出发重新求主成分,结果见表4-5:表4-5对应两特征值的标准正交特征向量见表4-6

:表4-62023/3/2232

目录上页下页返回结束

此时所得主成分的表达式为:其中,第一主成分保留了原始变量98.44%的信息,第一主成分与原始变量的因子负荷量分别为:由此可知,第一主成分保留原始变量的信息与主成分与原始变量的关系式均与上两种情况有很大差别,那么,究竟哪种方法得到的结果更为可信呢,在实际研究中我们应该作何选择呢?2023/3/2233

目录上页下页返回结束

一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,我们不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化。比如,在对上市公司的财务状况进行分析时,常常会涉及到利润总额、市盈率、每股净利率等指标,其中利润总额取值常常从几十万到上百万,市盈率取值一般从五到六、七十之间,而每股净利率在1以下,不同指标取值范围相差很大,这时若是直接从协方差矩阵入手进行主成分分析,明显利润总额的作用将起到重要支配作用,而其它两个指标的作用很难在主成分中体现出来,此时应该考虑对数据进行标准化处理。2023/3/2234

目录上页下页返回结束

但是,对原始数据进行标准化处理后倾向于各个指标的作用在主成分的构成中相等。对于取值范围相差不大或是度量相同的指标进行标准化处理后,其主成分分析的结果仍与由协方差阵出发求得的结果有较大区别。其原因是由于对数据进行标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等均为1,而实际上方差也是对数据信息的重要概括形式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。由此看来,对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。2023/3/2235

目录上页下页返回结束

§4.2主成分分析不要求数据来自于正态总体由上面的讨论可知,无论是从原始变量协方差矩阵出发求解主成分,还是从相关矩阵出发求解主成分,均没有涉及到总体分布的问题。也就是说,与很多多元统计方法不同,主成分分析不要求数据来自于正态总体。实际上,主成分分析就是对矩阵结构的分析,其中主要用到的技术是矩阵运算的技术及矩阵对角化和矩阵的谱分解技术。主成分分析的这一特性大大扩展了其应用范围,对多维数据,只要是涉及降维的处理,我们都可以尝试用主成分分析,而不用花太多精力考虑其分布情况。2023/3/2236

目录上页下页返回结束

§4.3主成分分析与重叠信息首先应当认识到主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般认为当原始数据大部分变量的相关系数都小于0.3时,运用主成分分析不会取得很好的效果。主成分分析对重叠信息的剔除是无能为力的,同时主成分分析还损失了一部分信息。因此在选取初始变量进入分析时应该小心,对原始变量存在多重共线性的问题,在应用主成分分析方法时一定要慎重。2023/3/2237

目录上页下页返回结束

如果所得到的样本协方差矩阵(或是相关阵)最小的特征值接近于0,那么就有(4.1)进而推出(4.2)这就意味着,中心化以后的原始变量之间存在着多重共线性,即原始变量存在着不可忽视的重叠信息。因此,在进行主成分分析得出协方差阵或是相关阵发现最小特征根接近于零时,应该注意对主成分的解释,或者考虑对最初纳入分析的指标进行筛选,由此可以看出,虽然主成分分析不能有效地剔除重叠信息,但它至少可以发现原始变量是否存在着重叠信息,这对我们减少分析中的失误是有帮助的。2023/3/2238

目录上页下页返回结束

§5.1主成分分析的逻辑框图§5主成分分析的上机实现§5.2上机操作2023/3/2239

目录上页下页返回结束

§5.1主成分分析的逻辑框图特征值标准正交特征向量是否有接近0的情况是其他处理否主成分对主成分进行分析深入分析选择初始变量度量或取值范围相同?是否(否)对比分析相关阵分析协方差阵主成分分析的逻辑框图见图5-1:【例5.2】

数据集Employeedata为Midwestern银行在1969-1971年之间雇员情况的数据,共包括474条观测及如下10个变量:Id(观测号)、Gender(性别)、Bdate(出生日期)、Educ(受教育程度(年数))、Jobcat(工作种类)、Salary(目前年薪)、Salbegin(开始受聘时的年薪)、Jobtime(受雇时间(月))、Prevexp(受雇以前的工作时间(月))、Minority(是否少数民族)。下面我们用主成分分析方法处理该数据,以期用少数变量来描述该地区居民的雇佣情况。2023/3/2240

目录上页下页返回结束

SPSS软件FACTOR模块提供了主成分分析的功能。下面先以SPSS软件包自带的数据Employeedata.sav为例介绍主成分分析的上机实现方法,在SPSS软件的安装目录下可以找到该数据集;然后,我们举一个实际的例子介绍主成分分析的具体应用。§5.2上机操作2023/3/2241

目录上页下页返回结束

进入SPSS软件,打开数据集Employeedata.sav。依次点选分析→降维→因子分析….进入因子分析对话框。(在SPSS软件中,主成分分析与因子分析均在因子分析模块中完成)。此时,数据集Employeedata.sav中的变量名均已显示在左边的窗口中,依次选中变量educ、salary、salbegin、jobtime、prevexp并点向右的箭头按钮,这五个变量便进入variables窗口(此时若选中variables窗口中的变量,则窗口左侧的箭头按钮即转向左侧,点此按钮即可剔除所选中变量)。点击右侧的OK按钮,即可得到如下输出结果5-1。输出结果5-1(1)输出结果5-1(2)输出结果5-1(3)标准化的salary2023/3/2245

目录上页下页返回结束

在上面的主成分分析中,SPSS默认是从相关阵出发求解主成分,且默认保留特征根大于1的主成分,实际上,对主成分的个数我们可以自己确定,方法为:进入因子分析对话框并选择好变量之后,点击抽取选项,在弹出的对话框中有一个Extract选择框,默认是选择特征值大于1也就是保留特征根大于1的主成分,我们可以输入别的数值来改变SPSS软件保留特征根的大小;另外,还可以选择因子的固定个数选项直接确定主成分的个数。在实际进行主成分分析时可以先按照默认设置做一次主成分,然后根据输出结果确定应保留主成分的个数,用该方法进行设定后重新分析。2023/3/2246

目录上页下页返回结束

输出结果5-22023/3/2247

目录上页下页返回结束

由此表还可以得到标准化原始变量用各主成分线性表示的精确的表达式,以仍以CurrentSalary为例,有:标准化的salary

由SPSS软件默认选项输出的结果,我们还不能得到用原始变量表示出主成分的表达式,要得到这个结果及其他一些有用的结果,就需要对因子分析模块中的设置做一些调整,方法如下:进入因子分析对话框并选择好变量之后,点击对话框下部的得分按钮进入对话框,选择显示因子得分系数矩阵选项并按继续,该选项是让系统输出主成分得分系数矩阵。点击确定按钮运行,则除了默认结果,还输出如下输出结果5-3:2023/3/2248

目录上页下页返回结束

上表中给出了用原始变量表示主成分的系数信息。因为系统默认是从相关矩阵出发进行分析,所以,上面表格中的系数是将原始变量标准化后表示主成分的系数。也就是说,有下式成立:

输出结果5-32023/3/2249

目录上页下页返回结束

应当注意的是,此处SPSS给出的用原始变量表示主成分的表达式得到的是标准化后的主成分,也就是说,这样求得的主成分的方差是1,而不是原始变量相关矩阵的各个特征根了。如上式中,第一主成分的方差为2.477,而用上式求得的主成分方差为1,要得出未标准化的主成分与原始变量的表达式,只需将SPSS软件给出的系数前面乘以主成分方差的平方根即可,未标准化第一主成分与原始变量的关系式如下:类似可以写出第二、第三个主成分用标准化后的原始变量表示的表达式。2023/3/2250

目录上页下页返回结束

厂家编号及指标固定资产利税率资金利税率销售收入利税率资金利润率固定资产产值率流动资金周转天数万元产值能耗全员劳动生产率1琉璃河16.6826.7531.8418.453.255528.831.752邯郸19.727.5632.9419.259.825532.922.873大同15.223.432.9816.2446.786541.691.534哈尔滨7.298.9721.34.7634.396239.281.635华新29.4556.4940.7443.6875.326926.682.146湘乡32.9342.7847.9833.8766.465032.872.67柳州25.3937.8236.7627.5668.186335.792.438峨嵋15.0519.4927.2114.216.137635.761.759耀县19.8228.7833.4120.1759.257139.131.8310永登21.1335.239.1626.5252.476235.081.7311工源16.7528.7229.6219.2355.765830.081.5212抚顺15.8328.0326.417.4361.196132.751.613大连16.5329.7332.4920.6350.416937.571.3114江南22.2454.5931.053767.956332.331.5715江油12.9220.8225.1212.5451.076639.181.83【例5.2】

根据下面的数据,对全国重点水泥企业经济效益进行综合评价,并提出改进方案。从SPSS读取外部数据2023/3/2252

目录上页下页返回结束

导入spss中计算出其相关阵R如下,见表5-2:表5-22023/3/2253

目录上页下页返回结束

在确定主成分个数之前,与前例相同的SPSS操作,得出软件输出结果5-6如下:输出结果5-6(1)输出结果5-6(2)2023/3/2255

目录上页下页返回结束

从上表及上图可看出,前3个主成分解释了全部方差的87.085%,也即包含了原始数据的信息总量达到了87.085%,这说明前三个主成分代表原来的8个指标评价企业的经济效益已经有足够的把握。设这3个主成分分别用来表示,按照例5-3操作,只不过在点击extraction按钮时,在numberoffactors中填写3,即可得到相关矩阵的前三个特征根的特征向量,见表5-13:表5-13主成分得分系数矩阵:2023/3/2257

目录上页下页返回结束

由上表,三个主成分的线性组合如下:主成分的经济意义由各线性组合中权数较大的几个指标的综合意义来确定。综合因子中的系数远大于其他变量的系数,所以,主要是固定资产利税率、资金利税率、销售收入利税率、资金利润率这四个指标的综合反映,它代表着经济效益的盈利方面,刻画了企业的盈利能力。因为由来评价企业的经济效益已有60.76%的把握,所以这四项指标是反映企业经济效益的主要指标。2023/3/2258

目录上页下页返回结束

同时,从的线性组合中可以看到前四个单项指标在综合因子中所占的比重相当,这进而说明这四项指标用于考核评价企业经济效益每一项都是必不可少的。y2主要是流动资金周转天数和全员劳动生产率的综合反映,它标志着企业的资金和人力的利用水平,以资金和个人的利用率作用于企业的经济效益。资金和人力利用得好,劳动生产率就提高,资金周转就加快,从而提高企业经济效益。y3主要反映万元产值能耗,从改进生产工艺、勤俭节约方面作用于企业经济效益。这三个综合因子从三个影响企业经济效益的主要方面刻画企业经济效益,用它们来考核企业经济效益具有87.085%的可靠性。2023/3/2259

目录上页下页返回结束

企业经济效益的评价和排队。我们记,,分别为企业在三个综合因子方面的得分,F表示企业经济效益的总得分。将标准化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论