第6讲 多元分析_第1页
第6讲 多元分析_第2页
第6讲 多元分析_第3页
第6讲 多元分析_第4页
第6讲 多元分析_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6讲多元分析华中农业大学6.1聚类分析6.2判别分析6.3逐步判别分析6.4主成分分析6.5因子分析6.6典型相关分析

聚类分析又称群分析,它是研究分类问题的一种多元统计方法。所谓类,通俗地说,就是指相似元素的集合。那么要将相似元素聚为一类,通常选取元素的许多共同指标,然后通过分析元素的指标值来分辨元素间的差距,从而达到分类的目的。

聚类分析可以分为:Q型(样品分类)分类、R型(指标分类)分类。这里介绍的是Q型(样品分类)分类。6.1聚类分析聚类分析前的预处理步骤:1)确定聚类类型:对样品聚类称Q型聚类;对变量聚类称R型聚类。2)数据预处理原因:实际应用所使用的样本资料中,由于不同的变量具有不同的计量单位(或量纲),并且具有不同的数量级,为了使具有不同计量单位和数量级的数据能够放在一起进行比较分析,通常都要对数据进行变换处理。常用方法有:中心化变换;规格化变换(极差正规化);标准化变换;对数变换等6.1聚类分析3)研究样品之间的关系。通常有两种方法:相似系数。性质相近的相似系数的绝对值越接近于1,彼此不相关的相似系数的绝对值越接近于0。常用相似系数有:夹角余弦;相关系数;指数相似系数;非参数方法灯计算距离。将样品看作P维空间的一点,通过计算不同样品的距离,距离越接近的点归为一类,距离远的点归为不同类。常用距离有:明科夫斯基距离;欧氏距离;绝对值距离;切比雪夫距离;兰氏距离;马氏距离。4)计算距离矩阵或相似性系数矩阵D。6.1聚类分析聚类分析的一般步骤(Q-型分类)2)由距离矩阵或相似性系数矩阵D,找到当前最小的Dij,并将类Gi、Gj合为一类得到一个新类Gr={Gi、Gj}3)从新计算类间的距离,得到新的矩阵D。4)重复第2步直到全部合为一类。1)每个样本独自成类,6.1聚类分析

进行聚类分析时,由于对类与类之间的距离的定义和理解不同,并类的过程中又会产生不同的聚类方法。常用的系统聚类方法有8种:最短距离法;最长距离法;中间距离法;重心法;类平均法;可变类平均法;可变法;离差平方和法。6.1聚类分析例:从21个工厂中抽出同类产品,每个产品测两个指标,欲将各厂的质量情况进行分类。工厂指标观测值工厂1234567891011指标10022445667-4指标265534312103工厂12131415161718192021指标1-2-3-3-5100-1-1-3指标222021-1-2-1-3-56.1聚类分析dataex;inputx1x2factory$@@;cards;/*数据省略*/;proccluster

data=exmethod=wardcccpseudoouttree=tree;idfactory;run;proctreedata=treehorizontal;

idfactory;

run;6.1聚类分析ccc表示要计算半偏R2,R2和ccc立方聚类标准统计量,这三个统计量和下面的伪F和伪t2统计量,主要用于检验聚类的效果。当把数据从G+1类合并为G类时,半偏R2统计量说明了本次合并信息的损失程度,统计量大表明损失程度大。R2统计量反映类内离差平方和的大小,统计量大表明类内离差平方和小。ccc统计量的值大说明聚类的效果好。Pseudo说明要计算伪F和伪t2统计量。一般认为,伪F统计量出现峰值时的所对应的分类是较佳的分类选择。当把数据从G+1类合并为G类时,伪t2统计量的值大,说明不应该合并这两类。6.1聚类分析6.1聚类分析ClusterHistory表示聚类的具体过程,NCL表示当前系统存在类的总个数,ClustersJoined表示当前加入的编号,例如NCL等于20时,是类1,2聚为一类,FREQ表示新类的元素个数。SPRSQ表示类与类间规格化最短距离,RSQ表示R2统计量,ERSQ表示半偏R2统计量,CCC统计量值。PSF为伪F统计量,PST2为伪t2统计量。Tie表示“节”,是指当前类间最小距离不止一个的时候,此时可以任意选择一对最短距离进行聚类,在计算其他类与新类的距离。从CCC统计量的结果可以看出,最大值对应的类数为4。从四类合并为三类时,伪t2统计量显著的增加,伪F统计量下降显著,综合各方面的结果,因此分4类最为合适。6.1聚类分析动态聚类图6.1聚类分析

综合以上分析,可以得到结果,将工厂分为4类,分别为第1类:f1,f2,f3,f4,f5,f6;第2类:f7,f8,f9,f10第3类:f11,f12,f13,f14,f15;第4类:f16,f17,f18,f19,f20,f21。6.1聚类分析肝病的判别地震的判别

判别分析方法最初应用于考古学,例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等.近年来,在生物学分类,医疗诊断,地质找矿,石油钻探,天气预报等许多领域,判别分析方法已经成为一种有效的统计推断方法。判别分析是一种在一些已知研究对象用某种方法已经分成若干类的情况下,确定新的样品的观测数据属于哪一类的统计分析方法。6.2判别分析

常用的方法有:距离判别法、Fisher判别法、贝叶斯判别法、逐步判别法。这里仅介绍后两种。

为了能识别待判断的对象x=(x1,x2,…,xm)T是属于已知类A1,A2,…,Ar中的哪一类?

事先必须要有一个一般规则,一旦知道了x的值,便能根据这个规则立即作出判断,称这样的一个规则为判别规则(用于衡量待判对象与各已知类别接近程度的方法准则)。

判别规则往往通过的某个函数来表达,我们把它称为判别函数,记作W(i;x).

6.2判别分析Bayes判别法的基本思想:总是假设对所研究的对象已有一定的认识,计算新给样品属于各总体的条件概率比较这个概率的大小,然后将新样品判归为来自概率最大的总体。Bayes判别法6.2判别分析

设有总体,具有概率密度函数。并且根据以往的统计分析,知道出现的概率为。即当样本发生时,求他属于某类的概率。由贝叶斯公式计算后验概率,有:判别规则则判给。6.2判别分析Bayes判别法的一般步骤:及均值向量,各变量的总均值及均值向量;1.计算各类中变量的均值2.计算类内协方差矩阵S及其逆矩阵S-1

;3.计算Bayes判别函数中,各个变量的系数及常数项并写出判别函数;4.计算类内协方差矩阵W及总各协方差矩阵T作多个变量的全体判别效果的检验;5.各个变量的判别能力的检验;6.判别新样本应属于的类别。6.2判别分析

例题:人文发展指数是联合国开发计划署于1990年5月发表的一份<<人类发展报告>>中公布的数据如下,试通过已知的样品建立判别函数,误判率是多少?并判断待判的归类.6.2判别分析类别国家寿命(X1)成人识字率%(X2)调整后GDP(X3)1美国76

99

5374

1日本79.5

99

53591瑞士78

99

53721阿根廷76.1

95.9

52421阿联酋73.8

77.7

5370

保加利亚71.2

93

42502古巴75.3

94.9

34122巴拉圭70

91.2

33902格鲁吉亚72.8

99

2300

南非62.9

80.6

3799待判样品:中国68.5

79.3

1950

罗马尼亚69.9

96.9

2840

希腊77.6

93.8

5233

哥伦比亚69.3

90.3

51596.2判别分析dataex;inputgx1-x3@@;cards;176995374179.5995359178995372176.195.95242173.877.75370271.2934250275.394.9341227091.23390272.8992300262.980.63799;dataex1;inputx1-x3@@;cards;68.579.3195069.996.9284077.693.8523369.390.35159;procdiscrimdata=extestdata=ex1anovamanovasimplelisttestout=ex2;classg;procprintdata=ex2;run;6.2判别分析

ProcDiscrim后的常用选择项有:(1)Data=数据集名,指定输入数据集名,若缺省则指定最新建立的数据集。(2)Testdata=数据集名,指定待作出判别的数据集名,其中的变量名须上Data数据集中的变量名一致。(3)Testout=数据集名,指定输出数据集,输出Testdata数据集中所有观测值以及每个观测值的后验概率和判别后的类别。(4)List,指定打印每个观测值的回代结果。(5)Anova,指定输出各类均值检验的一元统计量。(6)Manova,指定输出各类均值检验的多元统计量。(7)Simple,指定打印总体和组内的简单统计量。6.2判别分析因此Bayes判别函数为y1=-323.21568+5.79107x1+0.26498x2+0.03407x3y2=-236.03823+5.14034x1+0.25167x2+0.02533x36.2判别分析从上面运行结果得知,两类的误判率均为0

因而得知中国与罗马尼亚归入第二类,希腊与哥伦比亚归入第一类。6.2判别分析

在判别问题中,当判别变量个数较多时,如果不加选择地一概采用来建立判别函数,不仅计算量大,还由于变量之间的相关性,可能使求解逆矩阵的计算精度下降,建立的判别函数不稳定。因此适当地筛选变量的问题就成为一个很重要的事情。凡具有筛选变量能力的判别分析方法就统称为逐步判别法。逐步判别法6.3逐步判别分析

逐步判别法其基本思路类似于逐步回归分析,按照变量是否重要逐步引入变量,每引入一个“最重要”的变量进入判别式,同时要考虑较早引入的变量是否由于其后的新变量的引入使之丧失了重要性变得不再显著了(例如其作用被后引入地某几个变量的组合所代替),应及时从判别式中把它剔除,直到判别式中没有不重要的变量需要剔除,剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。也就是说每步引入或剔除变量,都作相应的统计检验,使最后的判别函数仅保留“重要”的变量。6.3逐步判别分析1.计算各总体中各变量的均值和总均值以及似然统计量,规定引入变量和剔除变量的临界值F进、F出。2.逐步计算,计算全部变量的判别能力,在已入选变量中考虑剔除可能存在的最不显著变量。在未选入变量中选出最大判别能力的变量,对变量作F检验通过检验则接受,否则剔除变量。直到能剔除又不能增加新变量,逐步计算结束。3.建立判别式,使用第2步中选入的变量,用Bayes判别法建立判别式。4.对待判样本进行判别分类。逐步判别法的步骤:6.3逐步判别分析dataex;inputgx1-x3@@;cards;/*数据省略*/;dataex1;inputx1-x3@@;cards;/*数据省略*/;6.3逐步判别分析procstepdiscdata=exmethod=stepwisesle=0.3sls=0.3;/*选择用逐步判别法,选择后验概率大于0.3,不注明时系统默认为0.15*/classg;varx1-x3;run;procdiscrimdata=extestdata=ex1/*待判别集合*/anovamanovasimplelisttestout=ex2;classg;varx1x3;/*选用x1和x3作为判别指标*/procprintdata=ex2;run;6.3逐步判别分析结果显示:通过逐步判别分析选入两个变量X1、X3作为判别分析的指标,接下来再以变量X1,X3为参考变量作Bayes判别。1.逐步回归选取变量:6.3逐步判别分析2.

得到判别函数:6.3逐步判别分析3.误判概率:两类的误判率均为0,说明判别能力很强,于是可以利用已经得到的判别函数去判别新样本。

6.3逐步判别分析4.待判样本分类结果:

结果表明,中国与罗马尼亚归入第二类,希腊与哥伦比亚归入第一类。6.3逐步判别分析

由以上两个例子可知,逐步判别法所得到的结果可看出来,尽管这里没有利用变量X2(成人识字率),但是最终的判别结果与利用全部变量所得得判别结果完全一致,这说明了三个变量在判别式中所起到的作用不同。由此可见,在解决现实问题中应结合两种方法使得更加科学的使用已知数据得到更加合理的结论。6.3逐步判别分析

假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?当然不能。你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。6.4主成分分析

每个人都会遇到有很多变量的数据。比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。在引进主成分分析之前,先看下面的例子。6.4主成分分析100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。

6.4主成分分析

目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。6.4主成分分析

选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约80%即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。6.4主成分分析

主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。

一般来说,我们希望这些主成分能够反映原始变量的绝大部分信息(它们通常表示为原始变量的某种线性组合),并具有最大的方差。6.4主成分分析1.对原始数据矩阵进行标准化处理(相当于对原始变量进行坐标平移与尺度伸缩)主成分的求解步骤:

假设对p个变量进行n次观测得到的观测数据可用下面的矩阵表示将其进行标准化处理6.4主成分分析iii)特征分解得(相当于将原来的坐标轴进行旋转得到新的坐标轴U)ii)求协方差矩阵Z——Z的特征值组成的对角阵U——Z的特征向量按列组成的正交阵,它构成了新的矢量空间,作为新变量(主成分)的坐标轴,又称为载荷轴。

得Z的p个非负特征值,这p个特征值就是主成分的方差。6.4主成分分析iv)确定主成分个数(根据累积贡献率)当大于某个阈值时,可认为主成分数目为m。

Z阵的每一行相当于原数据矩阵的所有行(即原始变量构成的向量)在主成分坐标轴(载荷轴)上的投影,这些新的投影构成的向量就是主成分得分向量。v)写出主成分表达式6.4主成分分析Vi)构造评价函数将每个样本的主成分带入评价函数,得到每个样本的综合得分,依据一定的准则可对样本进行排序。6.4主成分分析例以下是收集整理了的1990-2002年13年间影响中国蔬菜产量的若干因素数据,请你对这些影响因素作主成分分析,并分析结果。11.517.676.4主成分分析dataex;inputx1-x13;cards;/*数据省略*/;procprincompout=prin;

varx1-x13;run;procprintdata=prin;varprin1-prin13;run;6.4主成分分析程序中对应运行结果为:

从程序结果可以看出,第一、第二、第三主成分累计解释方差的比率已经超过了94%,所以只需要求λ1、λ2、λ2所对应的正交化特征向量αi(i=1,2,3)6.4主成分分析6.4主成分分析α1=(0.31,0.29,-0.22,0.30,-0.09,0.31,0.30,0.30,0.30,0.31,0.31,0.31,0.13),α2=(-0.03,0.23,0.51,0.11,0.77,0.01,-0.09,0.13,0.19,0.07,0.04,-0.03,-0.09),α3=(0.03,-0.03,0.24,-0.08,0.01,-0.03,0.02,-0.06,-0.04,-0.03,-0.08,0.05,0.96)可知其中6.4主成分分析

第一主成分与蔬菜种植面积、每公顷物质费用、蔬菜零售物价指数、市场化程度、城市化水平1、城市化水平2、交通、城镇居民可支配收入、农村居民纯收入、农民文化素质等密切相关,表示的是市场经济综合因素,着重反映的是市场经济的成熟程度与国家现代化水平;第二主成分与每公顷劳动投入、成本纯收益率等密切相关,表示的是劳动者动力因素;第三主成分与气候条件密切相关,显然表示的是气候因素。6.4主成分分析主成分得分6.4主成分分析

因子分析模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。因子分析的思想始于1904年CharlesSpearman对学生考试成绩的研究。近年来,随着电子计算机的高速发展,人们将因子分析的理论成功地应用于心理学、医学、气象、地质、经济学等各个领域,也使得因子分析的理论和方法更加丰富。6.5因子分析

因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。6.5因子分析设p个变量,如果表示为:即6.5因子分析称为公共因子,是不可观测的变量,称为因子载荷阵,表示第i个变量是特殊因子,不相关。

在第j个因子上的载荷(loading).是不能被前m个公共因子包含的部分。并且满足6.5因子分析因子分析的解决的三个基本问题:1.因子载荷阵A的估计;2.当因子难以得到合理的解释时,对因子载荷阵作正交变换,即因子旋转。目的:对因子的实际意义做出合理的解释;3.给出每个变量(或样品)关于m个公共因子的得分,通常表示为原始变量的线性组合,即因子得分函数。目的:对公共因子作出估计。6.5因子分析因子分析一般步骤:及1)类似主成分分析,计算,k,j=1,2,..m,建立基本方程组;2)用主成分分析法确定因子载荷阵A;3)方差极大正交旋转,对变量系数极值化(尽量趋于0或1);4)得到因子得分函数,计算样本因子得分。6.5因子分析

例:已知12个地区的5个经济指标:人口总数、学校总数、就业人口、服务业总数、房子个数。依据已知的5个经济指标,对12个地区的综合经济实力进行分析。

分析:由于指标个数较多,不便于分析排序。因此,考虑先做因子分析找出指标的共同因子,再计算因子得分,通过分析因子得分来评价该地区的经济指标。6.5因子分析dataex;inputpopschoolemployserviceshouse@@;cards;/*数据省略*/;procfactordata=exmethod=principalrotate=varimaxpercent=0.8scoreoutstat=ex1;

varpopschoolemployserviceshouse;procscoredata=exscore=ex1out=ex2;varpopschoolemployserviceshouse;procprintdata=ex1;procprintdata=ex2;run;

6.5因子分析结果表明,5个因子对应的特征值,特征值表示因子贡献率。通常确定因子个数时,要求因子累计贡献率大于80%。结果表明应选取2个因子,记为F1,F2贡献率分别为57.47%、35.93%。6.5因子分析确定因子载荷阵系数,得到初始的特征向量:

由于对应实际问题,公共因子的实际意义不好解释。因此考虑将指标的系数极值化,即让系数趋于1或0,趋于1说明公共因子与该指标密切相关,否则趋于0时说明相关程度很低。由此,要做因子旋转实现系数的极值化。6.5因子分析因子旋转程序运行结果:

OrthogonalTransformationMatrix表示因子旋转阵,RotatedFactorPattern为旋转后得到的因子载荷。StandardizedScoringCoefficients为因子得分系数结果。

6.5因子分析6.5因子分析根据得到的因子得分函数计算各个样本的因子得分3.因子得分:

以上为12个样本的5个指标值,以及2个公共指标的得分,因子F1中J地区的得分最高,说明该地区的服务教育服务设施较好。因子F2中L地区的得分最高,说明该地区的就业情况较好。6.5因子分析因子分析与主成分分析的区别与联系

因子分析、主成分分析都是重要的降维方法(数据简化技术),因子分析可以看作是主成分分析的推广和发展。主成分分析不能作为一个模型来描述,它只能作为一般的变量变换,主成分是可观测的原始变量的线性组合;因子分析需要构造因子模型,公共因子是潜在的不可观测的变量,一般不能表示为原始变量的线性组合。因子分析是用潜在的不可观测的变量和随机影响变量的线性组合来表示原始变量,即通过这样的分解来分析原始变量的协方差结构(相依关系)。6.5因子分析

现实生活中两组变量间的相关关系的问题很多,例如家庭的特征(如户主的年龄、家庭的年收入、户主的受教育程度等)与消费模式(如每年去餐馆就餐的频率、每年外出看电影的频率等)等等。为此,1936年由Hulling提出了典型相关分析,揭示了两组多元随机变量之间的关系。6.6典型相关分析典型相关分析基本思想

通常情况下,为了研究两组变量的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有pq个简单相关系数,这样又烦琐又不能抓住问题的本质。如果分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。6.6典型相关分析

首先分别在每组变量中找出第一对线性组合,使其具有最大相关性,然后再在每组变量中再找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对本身具有次大的相关性,即u2和v2与u1和v1相互独立,但u2和v2相关,如此下去,直至两组变量的相关性被提取完为止。

6.6典型相关分析例蔬菜产出水平主要体现在蔬菜总产量(Y1)、人均蔬菜占有量(Y2)、蔬菜总产增长速度(Y3)三个方面,并称作因变量组(简称“产出组”)。问题:因变量组与自变量X1(市场经济综合因素)、X2(劳动力动力因素)、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论