应用多元统计分析课后答案-暴强整理(共61页)_第1页
应用多元统计分析课后答案-暴强整理(共61页)_第2页
应用多元统计分析课后答案-暴强整理(共61页)_第3页
应用多元统计分析课后答案-暴强整理(共61页)_第4页
应用多元统计分析课后答案-暴强整理(共61页)_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选优质文档-倾情为你奉上第二章2.1 试述多元联合分布和边缘分布之间的关系。设X=X1,X2,Xp'是p维随机向量,称由它的q(<p)个分量组成的子向量X(i)=Xi1,Xi2,Xiq'的分布为X的边缘分布,相对地把X的分布称为联合分布。当X的分布函数为Fx1,x2,xp时,X(1)的分布函数即边缘分布函数为Fx1,x2,xp=P(X1x1,Xqxq,Xq+1,Xp) = Fx1,x2,xq,当X有分布密度f(x1,x2,xp)则X(1)也有分布密度,即边缘密度函数为:f(x1,x2,xq)=-+-+f(x1,x2,xp)dxq+1dxp2.2 设随机向量X=X1,X2

2、'服从二元正态分布,写出其联合分布密度函数和X1,X2各自的边缘密度函数。联合分布密度函数 1212(1-2)1/2exp-121-2x1-1212-2x1-1x2-212+fx1,x2= x2-2222 , x1>0,x2>0 0 , 其他 x1-1212-2x1-1x2-212+ x2-2222=x1-1212-2x1-1x2-212+ x2-2222+2x1-1212-2x1-1212=x1-11-x2-222+(1-2)x1-1212所以指数部分变为-12x1-11-21-x2-21-222+x1-1212令t=x2-21-22-x1-11-21 dt=11-22d

3、x2 fx1=-+fx1,x2dx2=1212(1-2)1/2exp-x1-12212-+exp(-12t2)11-22dt=121exp-x1-12212 121exp-x1-12212 , x1>0fx1= 0 ,其他同理, 122exp-x2-22222 , x2>0fx2= 0 ,其他2.3 已知随机向量X=X1,X2'的联合分布密度函数为fx1,x2=2d-cx1-a+b-ax2-c-2(x1-a)(x2-c)(b-a)2(d-c)2,其中,ax1b,cx2d。求:(1) 随机变量各自的边缘密度函数、均值与方差。 解:fx1=cdfx1,x2dx2=cd2d-cx

4、1-a+b-ax2-c-2(x1-a)(x2-c)(b-a)2(d-c)2 dx2 =2d-cx1-a(b-a)2(d-c)2+b-a(b-a)2(d-c)2cd2x2-cdx2-2x1-a(b-a)2(d-c)2cd2x2-cdx2=1b-a同理,fx2=abfx1,x2dx1=ab2d-cx1-a+b-ax2-c-2(x1-a)(x2-c)(b-a)2(d-c)2 dx1 =1d-c同理可得同理可得(2) 随机变量的协方差和相关系数。E(x1)= abx1fx1dx1=abx11b-adx1=b+a2E(x2)= cdx2fx2dx2=cdx21d-cdx2=d+c2E(x12)= abx

5、12fx1dx1=abx121b-adx1=13b2+ab+a2E(x22)= cdx22fx2dx2=cdx221d-cdx2=13d2+dc+c2D(x1)= E(x12)-E(x1)2=112(b-a)2D(x2)= E(x22)-E(x2)2=112(d-c)2Covx1,x2= E(x1x2)-E(x1)E(x2)E(x1x2)=abdx1cdx1x2 fx1,x2 dx2=162b+ad+c+162d+cb+a-192b+a(2d+c)Covx1,x2.=136a-bd-c=Covx1,x2D(x1)D(x2)=136a-bd-c112b-ad-c=-13(3) 判断是否独立。fx

6、1 fx2=1(b-a)1(d-c)fx1,x2x1,x2不相互独立。2.4设随机向量X=X1,X2,Xp'服从正态分布,已知其协差阵为对角阵,证明的分量是相互独立的随机变量。=11 22 ppij=0 , ij xi与xj不相关 又X=X1,X2,Xp'服从正态分布xi与xj相互独立。(ij,i,j=1,2,p)2.5解: 依据题意,X= 1 6E(X)=1n=16x()=35650,12.33,17325,152.5'D(X)= 1n=16(x-x)x-x' = 416.67 32415.66710.8889 -29.833 25-29.833 -.5-.5

7、83注:利用 , S 其中 在SPSS中求样本均值向量的操作步骤如下:1. 选择菜单项AnalyzeDescriptive StatisticsDescriptives,打开Descriptives对话框。将待估计的四个变量移入右边的Variables列表框中,如图2.1。 图2.1 Descriptives对话框2. 单击Options按钮,打开Options子对话框。在对话框中选择Mean复选框,即计算样本均值向量,如图2.2所示。单击Continue按钮返回主对话框。 图2.2 Options子对话框3. 单击OK按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表2.1,即样本均值

8、向量为(35.3333,12.3333,17.1667,1.5250E2)。 表2.1 样本均值向量在SPSS中计算样本协差阵的步骤如下:1. 选择菜单项AnalyzeCorrelateBivariate,打开Bivariate Correlations对话框。将三个变量移入右边的Variables列表框中,如图2.3。 图2.3 Bivariate Correlations对话框2. 单击Options按钮,打开Options子对话框。选择Cross-product deviations and covariances复选框,即计算样本离差阵和样本协差阵,如图2.4。单击Continue按钮

9、,返回主对话框。 图2.4 Options子对话框3. 单击OK按钮,执行操作。则在结果输出窗口中给出相关分析表,见表2.2。表中Covariance给出样本协差阵。(另外,Pearson Correlation为皮尔逊相关系数矩阵,Sum of Squares and Cross-products为样本离差阵。) 2.6均值向量和协差阵的最大似然估计量具有哪些优良性质?1,即是的无偏估计; ,即不是的无偏估计, 而,即是的无偏估计;2,分别是,的有效估计;3,(或)分别是,的一致估计(相合估计)。 limnE(1n S)=limnE(1n-1 S)=2.7 试证多元正态总体 的样本均值向量证

10、明: EX=E1nX()=1nEX()=nn= DX=D1nX()=1n2D(X())=1n2n=nXNP(, n)2.8 试证多元正态总体NP(, ) 的样本协差阵 1n-1S 为 的无偏估计。证明:E()=1nEi=1n(xi-x)xi-x' =1nEi=1n(xi-x-xi-)-(x-' =1nEi=1n(xi-)(xi-)'-nx-x-' =Ei=1n(V(xi)-nV(x)= 1n(n-n×1n) =n-1nnn-1是的无偏估计,S=n 1n-1S 为 的无偏估计2.9 设X1,X2,Xn 是从多元正态总体NP(, ) 中独立抽取的一个随机样

11、本,试求样本协差阵1n-1S 的分布。解:,且相互独立,则样本离差阵,其中样本协差阵1n-1S的分布为Wp(1, )2.10 设 Xini×p是来自NP(, )的数据阵,i=1,2, ,k(1)已知1=k= 且 1=k=,求和 的估计。(2)已知1=k=,求1,k 和 的估计。这道题我对自己的答案不是很确定。第三章3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。其基本思想和步骤均可归纳为:答: 第一,提出待检验的假设H0和H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界 值,从而得到否定域;第四,根据样本观测值计算

12、出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。均值向量的检验: 统计量 拒绝域均值向量的检验:在单一变量中当已知 当未知 (作为的估计量)一个正态总体协差阵已知 协差阵未知 () 两个正态总体有共同已知协差阵 有共同未知协差阵 (其中 )协差阵不等 协差阵不等 多个正态总体单因素方差 多因素方差 协差阵的检验检验 检验 统计量3.2 试述多元统计中霍特林T2分布和威尔克斯分布分别与一元统计中t分布和F分布的关系。答:(!)霍特林T2分布是t分布对于多元变量的推广。而若设,且与相互独立,则称统计量T2=nX-'S-1(X-)的分布为非中心霍特林T2分布。若,且与

13、相互独立,令,则 。(2)威尔克斯分布在实际应用中经常把统计量化为统计量进而化为统计量,利用统计量来解决多元统计分析中有关检验问题。 与统计量的关系统计量及分别任意任意1任意任意21任意任意2任意任意3.3 试述威尔克斯统计量在多元方差分析中的重要意义。答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。 用似然比原则构成的检验统计量为 给定检验水平,查Wilks分布表,确定临界值,然后作出统计判断。第四章4.1 简述欧几里得距离与马氏距离的区别和联系。答: 设p维欧几里得空间Rp中的两点X=(X1, X2XP)'和Y=Y1, Y2YP'。则欧几里得距离为i=1p(Xi-

14、Yi)2。欧几里得距离的局限有在多元数据分析中,其度量不合理。会受到实际问题中量纲的影响。设X,Y是来自均值向量为,协方差为的总体G中的p维样本。则马氏距离为D(X,Y)=X-Y'-1X-Y。当-1=I即单位阵时,D(X,Y)=X-Y'X-Y=i=1p(Xi-Yi)2即欧几里得距离。因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。4.2 试述判别分析的实质。答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,Rk是p维空间R p的k个子集,如果它们

15、互不相交,且它们的和集为Rp,则称R1,R2Rp为Rp的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间Rp构造一个“划分”,这个“划分”就构成了一个判别规则。4.3 简述距离判别法的基本思想和方法。答:距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。两个总体的距离判别问题设有协方差矩阵相等的两个总体G1和G2,其均值分别是m1和m 2,对于一个新的样品X,要判断它来自哪个总体。计算新样品X到两个总体的马氏距离D2(X,G1)和D2(X,G2),则 X G1 ,D2(X,G1) D2(

16、X,G2)X G2 ,D2(X,G1)> D2(X,G2,具体分析, 记 则判别规则为 X G1 ,W(X)0X G2 ,W(X)<0多个总体的判别问题。设有个总体,其均值和协方差矩阵分别是和,且。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。具体分析, 取,。可以取线性判别函数为, 相应的判别规则为 若 4.4 简述贝叶斯判别法的基本思想和方法。基本思想:设k个总体,其各自的分布密度函数,假设k个总体各自出现的概率分别为,。设将本来属于总体的样品错判到总体时造成的损失为,。设个总体相应的维样本空间为 。在规则下,将属于的样品错判为的概率为 则这种判别规则下样品

17、错判后所造成的平均损失为 则用规则来进行判别所造成的总平均损失为 贝叶斯判别法则,就是要选择一种划分,使总平均损失达到极小。基本方法:令,则 若有另一划分,则在两种划分下的总平均损失之差为 因为在上对一切成立,故上式小于或等于零,是贝叶斯判别的解。从而得到的划分为 4.5 简述费希尔判别法的基本思想和方法。答:基本思想:从个总体中抽取具有个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的个指标值代入线性判别函数式中求出值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。4.6 试析距离判别法、贝叶斯判别法和费

18、希尔判别法的异同。答: 费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 当k=2时,若1=2=则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。 当12时,费希尔判别用1+2作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 X G1 ,W(X)lndX G2 ,W(X)<lnd距离判别的判别规则是 X G1 ,W(X)0X G2 ,W(X)<0二者的区别在于阈值点。当,时,

19、。二者完全相同。4.7 设有两个二元总体G1和G2 ,从中分别抽取样本计算得到 X(1)=51, X(2)=3-2,Sp=5.82.12.17.6 假设1=2,试用距离判别法建立判别函数和判别规则。 样品X=(6,0)应属于哪个总体?解:1=X(1)=51 ,2=X(2)=3-2 , =1+22=4-0.5Wp=x-=x-'-11-2x-'=6,0-4,0.5=2,0.5-1=.6-2.1-2.15.81-2=(2,3)'Wp=2,0.6-2.1-2.15.823=24.439.67>0 X G1即样品X属于总体G14.8 某超市经销十种品牌的饮料,其中有四种畅销

20、,三种滞销,三种平销。下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。销售情况产品序号销售价格口味评分信任度评分畅销12.25822.56733.03943.286平销52.87663.58774.898滞销81.73492.242102.743 根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。 现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。解:增加group变量,令畅销、平销、滞销分别为group1、2、3;销售价格为X1,口味评分为X2,信任度评分为X3,用spss

21、 解题的步骤如下:1. 在SPSS窗口中选择AnalyzeClassifyDiscriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X1、X2、X3变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。2. 点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。如图4.1 图4.1 判别分析主界面3. 单击Statistics按钮,指定输出的描述统计量和判别函数系数。选中Func

22、tion Coefficients栏中的Fishers:给出Bayes判别函数的系数。(注意:这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为Fishers,是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请读者注意辨别。)如图4.2。单击Continue按钮,返回主界面。 图4.2 statistics子对话框4. 单击Classify按钮,弹出classification子对话框,选中Display选项栏中的Summary table复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。如图4.3。 图4.3 classi

23、fication对话框5. 返回判别分析主界面,单击OK按钮,运行判别分析过程。1) 根据判别分析的结果建立Bayes判别函数:Bayes判别函数的系数见表4.1。表中每一列表示样本判入相应类的Bayes判别函数系数。由此可建立判别函数如下:Group1: Group2: Group3: 将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。 Classification Function Coefficientsgroup123x1-11.689-10.707-2.194x212.29713.3614.960x316.

24、76117.0866.447(Constant)-81.843-94.536-17.449Fisher's linear discriminant functions 表4.1 Bayes判别函数系数根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为75%。在3种平销饮料中,有2种被正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。3种滞销饮料均正确判定。整体的正确率为80.0%。Classification ResultsagroupPredicted Group MembershipTot

25、al123OriginalCount131042120330033%175.025.0.0100.0233.366.7.0100.03.0.0100.0100.0a. 80.0% of original grouped cases correctly classified. 表4.2 错判矩阵2) 该新饮料的,将这3个自变量代入上一小题得到的Bayes判别函数,的值最大,该饮料预计平销。也可通过在原样本中增加这一新样本,重复上述的判别过程,并在classification子对话框中同时要求输出casewise results,运行判别过程,得到相同的结果。4.9 银行的贷款部门需要判别每个客户

26、的信用好坏(是否未履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄()、受教育程度()、现在所从事工作的年数()、未变更住址的年数()、收入()、负债收入比例()、信用卡债务()、其它债务()等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据,根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则。某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏的判别。目前信用好坏客户序号已履行还贷责任123172316.600.341.712341173598.001.812.913422723414

27、.600.94.9443911954813.101.934.36535191345.000.401.30未履行还贷责任6371132415.101.801.827291131427.401.461.6583221167523.307.769.72928223236.400.191.2910261432710.502.47.36解:令已履行还贷责任为group0,未履行还贷责任为group1。令(53,1,9,18,50,11.20,2.02,3.58)客户序号为11,group未知。用spss解题步骤如下:1. 在SPSS窗口中选择AnalyzeClassifyDiscriminate,调出判

28、别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。2. 点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为0到1,所以在最小值和最大值中分别输入0和1。单击Continue按钮,返回主界面。3. 单击Statistics按钮,指定输出的描述统计量和判别函数系数。选中Function Coefficients栏中的Fishers和Unstandardized。单击Continue按钮,返回主界面。4. 单击Classify按钮,定

29、义判别分组参数和选择输出结果。选择Display栏中的Casewise results,以输出一个判别结果表。其余的均保留系统默认选项。单击Continue按钮。5. 返回判别分析主界面,单击OK按钮,运行判别分析过程。1) 用费希尔判别法建立判别函数和判别规则:未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。具体见表4.3 。 表4.3 未标准化的典型判别函数系数由此表可知, Fisher判别函数为:用计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知分类,如若与group0的重心距离较近则属于grou

30、p0,反之亦然。各类重心在空间中的坐标位置如表4.4所示。 表4.4 各类重心处的费希尔判别函数值 用bayes判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与bayes判别完全一致。如表4.5所示,group栏中的每一列表示样品判入相应列的Bayes判别函数系数。由此可得,各类的Bayes判别函数如下: 表4.5 Bayes判别函数系数将各样品的自变量值代入上述两个Bayes判别函数,得到两个函数值。比较这两个函数值,哪个函数值比较大就可以判断该样品该判入哪一类。2) 在判别结果的Casewise Stastics表中容易查到该客户属

31、于group0,信用好。4.10 从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白、蓝色反应、尿吲哚乙酸和中性硫化物,数据见下表。试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。类别病人序号胃癌患者12281342011224513410403200167122741701507851001672014胃炎患者萎缩性622512571471301006128150117769120133102610160100510非胃炎患者1118511551912170125641316514253141351082121510011772解:令胃癌

32、患者、萎缩性胃炎患者和非胃炎患者分别为group1、group2、group3,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与bayes判别完全一致。用spss的解题步骤如下:1.在SPSS窗口中选择AnalyzeClassifyDiscriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X1、X2、X3、X4变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。2.点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在

33、最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。3.单击Statistics按钮,指定输出的描述统计量和判别函数系数。选中Function Coefficients栏中的Fishers:给出Bayes判别函数的系数。4.单击Classify按钮,弹出classification子对话框,选中Display选项栏中的Summary table复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。5.返回判别分析主界面,单击OK按钮,运行判别分析过程。根据判别分析的结果建立Bayes判别函数:Bayes判别函数的系数见表4.6。表中每一列表示样本判入相应类的Baye

34、s判别函数系数。由此可建立判别函数如下:Group1: Group2: Group3: 将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。表4.6 Bayes判别函数系数根据此判别函数对样本进行回判,结果如表4.7。从中可以看出在5个胃癌患者中,有4个被正确地判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个萎缩性胃炎患者中,有4个被正确判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个非胃炎患者中,有4个被正确判定,有1个被错误地判为萎缩性胃炎患者。整体的正确率为80.0%。 表4.7错判矩阵第

35、五章5.1 判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。5.2 试述系统聚类的基本思想。答:系统聚类的基本思想是:距离相近的样品

36、(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为(一)闵可夫斯基距离:q取不同值,分为(1)绝对距离() (2)欧氏距离() (3)切比雪夫距离() (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。将变量看作p维空间的向量,一般用(一)夹角余弦(二)相关

37、系数5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则?答: 设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。(1). 最短距离法(2)最长距离法(3)中间距离法其中-1/40(4)重心法 (5)类平均法 (6)可变类平均法其中b是可变的且b <1(7)可变法 其中b是可变的且b <1(8)离差平方和法 Dpq2=npnqnr=xp-xq'xp-xq=Sr-Sp-Sq通常选择距离公式应注意遵循以下的基本原则:(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影

38、响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。5.5试述K均值法与系统聚类法的异同。答:相同:K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同:系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚

39、类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。5.6 试述K均值法与系统聚类有何区别?试述有序聚类法的基本思想。答:K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用表示个有序的样品,则每一类必须是这样的形式,即,其中且,简记为。在同一类中的样品是次序相邻的。一

40、般的步骤是(1)计算直径D(i,j)。(2)计算最小分类损失函数Lp(l,k)。(3)确定分类个数k。(4)最优分类。5.7 检测某类产品的重量, 抽了六个样品, 每个样品只测了一个指标,分别为1,2,3,6,9,11.试用最短距离法,重心法进行聚类分析。(1)用最短距离法进行聚类分析。采用绝对值距离,计算样品间距离阵D(0) G1 G2 G3 G4 G5 G6G1 0G2 1 0G3 2 1 0G4 5 4 3 0 G5 8 7 6 3 0G6 10 9 8 5 2 0由上表易知 D(0)中最小元素是D12=D23=1 于是将G1,G2,G3聚为一类,记为G7计算距离阵D(1) G7 G4

41、G5 G6G7 0G4 3 0 G5 6 3 0 G6 8 5 2 0 D(1)中最小元素是D56=2 于是将G5,G6聚为一类,记为G8计算样本距离阵D(2) G7 G4 G8G7 0G4 3 0G8 6 3 0D(2)中最小元素是D47=D48=3 于是将G4,G7,G8聚为一类,记为G9因此,(2)用重心法进行聚类分析计算样品间平方距离阵D2(0) G1 G2 G3 G4 G5 G6G1 0G2 1 0G3 4 1 0G4 25 16 9 0 G5 64 49 36 9 0G6 100 81 64 25 4 0易知 D2(0)中最小元素是D212=D223=1 于是将G1,G2,G3聚为

42、一类,记为G7计算距离阵D2(1) G7 G4 G5 G6G7 0G4 16 0 G5 49 9 0 G6 81 25 4 0 注:计算方法D247=6-131+2+12,其他以此类推。D2(1)中最小元素是D256=4 于是将G5,G6聚为一类,记为G8计算样本距离阵D2(2) G7 G4 G8G7 0G4 16 0G8 64 16 0D2(2)中最小元素是D247=D248=16 于是将G4,G7,G8聚为一类,记为G9因此,5.8 下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K均值法分别对这些公司进行聚类,并对结果进行比较分析。公司编号净资产收益率每股净利润总资产周

43、转率资产负债率流动负债比率每股净资产净利润增长率总资产增长率111.090.210.0596.9870.531.86-44.0481.99211.960.590.7451.7890.734.957.0216.11300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.181.146.55-56.325-6.19-0.090.0343.382.241.52-1713.5-3.366100.470.4868.4864.7-11.560.85710.490.110.3582.9899.871.02100.2330.32811.12-1.690

44、.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.43101.160.010.5443.71001.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.311002.73-12.31-2.771395.79-5.20.5252.3499.34-5.42-9816.52-46.821416.550.350.9372.3184.052.14115.95123.4115-24.18-1.160.7956.2697.84.81-533

45、.89-27.74解:令净资产收益率为X1,每股净利润X2,总资产周转率为X3,资产负债率为X4,流动负债比率为X5,每股净资产为X6,净利润增长率为X7,总资产增长率为X8,用spss对公司聚类分析的步骤如下:a) 系统聚类法:1. 在SPSS窗口中选择AnalyzeClassifyHierachical Cluster,调出系统聚类分析主界面,并将变量移入Variables框中。在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统

46、计量和统计图。图5.1 系统分析法主界面2. 点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。我们选择Agglomeration schedule与Cluster Membership中的Range of solution 2-4,如图5.2所示,点击Continue按钮,返回主界面。(其中,Agglomeration schedule表示在结果中给出聚类过程表,显示系统聚类的详细步骤;Proximity matrix 表示输出各个体之间的距离矩阵;Cluster Membership 表示在结果中输出一个表,表中显示每个个体被分配到的类别,Range of solut

47、ion 2-4即将所有个体分为2至4类。)3. 点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。选中Dendrogram复选框和Icicle栏中的None单选按钮,如图5.3,即只给出聚类树形图,而不给出冰柱图。单击Continue按钮,返回主界面。 图5.2 Statistics子对话框 图5.3Plots子对话框4. 点击Method按钮,设置系统聚类的方法选项。Cluster Method下拉列表用于指定聚类的方法,这里选择Between-group inkage(组间平均数连接距离);Measure栏用于选择对距离和相似性的测度方法,选择Squared Euclidean distance(欧氏距离);单击Continue按钮,返回主界面。 图5.4 Method子对话框 图5.5 Save子对话框5. 点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。None表示不保存任何新变量;Single solution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;Range of solutions表示生成多个分类变量。这里我们选择Rang

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论