管理决策模型与方法——聚类分析PPT学习教案_第1页
管理决策模型与方法——聚类分析PPT学习教案_第2页
管理决策模型与方法——聚类分析PPT学习教案_第3页
管理决策模型与方法——聚类分析PPT学习教案_第4页
管理决策模型与方法——聚类分析PPT学习教案_第5页
已阅读5页,还剩141页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1管理决策模型与方法管理决策模型与方法聚类分析聚类分析行的分析处理,选定一种度量个行的分析处理,选定一种度量个体接近程度的统计量、确定分类体接近程度的统计量、确定分类数目、建立一种分类方法,数目、建立一种分类方法,工商管理学院信息管理教研室第1页/共146页工商管理学院信息管理教研室第2页/共146页工商管理学院信息管理教研室第3页/共146页则对分类进行调整,直到分类合则对分类进行调整,直到分类合理为止。理为止。工商管理学院信息管理教研室第4页/共146页据或多态数据具有明显的分类效据或多态数据具有明显的分类效果。果。工商管理学院信息管理教研室第5页/共146页视的方法。工商管理学院信

2、息管理教研室第6页/共146页算,如进行回归分析或Q型聚类分析等。工商管理学院信息管理教研室第7页/共146页并由实际工作者决定所需要的分并由实际工作者决定所需要的分类数及分类情况。类数及分类情况。工商管理学院信息管理教研室第8页/共146页工商管理学院信息管理教研室第9页/共146页好。文化程度分为高、中、低等。好。文化程度分为高、中、低等。工商管理学院信息管理教研室第10页/共146页的零点,两数值的比率也是很重的零点,两数值的比率也是很重要。要。工商管理学院信息管理教研室第11页/共146页工商管理学院信息管理教研室第12页/共146页工商管理学院信息管理教研室第13页/共146页 变量

3、变量样品样品X1Xj XnX(1)x11 x1j x1n X(i)xi1 xij xin X(m)xm1 xmj xmn均均 值值标准差标准差s1 sj sn工商管理学院信息管理教研室1xjxnx第14页/共146页工商管理学院信息管理教研室), 2 , 1(11njxmxmiijj标准差), 2 , 1()(1112njxxmsmijijj第15页/共146页工商管理学院信息管理教研室), 2 , 1;, 2 , 1( *njmixxxjijij 中心化变换是一种标准化处理方法,变换后数据的均值为0,而协差不变,即协差阵为)(*ijsSS第16页/共146页工商管理学院信息管理教研室mttj

4、timtjtjitiijxxmxxxxms1*111)(11 中心化变换是一种方便地计算样本协差阵的变换。第17页/共146页工商管理学院信息管理教研室), 2 , 1;, 2 , 1(1*njmixxxmiijijij第18页/共146页工商管理学院信息管理教研室*ijx满足), 2 , 1(11*njxmiij第19页/共146页工商管理学院信息管理教研室), 2 , 1;, 2 , 1(*njmisxxxjjijij 这种标准化方法所得的新数据 *ijx各要素的平均值为0,标准差为1,即有 1)(11, 0112*1*mijijjmiijjxxmsxmx而且标准化后的数据 *ijx与变量

5、的量纲无关。 第20页/共146页工商管理学院信息管理教研室 经过这种标准化所得的新数据,各要素的极大值为经过这种标准化所得的新数据,各要素的极大值为1 1,其余各数值小于,其余各数值小于1 1。 ), 2 , 1;, 2 , 1(max*njmixxxijiijij第21页/共146页工商管理学院信息管理教研室 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0;极差为1,其余的数值均在0与1之间。数据是无量纲的量。), 2 , 1;, 2 , 1(minmaxmin*njmixxxxxijiijiijiijij第22页/共146页工商管理学院信息管理教研室第23页/共146页工商管

6、理学院信息管理教研室区代号区代号 指指 标标 人均耕地人均耕地x x1 1( (亩亩/ /人人) )劳均耕地劳均耕地x x2 2( (亩亩/ /个个) )水田比重水田比重x x3 3(%)(%)复种指数复种指数x x4 4(%)(%) 粮食亩产粮食亩产x x5 5(kg/(kg/亩亩) )人均粮食人均粮食x x6 6(kg/(kg/人人) ) 稻谷占粮食稻谷占粮食比重比重x x7 7(%)(%) G14.414.4116.4016.405.635.63 113.60113.60 300.70300.701036.401036.4012.2012.20G24.724.7214.5714.570.

7、390.3995.1095.10 184.90184.90 683.70683.700.850.85G31.841.844.474.475.285.28 148.50148.50 462.30462.30 611.10611.106.496.49G42.692.697.917.910.390.39 111.00111.00 297.20297.20 632.60632.600.920.92G83.1872.0472.04 217.80217.80 816.60816.60 791.10791.1080.3880.38G63.1643.7843.7

8、8 179.60179.60 598.20598.20 636.50636.5048.1748.17G22.7265.1565.15 194.70194.70 712.60712.60 634.30634.3080.1780.17G84.404.409.999.995.355.3594.9094.90 245.30245.30 771.70771.707.807.80G92.502.5002.9094.8094.80 282.10282.10 574.60574.601.171.17第24页/共146页工商管理学院信息管理教研室区代号区代号 指指

9、标标 x1x2x3x4x5x6x7G10.910.911.001.000.070.080.181.001.000.140.14G21.001.000.870.870.000.000.000.000.000.0000.00G50.150.070.070.440.440.440.440.080.080.070.07G40.440.440.380.380.000.0030.000.00G50.030.030.030.031.001.001.001.001.001.000.450.451

10、.001.00G60.030.030.030.030.610.610.690.690.650.690.59G70.000.000.000.000.900.900.810.810.840.801.00G80.910.910.530.530.070.070.000.0030.430.090.09G90.380.380.260.260.040.040.000.0000.000.000.00第25页/共146页工商管理学院信息管理教研室), 2 , 1;, 2 , 1(minmax*njmixxxxxijiij

11、ijijij 极差标准化变换变换后的数据,每个变量的样本均值为0,极差为1,且1*ijx,在 以后的分析计算中可以减少误差的产生;同时变化后的数据也是无量纲的量。 第26页/共146页工商管理学院信息管理教研室 对数变换可将具有指数特征的数据结构化为线性数据结构。对数变换可将具有指数特征的数据结构化为线性数据结构。 ), 2 , 1;, 2 , 1(0log*njmixxxijijij要求 此外,还有平方根变换,立方根变换等。它们的主要作用是把非线性数据结构变为线性数据结构,以适应某些统计方法的需要。此外,还有平方根变换,立方根变换等。它们的主要作用是把非线性数据结构变为线性数据结构,以适应某

12、些统计方法的需要。第27页/共146页据距离或相似系数的矩阵结构进据距离或相似系数的矩阵结构进行聚类。行聚类。工商管理学院信息管理教研室第28页/共146页工商管理学院信息管理教研室), 2 , 1;, 2 , 1( njmixij 列成表列成表31的形式。如果我们把每一个分类对象的形式。如果我们把每一个分类对象(样品,共样品,共m个个)的的n个聚类要素看成个聚类要素看成n维空间的维空间的n个坐标轴,则每一个分类对象的个坐标轴,则每一个分类对象的n个要素所构成的个要素所构成的n维数据向量就是维数据向量就是n维空间中的一个点维空间中的一个点(即即m个样品看成个样品看成n维空间中的维空间中的m个点

13、个点)。这样,各分类对象之间的差异性就可以由它们所对应的。这样,各分类对象之间的差异性就可以由它们所对应的n维空间中点之间的距离度量。维空间中点之间的距离度量。第29页/共146页工商管理学院信息管理教研室表示样品 和 ijd)(iX)( jX之间的距离,一般要求:(1) ijd0,对于一切i,j;当ijd=0时)(iX=)( jX; jiijdd(2) ,对于一切i,j;kjikijddd(3) ,对于一切i,j,k(三角不等式). 对于定量变量,常用的距离有: 第30页/共146页工商管理学院信息管理教研室), 2 , 1,( 1mjixxdnkjkikij第31页/共146页工商管理学院

14、信息管理教研室nkjkikijxxd12)(mji, 2 , 1,第32页/共146页工商管理学院信息管理教研室pnkpjkikijxxd11mji, 2 , 1,第33页/共146页工商管理学院信息管理教研室 当明科夫斯基距离p时,有 jkiknkijxxd1maxmji, 2 , 1,第34页/共146页工商管理学院信息管理教研室 这是由Lance和Williams最早提出的,故称为兰氏距离兰氏距离,定义为mji, 2 , 1,nkjkikjkikijxxxxnLd1)(1)( 这是一个无量纲的量,克服了明氏距离与各指标的量纲有关的缺点,且兰氏距离对在的奇异值不敏感,这样使得它特别适合高度

15、偏倚的数据。但兰氏距离也没有考虑变量间的相关性。这是一个无量纲的量,克服了明氏距离与各指标的量纲有关的缺点,且兰氏距离对在的奇异值不敏感,这样使得它特别适合高度偏倚的数据。但兰氏距离也没有考虑变量间的相关性。第35页/共146页工商管理学院信息管理教研室第36页/共146页工商管理学院信息管理教研室样品样品 和 )(iX)( jX的马氏距离为的马氏距离为mji, 2 , 1,)()()()()(1)()(jiTjiijXXSXXMd其中其中S S-1-1为样本协差阵的逆矩阵。为样本协差阵的逆矩阵。第37页/共146页为了克服变量之间相关性的为了克服变量之间相关性的影响,可采用影响,可采用斜交空

16、间距离斜交空间距离。工商管理学院信息管理教研室第38页/共146页工商管理学院信息管理教研室性变量的谱系结构不发生变形,性变量的谱系结构不发生变形,采用斜交空间距离,即令采用斜交空间距离,即令第39页/共146页工商管理学院信息管理教研室21112)(1nknlkljliljkikijrxxxxndmji, 2 , 1,为变量和 kX之间的相关系数。 lXklr第40页/共146页工商管理学院信息管理教研室040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493

17、. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)d(D99ij第41页/共146页工商管理学院信息管理教研室第42页/共146页工商管理学院信息管理教研室样品样品 的的n n个观测值个观测值 )(iX)( jX看成看成n n维空间的向量,则维空间的向量,则),(21iniixxx)(iX和和 的夹角的夹角 ij的余弦称为两向量的相似系数,即的余弦称为两向量的相似系数,即 nkjknkiknkjkikijijxxxxr12121)(cosmji, 2 ,

18、1,第43页/共146页工商管理学院信息管理教研室时,夹角在上式中,显然有:-1 )( jX=1,说明两个样)(iX和 正交时,ijijcos1。当ji =0,ijr品完全相似;当=0,说明两个样品不相似。ij=90,ijr第44页/共146页工商管理学院信息管理教研室)( jX)(iX和表示,相关系数就是对数据作标准化处理后的夹角ijr余弦。样品的相关系数亦用即nkjjknkiiknkjjkiikijxxxxxxxxr12121)()()(mji, 2 , 1,第45页/共146页工商管理学院信息管理教研室)( jX)(iX和。在上式中,ix和jx分别为聚类对象(样品)各要素标准化数据的平均

19、值。当 时,=1,表示两个样品线性相关,ji ijr一般情况下1ijr第46页/共146页工商管理学院信息管理教研室190. 019. 023. 021. 095. 055. 093. 077. 0114. 018. 021. 092. 045. 095. 093. 0199. 098. 024. 071. 001. 020. 0199. 030. 080. 005. 024. 0130. 076. 006. 030. 0167. 094. 088. 0138. 049. 0188. 01)(99ijrR第47页/共146页籍。籍。工商管理学院信息管理教研室第48页/共146页工商管理学院信息

20、管理教研室), 2 , 1()(miXi第49页/共146页这个并类过程可以用这个并类过程可以用谱系聚类图谱系聚类图形象地表达出来。形象地表达出来。工商管理学院信息管理教研室第50页/共146页离,得样品间离,得样品间工商管理学院信息管理教研室)0(D的距离矩阵的距离矩阵;第51页/共146页工商管理学院信息管理教研室), 2 , 1()(miXGii 此时类间的距离就是样品间的距离此时类间的距离就是样品间的距离, ,即即)0()1(DD然后对步骤然后对步骤 mi, 3 , 2执行并类过程的步执行并类过程的步骤和;骤和;第52页/共146页工商管理学院信息管理教研室1imk 计算新类与其它类的

21、距离,得新的距计算新类与其它类的距离,得新的距)(iD离矩阵离矩阵。若合并后类的总个数。若合并后类的总个数k仍大于仍大于1 1,重复和步;直到类的总个数为,重复和步;直到类的总个数为1 1时止。时止。 画谱系聚类图;画谱系聚类图; 决定分类个数及类的成员。决定分类个数及类的成员。第53页/共146页工商管理学院信息管理教研室计算5个样品:)5()4()3()2()1(,XXXXX两两间的距离,得初始的类间距离矩阵为:两两间的距离,得初始的类间距离矩阵为:)1(D第54页/共146页工商管理学院信息管理教研室 0205 . 35 . 10645 . 20755 . 310)1(D)5 , 2 ,

22、 1()(iXGii即类的个数k=5。 第55页/共146页工商管理学院信息管理教研室可知,首先合并)1(D)1(X)2(X)2()1(,4XXCL类的总个数k减少1类,变为k=4,故把此步得到和为一新类,记为;此时的新类记为CL4。 由 按最短距离法计算新类按最短距离法计算新类CL4与其他类的距与其他类的距)2(D离,得新的距离矩阵:离,得新的距离矩阵:第56页/共146页工商管理学院信息管理教研室)3(X)4(X)5(X4CL)3(X)4(X)5(X4CL 01.5 3.5 2.5 0 2 4 0 6 0)2(D: 因此时类的总个数因此时类的总个数k=4大于大于1类,重复并类过程。类,重复

23、并类过程。 第57页/共146页工商管理学院信息管理教研室此时类的总个数k减少1类,变为k3,故把此步得到的新类记为CL3。 )2(D)3(X)4(X)4()3(,3XXCL 由可知类间距离为1.5时最小,故合并和为一新类,记为: 按最短距离法计算新类CL3与其他类的)3(D距离,得新的距离矩阵:第58页/共146页工商管理学院信息管理教研室因此时类的总个数k=3大于1,重复并类过程。 :)3(D)5(X4CL3CL)5(X4CL3CL 062 02.5 0第59页/共146页工商管理学院信息管理教研室此时类的总个数k减少1类,变为k=2,故把此步得到的新类记为CL2。 )3(D)5(X3CL

24、)4()3()5(,2XXXCL由可知,应合并和为一新类,记为; 按最短距离法计算新类CL2与其他类的)4(D距离,得到的新的距离矩阵:4CL2CL4CL2CL 0 02.52.5 0 0第60页/共146页工商管理学院信息管理教研室)4(D4CL2CL)5()4()3()2()1(,1XXXXXCL 由可知,最后应合并和为一新类,记为;此时类的总个数k=1,故把此步得到的新类记为CL1。1CL1CL 0 0)5(D此时所有样品全并成一类,得新的距离矩阵:并类过程至此结束。 第61页/共146页工商管理学院信息管理教研室11谱系聚类图0 1 1.5 2 2.5 3)1(X)2(X)3(X)4(

25、X)5(XCL4CL3CL2CL1第62页/共146页工商管理学院信息管理教研室12若分为两类,则)4()3()5()2(2,XXXG;)2()1 ()2(1,XXG,若分为三类,则)4()3()3(3,XXG;)2() 1 ()3(1, XXG,)5()3(2XG,第63页/共146页工商管理学院信息管理教研室12若分为四类,则若分为五类,则,)2()1 ()4(1,XXG;)4()4(4XG)5()4(2XG,)3()4(3XG,)5 , 4 , 3 , 2 , 1()()5(iXGii第64页/共146页取更合适取更合适( (后面将有较详细叙述后面将有较详细叙述) )。工商管理学院信息管

26、理教研室第65页/共146页工商管理学院信息管理教研室间的距离。 ijd)(iX)( jXijr2211ijijijijrdrd或ijDiGjG以下用表示样品和之间的距离,当样品间的亲疏关系采用相似系数时,令;用表示类和第66页/共146页工商管理学院信息管理教研室两类中最近样品之间的距离,即类之间的距离定义为pGqGpqD和),X其中(min)(i,以下同表示ppijGjGipqGGidDqp第67页/共146页工商管理学院信息管理教研室),(,minmin,minmin),(min,qpkDDddGGGdDqkpkijGjGiijGjGiqprijGjGirkkqkpkrpGqGrGrGk

27、G当某步类和合并为后,按最短距离法计算新类与其它类的类间距离,递推公式为第68页/共146页工商管理学院信息管理教研室 以下,我们以某地区九个农业区的七项经济指标所形成的距离矩阵,用最短距离聚类法对某地区的九个农业区进行聚类分析。ijdiGjG 从原来的mm距离矩阵,得到一新类后,计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小的,把和归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。第69页/共146页工商管理学院信息管理教研室040. 132. 306. 384. 451. 020. 166. 162. 200

28、3. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)d (D99ij第70页/共146页工商管理学院信息管理教研室9410,GGG元素中最小者是,故首先将第51. 094d10G4区与第9区并为一类,记为,即1G2G3G5G6G7G8G10G分别按照最短距离法递推公式计算,与之间的距离得:第71页/共146页=4.77D6,10=mind64,d69=mi

29、n2.99,3.06=2.99D7,10=mind74,d79=min4.06,3.32=3.32D8,10=mind84,d89=min1.29,1.40=1.29工商管理学院信息管理教研室第72页/共146页工商管理学院信息管理教研室1G2G3G5G6G7G8G10G这样就得到,上的一个新的88阶距离矩阵D(2) : , G1 G2 G3 G5 G6 G7 G8 G10G1 0G2 1.52 0G3 3.10 2.70 0G5 5.86 6.02 3.64 0G6 4.72 4.46 1.86 1.78 0G7 5.79 5.53 2.93 0.83 1.07 0G8 1.32 0.88

30、2.24 5.14 3.96 5.03 0G10 2.19 1.47 1.20 4.77 2.99 3.32 1.29 0第73页/共146页工商管理学院信息管理教研室推公式计算1G2G3G6G11G8G10G,与之间的距离,可得到一个新的77阶距离矩阵D(3) :第74页/共146页工商管理学院信息管理教研室 G1 G2 G3 G6 G8 G10 G11G1 0 G2 1.52 0G3 3.10 2.70 0G6 4.72 4.46 1.86 0G8 1.32 0.88 2.24 3.96 0G10 2.19 1.47 1.20 2.99 1.29 0G11 5.79 5.53 2.93 1

31、.07 5.03 3.32 0第75页/共146页工商管理学院信息管理教研室计算1G12G3G6G11G10G,与离,可得到一个新的66阶距离矩阵D(4) :之间的距第76页/共146页工商管理学院信息管理教研室 G1 G3 G6 G10 G11 G12G1 0G3 3.10 0G6 4.72 1.86 0G10 2.19 1.20 2.99 0G11 5.79 2.93 1.07 3.32 0G12 1.32 2.24 3.96 1.29 5.03 0 第77页/共146页工商管理学院信息管理教研室再按照最短距离法递推公式计算1G12G3G13G10G,与的55阶距离矩阵D(5) :之间的距

32、离,可得到一个新第78页/共146页工商管理学院信息管理教研室 G1 G3 G10 G12 G13 G1 0G3 3.10 0G10 2.19 1.20 0G12 1.32 2.24 1.29 0 G13 4.72 1.86 2.99 3.96 0第79页/共146页工商管理学院信息管理教研室再按照最短距离法递推公式计算1G13G12G14G,与阶距离矩阵D(6) :之间的距离,可得到一个新的44第80页/共146页工商管理学院信息管理教研室 G1 G12 G13 G14 G1 0G12 1.32 0 G13 4.72 3.96 0G14 2.19 1.29 1.86 0第81页/共146页工

33、商管理学院信息管理教研室再按照最短距离法递推公式计算1G13G15G,与离矩阵D(7) :之间的距离,可得到一个新的33阶距第82页/共146页工商管理学院信息管理教研室 G1 G13 G15 G1 0G13 4.72 0G15 1.32 1.86 0第83页/共146页工商管理学院信息管理教研室再按照最短距离法递推公式计算13G16G与阵D(8) :之间的距离,可得到一个新的22阶距离矩第84页/共146页工商管理学院信息管理教研室 G13 G16 G13 0G16 1.86 0 第八步,将G13和G16归并为一类。此时,所有分类对象均被归并为一类。 综合上述聚类过程,可以做出最短距离聚类谱

34、系图(如下图所示)。 第85页/共146页工商管理学院信息管理教研室G10谱系聚类图0 0.5 1 1.5 2G6G5G7G2G8G3G4G9G1G11G12G13G14G15G16G17第86页/共146页工商管理学院信息管理教研室),X(max)(i,以下同表示这里ppijGjGipqGGidDqp为两类中最远样品间的距离,即类之间的距离pGqGpqD和定义为:第87页/共146页工商管理学院信息管理教研室),(,maxmax,maxmax),(max,qpkDDddGGGdDqkpkijGjGiijGjGiqprijGjGirkkqkpkrpGqGrGrGkG当某步类和合并为后,按最长距

35、离法计算新类与其它类的类间距离,递推公式为第88页/共146页第89页/共146页工商管理学院信息管理教研室9410,GGG元素中最小者是,故首先将第51. 094d10G4区与第9区并为一类,记为,即1G2G3G5G6G7G8G10G分别按照最长距离法递推公式计算,与之间的距离得:第90页/共146页D6,10=maxd64,d69=max2.99,3.06=3.06D7,10=maxd74,d79=max4.06,3.32=4.06D8,10=maxd84,d89=max1.29,1.40=1.40工商管理学院信息管理教研室第91页/共146页工商管理学院信息管理教研室1G2G3G5G6G

36、7G8G10G这样就得到,上的一个新的88阶距离矩阵D(2) : , G1 G2 G3 G5 G6 G7 G8 G10G1 0G2 1.52 0G3 3.10 2.70 0G5 5.86 6.02 3.64 0G6 4.72 4.46 1.86 1.78 0G7 5.79 5.53 2.93 0.83 1.07 0G8 1.32 0.88 2.24 5.14 3.96 5.03 0G10 2.62 1.66 1.23 4.84 3.06 4.06 1.40 0第92页/共146页工商管理学院信息管理教研室推公式计算1G2G3G6G11G8G10G,与之间的距离,可得到一个新的77阶距离矩阵D(

37、3) :第93页/共146页工商管理学院信息管理教研室 G1 G2 G3 G6 G8 G10 G11G1 0 G2 1.52 0G3 3.10 2.70 0G6 4.72 4.46 1.86 0G8 1.32 0.88 2.24 3.96 0G10 2.62 1.66 1.23 3.06 1.40 0G11 5.86 6.02 3.64 1.78 5.14 4.48 0第94页/共146页工商管理学院信息管理教研室计算1G12G3G6G11G10G,与离,可得到一个新的66阶距离矩阵D(4) :之间的距第95页/共146页工商管理学院信息管理教研室 G1 G3 G6 G10 G11 G12G1

38、 0G3 3.10 0G6 4.72 1.86 0G10 2.62 1.23 3.06 0G11 5.86 3.64 1.78 4.48 0G12 1.52 2.70 4.46 1.66 6.02 0 第96页/共146页工商管理学院信息管理教研室再按照最长距离法递推公式计算1G12G6G13G11G,与的55阶距离矩阵D(5) :之间的距离,可得到一个新第97页/共146页工商管理学院信息管理教研室 G1 G6 G11 G12 G13 G1 0G6 4.72 0G11 5.86 1.78 0G12 1.52 4.46 6.02 0 G13 3.10 3.06 4.84 2.70 0第98页/

39、共146页工商管理学院信息管理教研室再按照最长距离法递推公式计算6G13G11G14G,与阶距离矩阵D(6) :之间的距离,可得到一个新的44第99页/共146页工商管理学院信息管理教研室 G6 G11 G13 G14 G6 0G11 1.78 0 G13 3.06 4.84 0G14 4.72 6.02 3.10 0第100页/共146页工商管理学院信息管理教研室再按照最长距离法递推公式计算13G14G15G,与离矩阵D(7) :之间的距离,可得到一个新的33阶距第101页/共146页工商管理学院信息管理教研室 G13 G14 G15 G13 0G14 3.10 0G15 4.84 6.02

40、 0第102页/共146页工商管理学院信息管理教研室再按照最长距离法递推公式计算15G16G与阵D(8) :之间的距离,可得到一个新的22阶距离矩第103页/共146页工商管理学院信息管理教研室 G15 G16 G15 0G16 6.02 0 第八步,将G15和G16归并为一类。此时,各个分类对象均被归并为一类。 综合上述各聚类步骤,可做出最长距离聚类的谱系图(如下图所示)。 第104页/共146页工商管理学院信息管理教研室G10G11G12G13G14G15G16G17G1G2G8G3G4G9G5G7G6谱系聚类图0 1 2 3 4 5 6 7 第105页/共146页以把全部分类对象归为一类

41、,这以把全部分类对象归为一类,这样就可以根据归并的先后顺序做样就可以根据归并的先后顺序做出聚类分析的谱系图。出聚类分析的谱系图。工商管理学院信息管理教研室第106页/共146页工商管理学院信息管理教研室040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)d(D99ij第1

42、07页/共146页工商管理学院信息管理教研室040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)d(D99ij第108页/共146页工商管理学院信息管理教研室040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 5

43、29. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)d(D99ij第109页/共146页工商管理学院信息管理教研室040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 407

44、7. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)d(D99ij第110页/共146页工商管理学院信息管理教研室040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)d(D99ij第111页/共146页工商管理学院信

45、息管理教研室040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)d(D99ij第112页/共146页工商管理学院信息管理教研室040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 03

46、2. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)d(D99ij第113页/共146页工商管理学院信息管理教研室040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686

47、. 5023. 147. 119. 2070. 210. 3052. 10)d(D99ij第114页/共146页工商管理学院信息管理教研室040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)d(D99ij第115页/共146页工商管理学院信息管理教研室G10G11G12G

48、13G14G15G16G17G1G2G8G3G4G9G6G5G7直接聚类法谱系聚类图直接聚类法谱系聚类图0 1 2 3 4 5 6 7 第116页/共146页工商管理学院信息管理教研室第117页/共146页工商管理学院信息管理教研室pGqGrGrGkG当某步类和合并为后,按中间距离法计算新类与其它类的类间距离,递推公式为), 041()(212222qpkDDDDpqqkpkrk第118页/共146页工商管理学院信息管理教研室边上的中线。4/1rkDqkDpkDpqDpqD常取,此时由初等几何知就是以,为边的三角形中第119页/共146页工商管理学院信息管理教研室pGqGrG设某步将类和合并为

49、它们所包含的样品个数分别为 pmqmrm)(qprmmm)(pX)(qX)(rX,和。重心分别为,和。显然有第120页/共146页工商管理学院信息管理教研室)(1)()()(qqpprrXmXmmX的距离是kG),(qpk )(kXrG的重心为,它与新类)()(,krrkXXdD如果样品间的距离定义为欧氏距离,则有 ),()()(222)()()()(2qpkDmmmmDmmDmmXXXXDpqrqrpqkrqpkrprkTrkrk第121页/共146页工商管理学院信息管理教研室qpGjGiijqppqdmmD,221采用这种类间距离的聚类方法,称为类平均法。 pGqGrG当某步类和合并为:)

50、(qprmmmqprGGG,,且第122页/共146页工商管理学院信息管理教研室距离的递推公式为kGrG与其它类 类平均法是一种使用比较广泛、聚类效果较好的方法。),(222qpkDmmDmmDqkrqpkrprk第123页/共146页工商管理学院信息管理教研室pGqG和之间距离pqD的影响,可变类平均法将合并后新类距离公式进一kGrG与其它类步推广为),()1 (2222qpkDDmmDmmDpqqkrqpkrprk1其中是可变参数,一般取。显然,可变类平均法是由类平均法和中间距离法适当推第124页/共146页工商管理学院信息管理教研室时就是下面介绍的可变法)。003/1qpmmqpmm广得

51、到的(当时就是类平均法;当且时就是中间距离法;当常取负值,如41可变类平均法的分类效果与的选择关系极大,当接近1时一般分类效果不好,在实用中。第125页/共146页工商管理学院信息管理教研室pGqGrG当某步类和合并为后,可变法把 距离的递推公式定义为kGrG与其它类),()(2)1 (2222qpkDDDDpqqkpkrk在SAS/STAT软件的CLUSTER过程中使用0的递推公式2222qkpkrkDDD并把此方法称为McQuitty相似分析法。相似分析法。 第126页/共146页工商管理学院信息管理教研室 离差平方和法是Ward(1936)提出的,也称为Ward法。它基于方差分析思想,如

52、果类分得正确,则同类样品之间的离差平方和应当较小,不同样品之间的离差平方和应当较大。 离差平方和为mkkGGG,21tmtG)(tXtG)()(tiXtGi), 2 , 1(tmitG假定已将个样品分为类,记为,表示类的样品个数,表示的重心,表示中第个样品,则中样品的第127页/共146页工商管理学院信息管理教研室)()()()()(1)()()(ttiTmittitXXXXWt为一数值。)()(tiX)(tXntW其中,为维向量,个类的总离差平方和为kktttiTmittikttXXXXWWt1)()()(1)()()(1)()(达到极小的分类。 kW当固定时,要选择使第128页/共146页工商管理学院信息管理教研室,成一类,此时m0W个样品各自然后每次将其中某两类合并为一类,因每缩小一类离差平方和就要增加,每次选择使增加最小的两类进行合并,直至所有样品合并为一类为止。 Ward法把两类合并后增加的离差平方和看成类间的平方距离,即令)(2qprpqWWWDpGqG和的平方距离,其中表示qprGGG,,第129页/共146页工商管理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论