系统聚类分析方法_第1页
系统聚类分析方法_第2页
系统聚类分析方法_第3页
系统聚类分析方法_第4页
系统聚类分析方法_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、系统聚类分析方法聚类分析是研究多要素事物分类问题的数量方法。基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。1. 聚类要素的数据处理假设有m个聚类的对象,每一个聚类对象都有个要素构成。它们所对应的要素数据可用表341给岀。(点击显示该表)在聚类分析中,常用的聚类要素的数据处理方法有如下几种。表*1 黔处与要弼屬誥也 A ” J A , 耳AA ,%比LA ,A ,MMMM兀1A n%A ,嘔MMMMM 总和标准化珀-盂上一。二 A12A ,w)3-1且

2、另工,=1 (J = 1.2,A /)i .1 标准差标准化极大值标准化经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1 极差的标准化经过这种标准化所得的新数据,各要素的极大值为 1,极小值为0,其余的数值均在 o与1之间。2. 距离的计算距离是事物之间差异性的测度,差异性越大,则相似性越小,所以距离是系统聚类分析的依据和基础。绝对值距离y二习為R K少5!=12: c咼丘盂拱)3jt_i(i.j = L2=A明 科夬MS基距离% - s I_A-1XiJi e X)覺切比雪夫距离当明科夫斯基距RTooHYh苟IJt _弓息,往往采用几种距离进行计选择不同的距离,聚类结果会有所

3、差异。在地理分区和分类研究中 算、对比,选择一种较为合适的距离进行聚类。人均耕地XL/W人J劳均耕地ZhiiF 个-1加中出蚩寡种損数粮食亩产乌/kg htr詔入均粮曹5宵人稻谷占粮当观G10.2941.093戈岀113 ei4310 510 36.412J2U.31H0.9710.3S35.12773.83.7O.3J0.1230.31(55.2S5934 511 1&醴.17?0.527Q.39111445S63260.Z2场0.DS10.21272 04517 8122497P1.1S0 .3 &0.0820.21143 .73179.6397343丄了Ch0.0750.1S165 15

4、1947106S9634 38017.2930.6665.353679.5771.77.S60.1(570.4142.994 a4231 5J74Z1 17裘M43擾差栋准磁fc理后的数塞匡代 号旳3=3Gj0.911.0D0.073.150.13LOO0446LOO0 70.00a.(X0.000 240.0Dg30.200 150.070.440.44one0.0?30 440,380.000.130.130.13OWGj0.030.C31 001.001 000.45Gtn.z0.03n百lQ.50.(55n|3a .5?Gi0.000 000 90D.310.S4012G& .Pi0,

5、53 .07aw0.10 430,0?60.3S0 26 .04.00.150.000.00对于表3.4.3中的数据,用绝对值距离公式计算可得九个农业区之间的绝对值距离矩阵3.102 7002.191.471 231.520D=5& 6.02 3.544.724 461.365.795.532.931.320.332 24Z621.6C1.204.77Q2.991.78G4.060.831.0701 295A43.965.0300.514.843 OS3.321 4003. 直接聚类法直接聚类法是根据距离矩阵的结构一次并类得到结果。基本步骤: 把各个分类对象单独视为一类; 根据距离最小的原则,

6、依次选岀一对分类对象 ,并成新类:如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类;每一次归并,都划去该对象所在的列与列序相同的行:那么,经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。直接聚类法虽然简便,但在归并过程中是划去行和列的,因而难免有信息损失。因此,直接聚类法并不是最好的系统聚类方法。举例说明(点击打开新窗口 ,显示该内容)例:已知九个农业区之间的绝对值距离矩阵,使用直接聚类法做聚类分析_ 01.5203.102.7002 191 471.23G5.86023.d44.7704 724

7、.461.8S2.9?1 7305 795.532.934.060.331.0701.320.382.241.2?5.143.965.0302.621.661.200.514.碉3.D63 321.-100解:根据上面的距离矩阵,用直接聚类法聚类分析类,划去第9行和第9列;第二步,在余下的元素中,除对角线元素以外,d75= d57=0.83 为最小者,故将第5区与第7区并为一 类,划掉第7行和第7列;第三步,在第二步之后余下的元素之中,除对角线元素以外,d82= d28=0.88为最小者,故将第2区与第8区并为一类,划去第8行和第8列;第四步,在第三步之后余下的元素中 区并为一类,划去第4行和

8、第4列, 第五步,在第四步之后余下的元素中 区并为一类,划去第2行和第2列, 第六步,在第五步之后余下的元素中 区并为一类,划去第6行和第6列, 第七步,在第六步之后余下的元素中,除对角线元素以外,d43= d34=1.23此时,第3、4、9区已归并为一类;,除对角线元素以外,d21= d12=1.52此时,第1、2、8区已归并为一类;,除对角线元素以外,d65= d56=1.78此时,第5、6、7区已归并为一类;,除对角线元素以外,d31= d13=3.10为最小者,故将第3区与第4为最小者,故将第1区与第2为最小者,故将第5区与第6为最小者,故将第1区与第3区并为一类,划去第3行和第3列,

9、此时,第1、2、3、4、8、9区已归并为一类第八步,在第七步之后余下的元素中除去对角线元素以外,只有d5仁d15=5.86,故将第1区与第5区 并为一类,划去第5行和第5列,此时,第1、2、3、4、5、6、7、8、9、区均归并为一类; 根据上述步骤,可以做岀直接聚类谱系图。(点击展开显示该图)4. 最短距离聚类法最短距离聚类法是在原来的mxm距离矩阵的非对角元素中找岀,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式出戒-min圧两况孙 仇# p,学)计算原来各类与新类之间的距离 ,这样就得到一个新的 (m - 1)阶的距离矩阵;再从新的距离 矩阵中选出最小者 dij ,把Gi和Gj归并成

10、新类;再计算各类与新类的距离 ,这样一直下去,直 至各分类对象被归为一类为止 。举例说明(点击打开新窗口 ,显示该例)例:已知九个农业区之间的绝对值距离矩阵,使用最短距离聚类法做聚类分析_ 0-1 5203 102.7002 191 471 230心=(幼5.3d602佃4.7704.724.461.862.991.7S05 795 532.934.060.831.070I 32C.332.241.255.143光SD302.621.661.200.514.343.063 321 400解:用最短距离聚类法对某地区的九个农业区进行聚类分析第一步,在9 X9阶距离矩阵D中,非对角元素中最小者是

11、d94=0.51 ,故首先将第4区与第9区并为一类,=fnin记为G10,即G10= G4, G9。分别计算 G1 , G2, G3, G5, G6 , G7, G8与G10之间的距离得:九 io=min= iYim(1 47,-1.47也io=niin1.20=1.20爲.iomin已59min4 77,4 84;=4.77厲.io=tninmm2.99,3.06=2 99山.io=min=min3 32j=132cis, iQ=rriin= inmJ .408 X8阶距离矩阵中,非对角元素中最小者为 d57=0.83 ,故将G5与G7归6巳 66 爲%易0%1.5203 102.7005

12、K615.023.S404.724.461.S61 7S05.755.532.330.331.07C1.32価2.245.143.965.0302 191.471.2C4 772 99曲1.290这样就得到G1 , G2, G3,G8, G10上的一个新的8 X8阶距离矩阵:G5, G6, G7,第二步,在上一步骤中所得到的2 O-G O 5 1叮 1 3OO0 726O 936 48 2126 84 84 O并为一类,记为G11 ,即G11= G5 , G7o分别计算G1 , G2 , G3 , G6 , G8 , G10与G11之间的距 离,可得到一个新的7 X7阶距离矩阵第三步,在第二步

13、所得到的7 X7阶距离矩阵中,非对角元素中最小者为d28=0.88 ,故将G2与G8归并为 一类,记为G12,即G12= G2, G8 。分别计算G1 , G3 , G6, G10 , G11与G12之间的距离,可得到一个新的6 X6阶距离矩阵:7952423o O52 90 3 23 1第四步,在第三步中所得的6 X6阶距离矩阵中,非对角元素中最小者为 d6 ,11=1.07 ,故将G6与G11归并为一类,记为 G13 ,即 G13= G6, G11 = G6, ( G5, G7)。计算 G1 , G3, G10, G12 与 G13之间的距离,可得到一个新的5 X5阶距离矩阵:5 q%0Q

14、2.191.2001322 241 2904721.862.993.960第五步,在第四步中所得的5 X5阶距离矩阵中,非对角线元素中最小者为 d3 , 10=1.20 ,故将G3与G10归并为一类,记为G14 ,即G14= G3, G10 = G3 , ( G4, G9)。再按照公式(3.3.10 )式计算G1, G12, G13与G14之间的距离,可得一个新的4 X4阶距离矩阵:3%Gi01.320%4.723.9602 191.292 990第六步,在第五步所得到的4 X4阶距离矩阵中,非对角线元素中最小者为d12 , 14=1.29 ,故将G12与公式(3.3.10)式计算G1 , G

15、13与G15之间的距离,可得一个新的3 X3阶距离矩阵30GV 4.720Gls 1.32 2.990第七步,在第六步所得的3 X3阶距离矩阵中,非对角线元素中最小者为 di , 15=1.32 ,故将G1与G15归并为一类,记为 G16 ,即 G16= G1, G15 = ( G1 ,( G2, G8),( G3,( G4 , G9 )。再按照公式(3.3.10)式计算G13与G16之间的距离,可得一个新的2 X2阶距离矩阵:孔 2.990第八步,将G13与G16归并为一类。此时,所有分类对象均被归并为一类最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离采用的公式不同最远距离聚

16、类法的计算公式:举例说明(点击打开新窗口 ,显示该例)6.系统聚类法计算类之间距离的统一公式最短距离聚类法具有空间压缩性,而最远距离聚类法具有空间扩张性(图344 )。最短距离为 d AB=d albl, 最远距离为dAB=d ap2。最短距离聚类法和最远距离聚类法关于类之间的距离计算可以用统一的式子表示:气T 气也;丘 + Y | ;忙d;k I当丫二1/2时,就是最短距离聚类法计算类间距离的公式;当丫 =1/2时,就是最远距离聚类法计算类间距离的公式。系统聚类的方法还有:几=务磅+叫瞪+购;扌+川隔|表示了八种不同系统聚类方法计算类间距离的统一表达式(见表3.3.4 )。7.系统聚类分析实

17、例作为系统聚类分析方法的应用实例,下面对中国大陆31个省级区域第三产业综合发展水平进行类型划分及差异性程度分析。1)聚类指标选择 选取如下7项指标作为对中国第三产业综合发展水平进行聚类分析的基础指标 y1 人均GDP,反映经济社会发展的总体状况和一般水平y2 人均第三产业增加值,反映人均服务产品占有量或服务密度y3 第二产业增加值比重,反映工业化水平和产业结构现代化程度y4 第三产业增加值比重,反映第三产业的发展程度及其对国民经济的贡献 y5 第三产业从业人员比重,反映第三产业对劳动力的吸纳能力 y6 第三产业固定资产投资比重,反映第三产业的资金投入程度 y7 城市化水平,反映农村人口转化为城

18、市人口的程度及对服务的需求量表3.站 中亟K第三产业fe展水平景类分析魁曽佛年)序?詬GDP 曲人人均第 三产业 増加值(灵人)第_产业石加 值比重 m第业直f第三产 业从业 人员比 重旳箒三产业 固定贵产 投资曲重曲城市水平旳1北京9132.4239.156653 3酯958.442天逮1勰血294.15峻443.139 545.5954,览3河北蚀3102.4245艾53.12124和62292260 3938.535426.9血51.44注本表数据详见书走就贡.2)聚类计算以1999年国家统计局岀版的中国统计年鉴(1998年度的数据)为数据来源,运用上述7项指标(表345)(点击显示该表

19、),借助于统计分析软件包 SPSS10.0进行聚类分析计算,计算 过程如下: 用标准差标准化方法对7项指标的原始数据进行处理。 采用欧氏距离测度 31个省(市、区)之间的样本间距离。 选用组平均法计算类间的距离,并对样本进行归类。经过上述聚类计算步骤 ,得到的聚类结果见图 3.4.5。(点击在新窗口中显示该图 )W ? 4 4 3 4 T 丁r?lu4tl-L.D 1 !1 #1 器 lr H 敗 N 静3 * h h - - ft I t i- B 0 T 3 9 2 HKnzmi*1fuaHllq 血nMsrlx.:m 型裤!、模糊聚类分析基本原理聚类分析是根据样本代表性指标在性质上的亲疏

20、程度进行分类。因 此,我们可以把模糊聚类分析的步骤分解如下:1 确定样本统计指标与数据标准化对样本进行分类的效果如何,关键在于要把统计指标选择合理。也就 是统计指标应该有明确的实际意义,有较强的分辨力和代表性,即要有一 定的普遍意义。数据标准化就是把各个代表统计指标的数据标准化,以便于分析和比 较,这一步也称为数据正规化。方法是:,x-XX =式中x为原始数据,上为原始数据的平均值,S为原始数据的标准 差,丁为标准化数据。若要把标准化数据压缩到0 , 1 闭区间,可用极值标准化公式:亠JX三 ttx max原始数据组中的最大者;x min原始数据组中的最小者。当 x = x max 时,= 1

21、 ;x = x min 时,.=0。2 .标定距离,建立相似关系矩阵:-距离是衡量分类对象间相似程度的统计量,用r ij ( i = 1 ,2,n; j = 1 ,2,n ; n为样本的个数)表示。利用r ij从而确定R相似关系矩阵-标定距离的方法有很多,下面只列举几种常用的计算方法:欧氏距离其中,x ik表示第i个样本的第k个指标的观察值,x jk表示第j个 样本的第k个指标的观察值,r ij表示第i个样本与第j个样本之间的 亲疏程度。r ij越小,则第i个样本与第j个样本之间的性质就越接近。 性质接近的样本就可以划归为一类。绝对减数法1当1 =耐);r = Jii甘一吃|兀-兀| (当2刑

22、T;.-14其中c应适当选取,使得0 Wr ij W 1。3 .进行聚类在确定了样本之间的距离后,就可以对样本进行归类,归类的方法很 多,其中用得最广泛的是系统聚类法。它首先把n个样本每个自成一类, 然后每次将具有最小距离的两类合并成一类,合并后又再重新计算类与类 之间的距离,直至所有样品归为一类为止。爱人者,人恒爱之;敬人者,人恒敬之;宽以济猛,猛以济宽,政是以和。将军额上能跑马,宰相肚里能撑船。最高贵的复仇是宽容。有时宽容引起的道德震动比惩罚更强烈。君子贤而能容罢,知而能容愚,博而能容浅,粹而能容杂。宽容就是忘却,人人都有痛苦,都有伤疤,动辄去揭,便添新创,旧痕新伤难愈合,忘记昨日的是非,

23、忘记别人先前对自己的指责和谩骂,时间是良好的止痛剂,学会忘却,生活才有阳光,才有欢乐。不要轻易放弃感情,谁都会心疼;不要冲动下做决定,会后悔一生。也许只一句分手,就再也不见;也许只一次主动,就能挽回遗憾。感情不是游戏,谁也伤不起;人心不是钢铁,谁也疼不起。好缘分,凭的就是真心真意;真感情,要的就是不离不弃爱你的人,舍不得伤你;伤你的人,并不爱你。你在别人心里重不重要,自己可以感觉到。所谓华丽的转身,都有旁人看不懂的情深人在旅途,肯陪你一程的人很多,能陪你一生的人却很少 。谁在默默的等待,谁又从未走远,谁能为你一直都在?这世上,别指望人人都对你好,对你好的人一辈子也不会遇到几个。人心只有一颗,能放在心上的人毕竟不多 ;感情就那么一块,心里一直装着你其实是难得动了真情,情才会最难割;付出真心,心才会最难舍你在谁面前最蠢,就是最爱谁。其实恋爱就这么简单,会让你智商下降,完全变了性格,越来越不果断所以啊,不管你有多聪明,多有手段,多富有攻击性,真的爱上人时,就一点也用不上这件事情告诉我们。谁在你面前很聪明,很有手段,谁就真的不爱你呀遇到你之前

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论