系统聚类分析方法_第1页
系统聚类分析方法_第2页
系统聚类分析方法_第3页
系统聚类分析方法_第4页
系统聚类分析方法_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、系统聚类分析方法聚类分析是研究多要素事物分类问题的数量方法。基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。1. 聚类要素的数据处理假设有m个聚类的对象,每一个聚类对象都有 个要素构成。它们所对应的要素数据可用表341给出。(点击显示该表)在聚类分析中,常用的聚类要素的数据处理方法有如下几种。3.11慕类对象麻蘇0E聚类对象要秦心A ,A ,1A ,A .兀2A ,A .%MMMMMMi阳帀AX-VA .%MMMMMM5A .%A .T 总和标准化-(

2、? =12,A j = 1,2 /)且 23珀=1 (八 12A 标准差标准化 极大值标准化X.(j = 1,2A恐力=12人屈经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1 极差的标准化可二 筲貰鼠 二2 a m j二pm显) tn严毎J min Vj/J经过这种标准化所得的新数据,各要素的极大值为 1,极小值为o,其余的数值均在 o与1之间2. 距离的计算距离是事物之间差异性的测度,差异性越大,则相似性越小,所以距离是系统聚类分析的依据和基础。绝对值距离(i.J =1,2,A,初)(i.J = 1,2,A ”炖) 明科夫斯基距离&护=22讥_ *桑 L j 切比雪夫距禽当

3、明科夫斯基距P -00时,有(i.j = 1,2,A ,w)GJ = 1,2,A,决)往往采用几种距离进行计算、选择不同的距离,聚类结果会有所差异。在地理分区和分类研究中, 对比,选择一种较为合适的距离进行聚类。例:表342给岀了某地区九个农业区的七项指标,它们经过极差标准化处理后,如表3.4.3所示。表3,4.2某地区九亍农业区的七项軽湖碍救区代号人均耕地劳均紺地水田比重复种指数粮食亩产人均粮食稻谷占粮 食比重 舒/%/h*tia A1/hn?个】帘/%x/kg hmp2唧吨人】0.2941 0935.63113 64510.51036 412 20 3150 P710.3995 12773

4、.5633.70.S5色0.1230 3165.2814S.56934.5611.16.490 17P0.5270.39H!445阳2出0.92Gs0.0810 21272.04217 312249791 iS0.3E令0.0820 21143 7 8179 68973S36.543 170.0750 1S165A519471068?(5343S0.17色0.2930 6665.3594.93679 5771 77.330.1670 4142994.S4231 5574.tf1 17表3.4,3 舉差标谁化蚣理后的数摇区代 牙Xix?60.911.00 07Q.1S0.181 000.1461

5、.000.870.00 000.00 240.0060.200.150.07 440 440.0S0.0760 440.3S0.000 130 180130.0060 030 031 001.001 000.451.00Gl0.030.Q30.61G.690.650130.5960 000.000.P0 310.840.131.D0$0.910.530.07 000100.430.D9各90.380.260.040.000.150.000.00对于表3.4.3中的数据,用绝对值距离公式计算可得九个农业区之间的绝对值距离矩阵:01.5203.102.7002.191 471 2305.8156.

6、D23 644.7704.724.46l.3d2.991.7305 795.532.334-怖0 831.0701.320削2.241.295.143J65.032.521.561.200.514.343.063.3201.4003. 直接聚类法直接聚类法是根据距离矩阵的结构一次并类得到结果。基本步骤:把各个分类对象单独视为一类;根据距离最小的原则,依次选岀一对分类对象,并成新类;如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类; 每一次归并,都划去该对象所在的列与列序相同的行;那么,经过 m-1次就可以把全部分类对象归为一类,这样就

7、可以根据归并的先后顺序作出聚类谱系图。直接聚类法虽然简便,但在归并过程中是划去行和列的,因而难免有信息损失。因此,直接聚类法并不是最好的系统聚类方法。举例说明(点击打开新窗口,显示该内容)例:已知九个农业区之间的绝对值距离矩阵,使用直接聚类法做聚类分析。01.5203.102 7D02 191 471.230D -(陽冶二5.856 023.644.7704.724.4(51.862 991 7805.795.532.934.060 831 0701.320 382.241.295 143.965 030621 661.200 514.843.OS3 321.400 _解: 根据上面的距离矩阵

8、,用直接聚类法聚类分析:划去第 9 行和第 9 列;第二步,在余下的元素中,除对角线元素以外,d75= d57=0.83为最小者,故将第5区与第7区并为一类,划掉第 7 行和第 7 列;第三步,在第二步之后余下的元素之中,除对角线元素以外,d82= d28=0.88为最小者,故将第2区与第8区并为一类,划去第 8 行和第 8 列;第四步,在第三步之后余下的元素中,除对角线元素以外,d43=d34=1.23为最小者,故将第3区与第4区并为一类,划去第 4 行和第 4 列,此时,第 3、4、9 区已归并为一类;第五步,在第四步之后余下的元素中,除对角线元素以外,d21= d12=1.52为最小者,

9、故将第1区与第2区并为一类,划去第 2 行和第 2 列,此时,第 1 、2、8 区已归并为一类;第六步,在第五步之后余下的元素中,除对角线元素以外,d65=d56=1.78为最小者,故将第5区与第6区并为一类,划去第 6 行和第 6 列,此时,第 5、6、7 区已归并为一类;第七步,在第六步之后余下的元素中,除对角线元素以外,d31= d13=3.10为最小者,故将第1区与第3区并为一类,划去第 3 行和第 3 列,此时,第 1、2、3、4、8、9区已归并为一类;第八步,在第七步之后余下的元素中,除去对角线元素以外,只有d51= d15=5.86,故将第1区与第5区并为一类,划去第 5 行和第

10、 5 列,此时,第 1 、2、3、4、5、6、7、8、9、区均归并为一类; 根据上述步骤,可以做出直接聚类谱系图。(点击展开显示该图)4. 最短距离聚类法最短距离聚类法是在原来的m m距离矩阵的非对角元素中找岀,把分类对象 Gp和Gq归并为一新类Gr,然后按计算公式九=皿9砂心 优工p,切计算原来各类与新类之间的距离,这样就得到一个新的(m- 1)阶的距离矩阵;再从新的距离矩阵中选出最小者 dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直 至各分类对象被归为一类为止。举例说明(点击打开新窗口,显示该例)例:已知九个农业区之间的绝对值距离矩阵,使用最短距离聚类法做聚类分析

11、A (吗)虻1.52Q3.102 7002.191.471 2305.856 023.644 7704.724.461.862.991.7805,795.532.934.060.831 071.320 882.241.295.143.962.621.661.200 514.843 06解:用最短距离聚类法对某地区的九个农业区进行聚类分析:5.0303.321.40第一步,在9X9阶距离矩阵D中,非对角元素中最小者是d94=0.51,故首先将第4区与第9区并为一类,记为G10,即G10= G4, G9。分别计算 G1, G2 , G3, G5, G6, G7, G8与G10之间的距离得:di,2

12、.62-2.19d2. io=min= min1 47,1.66=1.47电,io=minmin1.20=1 20dj. io=mintnin4,77,4 84=4.77de io=nunimn299,3.0(5=2.99d71 io=mirimin4 06,3.32=3.32= min1.40-1 29第一步,在9X9阶距离矩阵D中,非对角元素中最小者是d94=0.51,故首先将第4区与第9区并为一类,第一步,在9X9阶距离矩阵D中,非对角元素中最小者是d94=0.51,故首先将第4区与第9区并为一类,这样就得到 G1 , G2, G3, G5, G6, G7, G8, G10上的一个新的8

13、X8阶距离矩阵:6666 601 5203.102.7005.366.023.6404.724.4(5L861.7305.795 532.930.831.0701 320.882.245.143 965 0302.191 47L204.772.993.321.290第二步,在上一步骤中所得到的 8X8阶距离矩阵中,非对角元素中最小者为 d57=0.83 ,故将G5与G7归并为一类,记为 G11 ,即G11= G5, G7o分别计算 G1 , G2 , G3 , G6 , G8 , G10与G11之间的距离,可得到一个新的7X7阶距离矩阵:巳込%务0a1.5203.102.700q4.724.4

14、61.8601.320.382.243.9602.191.471.202.991.2905.795.532.931.075.033.320第三步,在第二步所得到的7X7阶距离矩阵中,非对角元素中最小者为 d28=0.88,故将G2与G8归并为一类,记为G12,即G12= G2,G8。分别计算G1,G3,G6, G10,G11与G12之间的距离,可得到一个新的6X6阶距离矩阵:$ O3%q 0404.72 1.860G10 2.191.202.990Gn 5.79 2.931 07 3.320Gu 1.32 2 243.96 1.295.030第四步,在第三步中所得的 6X6阶距离矩阵中,非对角

15、元素中最小者为d6,11=1.07,故将G6与G11归并为一类,记为 G13,即 G13= G6,G11 = G6,( G5,G7)。计算 G1,G3,G10,G12 与 G13 之间的距离,可得到一个新的 5X5阶距离矩阵:3 q g O6O 939 92 91 Z4 6.2002- 12 23 7 h -1 4第六步,在第五步所得到的4X4阶距离矩阵中,非对角线元素中最小者为d12, 14=1.29,故将G12与G14第三步,在第二步所得到的7X7阶距离矩阵中,非对角元素中最小者为 d28=0.88,故将G2与G8归并为一第六步,在第五步所得到的4X4阶距离矩阵中,非对角线元素中最小者为d

16、12, 14=1.29,故将G12与G14第三步,在第二步所得到的7X7阶距离矩阵中,非对角元素中最小者为 d28=0.88,故将G2与G8归并为一第五步,在第四步中所得的 5X5阶距离矩阵中,非对角线元素中最小者为d3,10=1.20,故将G3与G10归并为一类,记为 G14,即G14= G3,G10 = G3,( G4,G9)o再按照公式(3.3.10)式计算G1,G12,G13与G14之间的距离,可得一个新的4X4阶距离矩阵:12 3 4 G第六步,在第五步所得到的4X4阶距离矩阵中,非对角线元素中最小者为d12, 14=1.29,故将G12与G14式计算G1 , G13与G15之间的距

17、离,可得一个新的 3X3阶距离矩阵:6 务q oC?13 4,7201 32 2590第七步,在第六步所得的 3X3阶距离矩阵中,非对角线元素中最小者为d1, 15=1.32,故将G1与G15归并为一类,记为 G16,即 G16= G1,G15 = ( G1,( G2,G8 ),( G3,( G4,G9)。再按照公式(3.3.10)式计算G13与G16之间的距离,可得一个新的2X2阶距离矩阵:G162.990第八步,将G13与G16归并为一类。此时,所有分类对象均被归并为一类。综合上述聚类过程,可以作岀最短距离聚类谱系图。(点击展开显示)G 為 G? Gj G+ G, Gs G; Gi 3.4

18、25. 最远距离聚类法最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离采用的公式不同最远距离聚类法的计算公式:&福二册昶9#上就(七工戸卫)举例说明(点击打开新窗口,显示该例)66 偽 偽 GsGGo3A3最翹鎳类诸莱图6. 系统聚类法计算类之间距离的统一公式最短距离聚类法具有空间压缩性,而最远距离聚类法具有空间扩张性(图344 )。最短距离为 dAB=da1b1,最远距离为 dAB=dap2。丫 =1/2时,就是最远距离聚类法计3.3.4)B1A4最短距离聚类法和最远距离聚类法关于类之间的距离计算可以用统一的式子表示:如-討典+叫刃掉+ F丨&期典I 当丫二1/2时,就是最短距

19、离聚类法计算类间距离的公式;当 算类间距离的公式。系统聚类的方法还有:&R 科+邙/射+曲附十F丨应甲-卫M I表示了八种不同系统聚类方法计算类间距离的统一表达式(见表方法名称参数D拒阵要求空间性贯%B最短距离1/20-1/2各种D压缩撓远距离1/21J201/2各种D扩张中线怯1/2in-1MP 00歐氏距离保持重恰法%n欧氏距离保持叫+叫組平均法00各种D保持距离平方0欧氏距篱压缩和法叫+耳珂知r可变数平 均法na%10各种D不定可变法(1 -金)210各种D扩张7. 系统聚类分析实例作为系统聚类分析方法的应用实例,下面对中国大陆31个省级区域第三产业综合发展水平进行类型划分及差异性程度分

20、析。1)聚类指标选择选取如下7项指标作为对中国第三产业综合发展水平进行聚类分析的基础指标: y1 人均GDP,反映经济社会发展的总体状况和一般水平; y2 人均第三产业增加值,反映人均服务产品占有量或服务密度; y3 第二产业增加值比重,反映工业化水平和产业结构现代化程度; y4 第三产业增加值比重,反映第三产业的发展程度及其对国民经济的贡献; y5 第三产业从业人员比重,反映第三产业对劳动力的吸纳能力; y6 第三产业固定资产投资比重,反映第三产业的资金投入程度; y7城市化水平,反映农村人口转化为城市人口的程度及对服务的需求量表3.4,5中巫域第三产业左展水平龔类分懈B0E ( 199年3

21、序吕捋标人均GDP (元从)人均第 三产业 増仙值 (元第二产 业増加 值比重 旳业増加 值比重第二产 业从业 人员比 重(沟第三产业 固定资产 投资比重旳城市 化 水平 旳I北京134S25132.4239.156.653.3(5595S.442天津14S0SS2SM154P.4451刃545.53M173河北65252102424932.525.158.121S.431新噩622922603938.635.4郎950651,44注;本表数据详见书本龍贞.2)聚类计算以1999年国家统计局岀版的中国统计年鉴(1998年度的数据)为数据来源,运用上述7项指标(表345)(点击显示该表),借助于统计分析软件包SPSS10.0进行聚类分析计算,计算过程如下: 用标准差标准化方法对7项指标的原始数据进行处理。 采用欧氏距离测度 31个省(市、区)之间的样本间距离。 选用组平均法计算类间的距离,并对样本进行归类。经过上述聚类计算步骤,得到的聚类结果见图3.4.5。(点击在新窗口中显示该图)石IQLSEl HE,mil 网韭OiSafllLLLSL*LLZitMWlLA3K生5T B、模糊聚类分析基本原理聚类分析是根据样本代表性指标在性质上的亲疏程度进行分类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论