




已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
系统聚类分析方法聚类分析是研究多要素事物分类问题的数量方法。基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。1. 聚类要素的数据处理假设有m 个聚类的对象,每一个聚类对象都有 个要素构成。它们所对应的要素数据可用 表3.4.1给出。(点击显示该表) 在聚类分析中,常用的聚类要素的数据处理方法有如下几种。 总和标准化 标准差标准化 极大值标准化经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。 极差的标准化经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。2. 距离的计算距离是事物之间差异性的测度,差异性越大,则相似性越小,所以距离是系统聚类分析的依据和基础。 绝对值距离选择不同的距离,聚类结果会有所差异。在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类。例:表3.4.2给出了某地区九个农业区的七项指标,它们经过极差标准化处理后,如表3.4.3所示。对于表3.4.3中的数据,用绝对值距离公式计算可得九个农业区之间的绝对值距离矩阵:3. 直接聚类法直接聚类法是根据距离矩阵的结构一次并类得到结果。 基本步骤: 把各个分类对象单独视为一类; 根据距离最小的原则,依次选出一对分类对象,并成新类; 如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类;每一次归并,都划去该对象所在的列与列序相同的行; 那么,经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。 直接聚类法虽然简便,但在归并过程中是划去行和列的,因而难免有信息损失。因此,直接聚类法并不是最好的系统聚类方法。举例说明(点击打开新窗口,显示该内容) 例:已知九个农业区之间的绝对值距离矩阵,使用直接聚类法做聚类分析。解:根据上面的距离矩阵,用直接聚类法聚类分析: 第一步,在距离矩阵D中,除去对角线元素以外,d49=d94=0.51为最小者,故将第4区与第9区并为一类,划去第9行和第9列;第二步,在余下的元素中,除对角线元素以外,d75= d57=0.83为最小者,故将第5区与第7区并为一类,划掉第7行和第7列;第三步,在第二步之后余下的元素之中,除对角线元素以外,d82= d28=0.88为最小者,故将第2区与第8区并为一类,划去第8行和第8列;第四步,在第三步之后余下的元素中,除对角线元素以外,d43= d34=1.23为最小者,故将第3区与第4区并为一类,划去第4行和第4列,此时,第3、4、9区已归并为一类;第五步,在第四步之后余下的元素中,除对角线元素以外,d21= d12=1.52为最小者,故将第1区与第2区并为一类,划去第2行和第2列,此时,第1、2、8区已归并为一类;第六步,在第五步之后余下的元素中,除对角线元素以外,d65= d56=1.78为最小者,故将第5区与第6区并为一类,划去第6行和第6列,此时,第5、6、7区已归并为一类;第七步,在第六步之后余下的元素中,除对角线元素以外,d31= d13=3.10为最小者,故将第1区与第3区并为一类,划去第3行和第3列,此时,第1、2、3、4、8、9区已归并为一类;第八步,在第七步之后余下的元素中,除去对角线元素以外,只有d51= d15=5.86,故将第1区与第5区并为一类,划去第5行和第5列,此时,第1、2、3、4、5、6、7、8、9、区均归并为一类; 根据上述步骤,可以做出直接聚类谱系图。(点击展开显示该图)4. 最短距离聚类法最短距离聚类法是在原来的mm距离矩阵的非对角元素中找出 ,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式计算原来各类与新类之间的距离,这样就得到一个新的(m1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。举例说明(点击打开新窗口,显示该例) 例:已知九个农业区之间的绝对值距离矩阵,使用最短距离聚类法做聚类分析。解:用最短距离聚类法对某地区的九个农业区进行聚类分析: 第一步,在99阶距离矩阵D中,非对角元素中最小者是d94=0.51,故首先将第4区与第9区并为一类,记为G10,即G10=G4,G9。分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离得:这样就得到G1,G2,G3,G5,G6,G7,G8,G10上的一个新的88阶距离矩阵:第二步,在上一步骤中所得到的88阶距离矩阵中,非对角元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11=G5,G7。分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,可得到一个新的77阶距离矩阵: 第三步,在第二步所得到的77阶距离矩阵中,非对角元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12=G2,G8。分别计算G1,G3,G6,G10,G11与G12之间的距离,可得到一个新的66阶距离矩阵:第四步,在第三步中所得的66阶距离矩阵中,非对角元素中最小者为d6,11=1.07,故将G6与G11归并为一类,记为G13,即G13=G6,G11=G6,(G5,G7)。计算G1,G3,G10,G12与G13之间的距离,可得到一个新的55阶距离矩阵: 第五步,在第四步中所得的55阶距离矩阵中,非对角线元素中最小者为d3,10=1.20,故将G3与G10归并为一类,记为G14,即G14=G3,G10=G3,(G4,G9)。再按照公式(3.3.10)式计算G1,G12,G13与G14之间的距离,可得一个新的44阶距离矩阵:第六步,在第五步所得到的44阶距离矩阵中,非对角线元素中最小者为d12,14=1.29,故将G12与G14归并为一类,记为G15,即G15=G12,G14=(G2,G8),(G3,(G4,G9)。再按照公式(3.3.10)式计算G1,G13与G15之间的距离,可得一个新的33阶距离矩阵:第七步,在第六步所得的33阶距离矩阵中,非对角线元素中最小者为d1,15=1.32,故将G1与G15归并为一类,记为G16,即G16=G1,G15=(G1,(G2,G8),(G3,(G4,G9)。再按照公式(3.3.10)式计算G13与G16之间的距离,可得一个新的22阶距离矩阵:第八步,将G13与G16归并为一类。此时,所有分类对象均被归并为一类。综合上述聚类过程,可以作出最短距离聚类谱系图。(点击展开显示)5. 最远距离聚类法最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离采用的公式不同。最远距离聚类法的计算公式:举例说明(点击打开新窗口,显示该例) 例:已知九个农业区之间的绝对值距离矩阵,使用最远距离聚类法做聚类分析。答:最远距离聚类法的聚类步骤: 第一步,在99阶距离矩阵中,非对角元素中最小者是d94=0.51,故首先将第4区与第9区并为一类,记为G10,即G10=G4,G9。计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离,得到一个新的88阶距离矩阵: 第二步,在第一步所得到的88阶距离矩阵中,非对角线元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11=G5,G7。分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,得到一个新的77阶距离矩阵如下:第三步,在第二步中所得到的77阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12=G2,G8。分别计算G1,G3,G6,G10,G11与G12之间的距离,得到一个新的66阶距离矩阵:第四步,在第三步中所得的66阶距离矩阵中,非对角元素中最小者为d3,10=1.23,故将G3与G10归并为一类,记为G13,即G13=G3,G10=G3,(G4,G9)。计算G1,G6,G11,G12与G13之间的距离,得到一个新的55阶距离矩阵:第五步,在第四步所得的55阶距离矩阵中,非对角线元素中最小者为d1,12=1.52,故将G1与G12归并为一类,记为G14,即G14=G1,G12=G1,(G2,G8)。分别计算G6,G11,G13与G14之间的距离,得到一个新的44阶距离矩阵:第六步,在第五步所得的44阶距离矩阵中,非对角线元素中最小者为d6,11=1.78,故将G6与G11归并为一类,记为G15,即G15=G6,G11=G6,(G5,G7)。分别计算G13,G14和G15之间的距离,得到一个新的33阶距离矩阵:第七步,在第六步中所得的33阶距离矩阵中,非对角线元素中最小者为d13,14=3.10,故将G13与G14归并为一类,记为G16,即G16=G13,G14=(G3,(G4,G9),(G1,(G2,G8)。计算G15与G16之间的距离,可得一个新的22阶距离矩阵:第八步,将G15与G16归并为一类。此时,各个分类对象均已归并为一类。综合上述聚类过程,可以作出最远距离聚类谱系图。6. 系统聚类法计算类之间距离的统一公式 最短距离聚类法具有空间压缩性,而最远距离聚类法具有空间扩张性(图3.4.4)。最短距离为 dAB=da1b1,最远距离为 dAB=dap2。 最短距离聚类法和最远距离聚类法关于类之间的距离计算可以用统一的式子表示:当= -1/2时,就是最短距离聚类法计算类间距离的公式;当=1/2时,就是最远距离聚类法计算类间距离的公式。 系统聚类的方法还有:表示了八种不同系统聚类方法计算类间距离的统一表达式(见表3.3.4)。7. 系统聚类分析实例作为系统聚类分析方法的应用实例,下面对中国大陆31个省级区域第三产业综合发展水平进行类型划分及差异性程度分析。1) 聚类指标选择选取如下7项指标作为对中国第三产业综合发展水平进行聚类分析的基础指标: y1人均GDP,反映经济社会发展的总体状况和一般水平; y2人均第三产业增加值,反映人均服务产品占有量或服务密度; y3第二产业增加值比重,反映工业化水平和产业结构现代化程度; y4第三产业增加值比重,反映第三产业的发展程度及其对国民经济的贡献; y5第三产业从业人员比重,反映第三产业对劳动力的吸纳能力; y6第三产业固定资产投资比重,反映第三产业的资金投入程度; y7城市化水平,反映农村人口转化为城市人口的程度及对服务的需求量。2) 聚类计算以 1999年国家统计局出版的中国统计年鉴(1998年度的数据)为数据来源,运用上述7项指标(表3.4.5) (点击显示该表),借助于统计分析软件包SPSS10.0进行聚类分析计算,计算过程如下: 用标准差标准化方法对7项指标的原始数据进行处理。 采用欧氏距离测度31个省(市、区)之间的样本间距离。 选用组平均法计算类间的距离,并对样本进行归类。经过上述聚类计算步骤,得到的聚类结果见图3.4.5。 (点击在新窗口中显示该图) 一、模糊聚类分析基本原理 聚类分析是根据样本代表性指标在性质上的亲疏程度进行分类。因此,我们可以把模糊聚类分析的步骤分解如下: 1 确定样本统计指标与数据标准化 对样本进行分类的效果如何,关键在于要把统计指标选择合理。也就是统计指标应该有明确的实际意义,有较强的分辨力和代表性,即要有一定的普遍意义。 数据标准化就是把各个代表统计指标的数据标准化,以便于分析和比较,这一步也称为数据正规化。方法是: 式中 x 为原始数据, 为原始数据的平均值, S 为原始数据的标准差, 为标准化数据。 若要把标准化数据压缩到 0 , 1 闭区间,可用极值标准化公式: x max 原始数据组中的最大者; x min 原始数据组中的最小者。 当 x x max 时, 1 ; x x min 时, 0 。 2 标定距离,建立相似关系矩阵 距离是衡量分类对象间相似程度的统计量,用 r ij ( i 1 , 2, n ; j 1 , 2 , n ; n 为样本的个数)表示。利用 r ij 从而确定相似关系矩阵 标定距离的方法有很多,下面只列举几种常用的计算方法: 欧氏距离 其中, x ik 表示第 i 个样本的第 k 个指标的观察值, x jk 表示第 j 个样本的第 k 个指标的观察值, r ij 表示第 i 个样本与第 j 个样本之间的亲疏程度。 r ij 越小,则第 i 个样本与第 j 个样本之间的性质就越接近。性质接近的样本就可以划归为一类。 绝对减数法 其中 c 应适当选取,使得 0 r ij 1 。 3 进行聚类 在确定了样本之间的距离后,就可以对样本进行归类,归类的方法很多,其中用得最广泛的是系统聚类法。它首先把 n 个样本每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后又再重新计算类与类之间的距离,直至所有样品归为一类为止。爱人者,人恒爱之;敬人者,人恒敬之;宽以济猛,猛以济宽,政是以和。将军额上能跑马,宰相肚里能撑船。最高贵的复仇是宽容。有时宽容引起的道德震动比惩罚更强烈。君子贤而能容罢,知而能容愚,博而能容浅,粹而能容杂。宽容就是忘却,人人都有痛苦,都有伤疤,动辄去揭,便添新创,旧痕新伤难愈合,忘记昨日的是非,忘记别人先前对自己的指责和谩骂,时间是良好的止痛剂,学会忘却,生活才有阳光,才有欢乐。不要轻易放弃感情,谁都会心疼;不要冲动下做决定,会后悔一生。也许只一句分手,就再也不见;也许只一次主动,就能挽回遗憾。世界上没有不争吵的感情,只有不肯包容的心灵;生活中没有不会生气的人,只有不知原谅的心。感情不是游戏,谁也伤不起;人心不是钢铁,谁也疼不起。好缘分,凭的就是真心真意;真感情,要的就是不离不弃。爱你的人,舍不得伤你;伤你的人,并不爱你。你在别人心里重不重要,自己可以感觉到。所谓华丽的转身,都有旁人看不懂的情深。人在旅途,肯陪你一程的人很多,能陪你一生的人却很少。谁在默默的等待,谁又从未走远,谁能为你一直都在?这世上,别指望人人都对你好,对你好的人一辈子也不会遇到几个。人心只有一颗,能放在心上的人毕竟不多;感情就那么一块,心里一直装着你其实是难得。动了真情,情才会最难割;付出真心,心才会最难舍。你在谁面前最蠢,就是最爱谁。其实恋爱就这么简单,会让你智商下降,完全变了性格,越来越不果断。所以啊,不管你有多聪明,多有手段,多富有攻击性,真的爱上人时,就一点也用不上。这件事情告诉我们。谁在你面前很聪明,很有手段,谁就真的不爱你呀。遇到你之前,我以为爱是惊天动地,爱是轰轰烈烈抵死缠绵;我以为爱是荡气回肠,爱是热血沸腾幸福满满。我以为爱是窒息疯狂,爱是炙热的火炭。婚姻生活牵手走过酸甜苦辣温馨与艰难,我开始懂得爱是经得起平淡。爱人者,人恒爱之;敬人者,人恒敬之;宽以济猛,猛以济宽,政是以和。将军额上能跑马,宰相肚里能撑船。最高贵的复仇是宽容。有时宽容引起的道德震动比惩罚
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年福建武夷交通运输股份有限公司招聘10人笔试参考题库附带答案详解
- 2025年宣城市开盛控股集团有限公司招聘10人笔试参考题库附带答案详解
- 2025四川泸州航空发展投资集团有限公司及下属公司招聘8人笔试参考题库附带答案详解
- 2025四川达州市某国有企业招聘2人笔试参考题库附带答案详解
- 2025上半年上海闵行区区管国企公开招聘35人笔试参考题库附带答案详解
- 损坏补偿合同协议
- 鱼池转包合同协议
- 洒店转租合同协议
- 设计部门合同协议
- 租赁帐篷合同协议
- DB4331T 7-2024 农村社区社会工作室建设与服务
- 2025年天津市南开区中考一模语文试题(含答案)
- 2025年磁粉探伤工职业技能鉴定理论考试题库(浓缩500题)
- 婚姻保证忠诚协议书
- 新2024年-北京市房屋租赁合同自行成交版
- 有效工作时间管理
- 2025年安徽省铜陵市枞阳县浮山中学高三下学期3月适应性考试历史试题含解析
- 劳动合同法员工培训课件
- 2025年上海市房屋租赁合同模板(标准版)
- 详解家庭教育指导师考试试题及答案
- 智慧城市中的公民参与-全面剖析
评论
0/150
提交评论