![第四节 聚类分析方法_第1页](http://file4.renrendoc.com/view/f595a8f1be4e6e597ef7095dcd38c5dd/f595a8f1be4e6e597ef7095dcd38c5dd1.gif)
![第四节 聚类分析方法_第2页](http://file4.renrendoc.com/view/f595a8f1be4e6e597ef7095dcd38c5dd/f595a8f1be4e6e597ef7095dcd38c5dd2.gif)
![第四节 聚类分析方法_第3页](http://file4.renrendoc.com/view/f595a8f1be4e6e597ef7095dcd38c5dd/f595a8f1be4e6e597ef7095dcd38c5dd3.gif)
![第四节 聚类分析方法_第4页](http://file4.renrendoc.com/view/f595a8f1be4e6e597ef7095dcd38c5dd/f595a8f1be4e6e597ef7095dcd38c5dd4.gif)
![第四节 聚类分析方法_第5页](http://file4.renrendoc.com/view/f595a8f1be4e6e597ef7095dcd38c5dd/f595a8f1be4e6e597ef7095dcd38c5dd5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四节聚类分析方法第一页,共七十五页,2022年,8月28日什么叫聚类分析聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。第二页,共七十五页,2022年,8月28日聚类的应用领域经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机ATM的安放位置股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类……生物学领域推导植物和动物的分类;对基因分类,获得对种群的认识数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究第三页,共七十五页,2022年,8月28日聚类分析中“类”的特征:A、聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分B、聚类的数目和结构都没有事先假定聚类方法的目的是寻找数据中:潜在的自然分组结构astructureof“natural”grouping感兴趣的关系relationship聚类分析原理介绍第四页,共七十五页,2022年,8月28日一
聚类分析原理研究多要素事物分类问题的数量方法,是定量地研究地理事物分类问题和地理分区问题的重要方法。聚类分析第五页,共七十五页,2022年,8月28日基本原理:根据样本自身属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按照这种亲疏关系程度对样本进行聚类。常见的聚类分析方法:
系统聚类法、动态聚类法、模糊聚类法等。
第六页,共七十五页,2022年,8月28日
又称聚类因子,它是聚类分析对象的各特征值,直接影响分类结果的准确性和可靠性(例:班级的优劣的评定)。
在土地利用规划分区中,为了使分区更加合理可行,必须首先建立起土地利用规划分区指标体系。二、系统聚类法1、聚类分析对象的确定聚类单元的选择应合理和具有可操作性2、聚类要素的选择第七页,共七十五页,2022年,8月28日土地利用规划分区指标体系分三大类:(1)土地开发利用程度:土地利用率、垦殖指数、园地指数、林地指数、牧草地指数、居民点及工矿用地指数、交通用地指数、水域指数。(2)土地集约经营程度:人口密度、人均耕地、人口城镇化水平。(3)土地利用效果:
人均粮食、粮食单产、单位土地农业社会总产值、单位土地工业总产值。第八页,共七十五页,2022年,8月28日
被聚类对象常常是多个要素构成的,不同要素的数据往往具有不同的单位和量纲。因此在进行聚类分析之前,首先要对聚类要素进行标准化处理。3、聚类要素的数据处理第九页,共七十五页,2022年,8月28日例4:下表给出了某地区九个农业区的七项指标区代号人均耕地X1/(hm2·人-1)劳均耕地X2/(hm2·个-1
)水田比重X3/%复种指数x4/%粮食单产x5/(kg·hm-2)人均粮食x6/(kg·人-1
)稻谷占粮食比重x7/%G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17第十页,共七十五页,2022年,8月28日聚类对象要素x1x2
…xj
…xn12…i…mx11x12
…x1j
…x1nx21x22
…x2j
…x2n…
…
…
…
…
…
xi1xi2
…xij
…xin
…
…
…
…
…
…
xm1xm2
…xmj
…xmn
假设有m个聚类对象,每一个聚类对象都有x1,x2,…,xn个要素构成,它们所对应的要素数据用下表给出:第十一页,共七十五页,2022年,8月28日(2)标准差标准化
总和标准化分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即第十二页,共七十五页,2022年,8月28日(3)极大值标准化(4)极差标准化第十三页,共七十五页,2022年,8月28日例4:下表给出了某地区九个农业区的七项指标区代号人均耕地X1/(hm2·人-1)劳均耕地X2/(hm2·个-1
)水田比重X3/%复种指数x4/%粮食单产x5/(kg·hm-2)人均粮食x6/(kg·人-1
)稻谷占粮食比重x7/%G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17第十四页,共七十五页,2022年,8月28日用极差标准化处理后得区代号
x1x2x3x4x5x6x7
G1G2G3G4G5G6G7G8G90.911.000.070.150.181.000.141.000.870.000.000.000.240.000.200.150.070.440.440.080.070.440.380.000.130.180.130.000.030.031.001.001.000.451.000.030.030.610.690.650.130.590.000.000.900.810.840.131.000.910.530.070.000.100.430.090.380.260.040.000.150.000.00
第十五页,共七十五页,2022年,8月28日4、距离的计算
距离是事物之间差异性的测度,是系统聚类分析的依据和基础,常见的距离包括(1)绝对值距离
式中,dij代表第i个对象与第j个对象之间的距离;xik代表第i个对象第k个要素的特征;xjk代表第j个对象第k个要素的特征值;k代表要素个数。第十六页,共七十五页,2022年,8月28日
(2)欧氏距离(3)明科夫斯基距离(4)切比雪夫斯基距离
当明科夫斯基距离P→∞时,有第十七页,共七十五页,2022年,8月28日
根据例4的数据,用绝对值距离计算出九个农业区之间的绝对值距离矩阵如下:
第十八页,共七十五页,2022年,8月28日5、聚类分析
如何选取类间相似度量或距离是非常重要,它是两类聚合为一类的依据。常用的方法有直接聚类法、最短距离法、最大距离法、类平均距离法等。(1)直接聚类法
直接聚类法,是根据距离矩阵的结构一次并类得到结果,是一种简便的聚类方法。第十九页,共七十五页,2022年,8月28日具体方法先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对对象,并成新类。如果其中一个分类对象已归于一类、则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列和与列序相同的行。经过m-1次就可以把分类对象归为一类。这样就可以根据归并的先后顺序作出聚类谱系图。第二十页,共七十五页,2022年,8月28日
根据例4的距离矩阵,用直接聚类法对该地区九个区进行聚类分析step1在距离矩阵D中,除对角线元素外,d49=d94=0.51为最小,故将第四区和第九区并为一类,划去第九行和第九列step2在余下的元素中。除对角线元素外,d75=d57=0.83为最小。将第五区和第七区并为一类,划去第七行和第七列第二十一页,共七十五页,2022年,8月28日用绝对值距离计算出九个农业区之间的绝对值距离矩阵如下:第二十二页,共七十五页,2022年,8月28日step3在第二步之后余下的元素中,除对角线元素外,d82=d28=0.88最小,将第二区和第八区并为一类,划去第八行和第八列step4在第三步之后余下的元素中,除对角线元素外,d43=d34=1.23为最小,将第三区和第四区并为一类,划去第四行和第四列,此时第3、4、9区已并为一类第二十三页,共七十五页,2022年,8月28日step6在第五步之后余下的元素中,除对角线元素外,d65=d56=1.78为最小,将第五区和第六区并为一类,划去第六行和第六列,此时5、6、7区已并为一类。step5在第四步之后余下的元素中,除对角线元素外,d21=d12=1.52为最小,将1、2区并为一类,划去第二行和第二列,此时第1、2、8区已并为一类。第二十四页,共七十五页,2022年,8月28日step8在第七步之后余下的元素中除对角线元素外d51=d15=5.86为最小,将第一区和第五区并为一类,划去第五行和第五列。此时第1、2、3、4、5、6、7、8、9区已并为一类。step7在第六步之后余下的元素中,除对角线元素外,d31=d13=3.10为最小,将第一区和第三区并为一类,划去第三行和第三列。此时第1、2、3、4、8、9区已并为一类。第二十五页,共七十五页,2022年,8月28日直接聚类谱系图得出聚类谱系图G1G2G8G3G4G9G5G7G612345678第二十六页,共七十五页,2022年,8月28日
计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归并为一类。(2)最短距离法
最短距离法,是在原来的m×m距离矩阵的非对角线元素中找出dpq=min{dij},把分类对象Gp和Gq归并为新的一类Gr,然后按计算公式drk=min{dpk,dqk}(k≠p,q)第二十七页,共七十五页,2022年,8月28日
根据例4的距离矩阵,用最短距离法对该地区九个区进行聚类分析
第一步,在9×9阶距离矩阵D中,非对角线元素中最小者是d94=0.51,故先将第四区和第九区并为一类,记为G10,即G10={G4
,G9}。按照上述公式分别计算G1,G2、G3、G5、G6、G7、G8与G10之间的距离:第二十八页,共七十五页,2022年,8月28日第二十九页,共七十五页,2022年,8月28日d1,10=min{d14,d19}=min{2.19,2.62}=2.19d2,10=min{d24,d29}=min{1.47,1.66}=1.47d3,10=min{d34,d39}=min{1.23,1.20}=1.20d5,10=min{d54,d59}=min{4.77,4.84}=4.77d6,10=min{d64,d69}=min{2.99,3.06}=2.99d7,10=min{d74,d79}=min{4.06,3.32}=3.32d8,10=min{d84,d89}=min{1.29,1.40}=1.29第三十页,共七十五页,2022年,8月28日这样就得到一个新的8×8阶距离矩阵:第三十一页,共七十五页,2022年,8月28日
第二步,在上一步所得到的8×8阶距离矩阵中非对角线元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11={G5,G7}。按照最短距离公式分别计算G1、G2、G3、G6、G8、G10与G11之间的距离,得到一个新的7×7阶距离矩阵:第三十二页,共七十五页,2022年,8月28日第三十三页,共七十五页,2022年,8月28日
第三步,在第二步所得到的7×7阶距离矩阵中非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12={G2,G8}。按照最短距离公式分别计算G1、G3、G6、G10、G11与G12之间的距离,得到一个新的6×6阶距离矩阵:第三十四页,共七十五页,2022年,8月28日第三十五页,共七十五页,2022年,8月28日
第四步,在第三步所得到的6×6阶距离矩阵中非对角线元素中最小者为d6,11=1.07,故将G6与G11归并为一类,记为G13,即G13={G6,G11}={G6,(G5,G7)}。按照最短距离公式分别计算G1、G3、G10、G12与G13之间的距离,得到一个新的5×5阶距离矩阵:第三十六页,共七十五页,2022年,8月28日第三十七页,共七十五页,2022年,8月28日
第五步,在第四步所得到的5×5阶距离矩阵中非对角线元素中最小者为d3,10=1.20,故将G3与G10归并为一类,记为G14,即G14={G3,G10}={G3,(G4,G9)}。按照最短距离公式分别计算G1、G12、G13与G14之间的距离,得到一个新的4×4阶距离矩阵:第三十八页,共七十五页,2022年,8月28日第三十九页,共七十五页,2022年,8月28日
第六步,在第五步所得到的4×4阶距离矩阵中非对角线元素中最小者为d12,14=1.29,故将G12与G14归并为一类,记为G15,即G15={G12,G14}={(G2,G8),(G3,(G4,G9))}。按照最短距离公式分别计算G1、G13与G15之间的距离,得到一个新的3×3阶距离矩阵:第四十页,共七十五页,2022年,8月28日
第七步,在第六步所得到的3×3阶距离矩阵中非对角线元素中最小者为d1,15=1.32,故将G1与G15归并为一类,记为G16,即G16={G1,G15}={G1,((G2,G8),(G3,(G4,G9)))}。按照最短距离公式分别计算G13与G16之间的距离,得到一个新的2×2阶距离矩阵:第四十一页,共七十五页,2022年,8月28日
第八步,将G13与G16归并为一类。此时,所有分类对象均被归并为一类。综合上述过程,可以作出最短距离聚类谱系图:G6G5G7G3G4G9G8G2G1
最短距离聚类谱系图24513678第四十二页,共七十五页,2022年,8月28日6、计算类之间距离的统一公式
第四十三页,共七十五页,2022年,8月28日第四十四页,共七十五页,2022年,8月28日当α、β、γ三个参数取不同的值时,就形成了不同的聚类方法(见表),在表中,np是p类中单元的个数,nq是q类中单元的个数,nr=np+nq;β一般取负值。
系统聚类其他方法的公式:()
第四十五页,共七十五页,2022年,8月28日方法名称参数D矩阵要求空间性质apaq
βγ最短距离1/21/20-1/2各种D压缩最远距离1/21/201/2各种D扩张中线法1/21/2-1/4≤β≤00欧氏距离保持重心法0欧氏距离保持组平均法00各种D保持距离平方和法0欧氏距离压缩可变数平均法<10各种D不定可变法
<1
0各种D扩张第四十六页,共七十五页,2022年,8月28日七、实例分析表给出了某农业生态经济系统各个区域单元的有关数据,下面我们运用系统聚类法,对该农业生态经济系统进行聚类分析,步骤如下:①用标准差标准化方法,对9项指标的原始数据进行处理;②采用欧氏距离测度21个区域单元之间的距离;③选用组平均法,计算类间的距离,依据不同的聚类标准(距离),对各样本(各区域单元)进行聚类,并作出聚类谱系图。第四十七页,共七十五页,2022年,8月28日1363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011752.35452.2632.31414.4641.45527.0663100.6951.06765.6011181.54270.1218.2660.1627.47412.4894143.7391.33633.2051436.12354.2617.48611.8051.89217.5345131.4121.62316.6071405.09586.5940.68314.4010.30322.932668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.1104.4840.0025.7901477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011255.42211.5511.1023.1330.0103.4251699.2650.65460.7021251.03220.914.3834.6150.0115.59317118.5050.66163.3041246.47242.1610.7066.0530.1548.70118141.4730.73754.206814.21193.4611.4196.4420.01212.94519137.7610.59855.9011124.05228.449.5217.8810.06912.65420117.6121.24554.503805.67175.2318.1065.7890.0488.461样本序号x1:人口密度(人/km2)x2:人均耕地面积(ha)x3:森林覆盖率(%)x4:农民人均纯收入(元/人)x5:人均粮食产量
(kg/人)x6:经济作物占农作物播面比例(%)x7:耕地占土地面积比率(%)x8:果园与林地面积之比(%)x9:灌溉田占耕地面积之比(%)21122.7810.73149.1021313.11236.2926.7247.1620.09210.078第四十八页,共七十五页,2022年,8月28日从聚类分析谱系图(图)可以看出,在不同的聚类标准(距离)下,聚类结果不同,当距离标准逐渐放大到时,21个区域单元被依次聚类。当距离为0时,每个样本为单独的一类;当距离为5,则21个区域单元被聚为16类;当距离为10,则21个区域单元被聚为9类;当距离为15,则21个区域单元被聚为5类;当距离为20,则21个区域单元被聚为3类;最终,当聚类标准(距离)扩大到25时,21个区域单元被聚
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 续约劳动合同范本(2篇)
- 维修泵房的合同(2篇)
- 2024-2025学年辽宁省点石联考高二上学期期末考试英语试卷(解析版)
- 江苏省苏州市五中2024-2025学年高一上学期12月月考物理试题(解析版)
- 中国粉针剂行业市场深度评估及投资策略咨询报告
- 男性减脂饮食与运动结合的策略
- 苏州某创新医院可行性研究报告
- 四川省成都市2024年七年级《语文》下册期中试卷与答案(C卷)
- 电信行业与科技产业协同发展策略
- 四川省邛崃市2022年七年级《历史》下册期末试卷与参考答案
- GB/T 45177-2024人工光型植物工厂光环境技术规范
- 2025年中考语文模拟试卷(含答案解析)
- 2024-2025年天津河西区七年级上学期期末道德与法治试题(含答案)
- 2025年个人学习领导讲话心得体会和工作措施例文(6篇)
- 2025大连机场招聘109人易考易错模拟试题(共500题)试卷后附参考答案
- 2020-2025年中国中小企业行业市场调研分析及投资战略咨询报告
- 物流中心原材料入库流程
- 长沙市2025届中考生物押题试卷含解析
- 预制板粘贴碳纤维加固计算表格
- 2024-2025学年广东省深圳市宝安区八年级(上)期末语文试卷
- 2024年芽苗菜市场调查报告
评论
0/150
提交评论