第十二章 聚类分析课件_第1页
第十二章 聚类分析课件_第2页
第十二章 聚类分析课件_第3页
第十二章 聚类分析课件_第4页
第十二章 聚类分析课件_第5页
已阅读5页,还剩148页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十二章聚类分析第十三章聚类分析第十二章聚类分析聚类分析是研究分类问题的一种多元统计方法。所谓类,就是指相似元素的集合聚类分析的研究目的把相似的东西归成类,根据相似的程度将研究目标进行分类。第一节认识聚类分析第十二章聚类分析距离:测度样品之间的亲疏程度。将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。相似系数:测度变量之间的亲疏程度距离和相似系数第十二章聚类分析聚类分析的研究对象R型分析----对变量进行分类Q型分析----对样品进行分类聚类分析研究的主要内容如何度量事物之间的相似性?怎样构造聚类的具体方法以达到分类的目的?第十二章聚类分析2、常用的距离(1)明氏距离设原始数据为第十二章聚类分析第十二章聚类分析123452018104471055325.236.328.911.517欧氏距离切比雪夫距离第十二章聚类分析明考夫斯基距离有以下两个缺点:①明氏距离的数值与指标的量纲有关。当各变量的测量值相差悬殊时,常发生“大数吃小数”的现象,为消除量纲的影响,通常先将每个变量进行标准化。②明氏距离的定义没有考虑各个变量之间相关性的影响。年龄收入家庭人口数甲3030001乙4032003第十二章聚类分析(2)标准化的欧氏距离设原始数据为

第十二章聚类分析

第十二章聚类分析(3)马氏距离

由印度著名统计学家马哈拉诺比斯(Mahalanobis)所定义的一种距离,其计算公式为:

=第十二章聚类分析马氏距离又称为广义欧氏距离。马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,此时马氏距离就是标准化的欧氏距离。马氏距离不受指标量纲及指标间相关性的影响第十二章聚类分析

二、变量间相似系数的算法(2)夹角余弦(1)相关系数第十二章聚类分析系统聚类法直观,易懂。快速聚类法(动态聚类法)快速,动态。有序聚类法保序(时间顺序或大小顺序)。各种聚类方法第十二章聚类分析第二节系统聚类法系统聚类法的基本思想

先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。

第十二章聚类分析系统聚类法的基本步骤:1.

计算n个样品两两间的距离,记作D=。2.

构造n个类,每个类只包含一个样品。3.

合并距离最近的两类为一新类。4.

计算新类与各当前类的距离。5.

重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。6.

画聚类谱系图。7.

决定类的个数和类。第十二章聚类分析最短距离法最长距离法中间距离法重心法类平均法离差平方和法(Ward法)系统聚类方法:

上述6种方法归类的基本步骤一致,只是类与类之间的距离有不同的定义。第十二章聚类分析定义类p与q之间的距离为两类最近样品的距离,即xq1•xp2•xq2•xp1•xq3•一、最短距离法第十二章聚类分析设类p与q合并成一个新类,记为k,则k与任一类r的距离是pqkr第十二章聚类分析例

最短距离法

设抽取5个样品,每个样品观察2个指标,:您每月大约喝多少瓶啤酒,:您对“饮酒是人生的快乐”这句话的看法如何?观察数据如下,对这5个样品分类。1234520181044710553第十二章聚类分析

②③④⑤①②③④3.610.216.1216.499.4314.8715.6566.32

2计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2.合并距离最小的两类为新类,按顺序定为第6类。⑥=第十二章聚类分析3、计算新类⑥与各当前类的距离,得距离矩阵如下:②③⑥①②③

3.6

10.216.129.4314.876第十二章聚类分析为最小,⑦=⑥⑦③⑥

6

9.4314.874、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。

为最小,⑧=5、第十二章聚类分析6、按聚类的过程画聚类谱系图45⑥⑨⑧并类距离312⑦7、决定类的个数与类。

观察此图,我们可以把5个样品分为3类,、、。第十二章聚类分析•••x11•x21••••二、最长距离法定义类p与q之间的距离为两类最远样品的距离,即第十二章聚类分析设类p与q合并成一个新类,记为k,则k与任一类r的距离是pqkr第十二章聚类分析

②③④⑤①②③④3.610.216.1216.499.4314.8715.6566.32

2计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2.合并距离最小的两类为新类,按顺序定为第6类。⑥=例最长距离法

第十二章聚类分析3、计算新类⑥与各当前类的距离,得距离矩阵如下:②③⑥①②③

3.6

10.216.499.4315.656.32第十二章聚类分析为最小,⑦=⑥⑦③⑥6.32

10.216.494、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。

为最小,⑧=5、第十二章聚类分析6、按聚类的过程画聚类谱系图45⑥⑨⑧并类距离312⑦7、决定类的个数与类。

观察此图,我们可以把5个样品分为3类,、、。第十二章聚类分析三、中间距离法定义类与类之间的距离既不采用两类之间最近的距离,也不采用两类之间最远的距离,而是采用介于两者之间的距离,故称为中间距离法。•••rpqk第十二章聚类分析

②③④⑤①②③④13104260272892212453640

4计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2.合并距离最小的两类为新类,按顺序定为第6类。⑥=例中间距离法

第十二章聚类分析3、计算新类⑥与各当前类的距离,得距离矩阵如下:②③⑥①②③

13

1042658923237第十二章聚类分析为最小,⑦=⑥⑦③⑥

37

93.25245.254、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。

为最小,⑧=5、第十二章聚类分析6、按聚类的过程画聚类谱系图45⑥⑨⑧并类距离312⑦7、决定类的个数与类。

观察此图,我们可以把5个样品分为3类,、、。第十二章聚类分析四、重心法(Centroid)••和类与类之间的距离就考虑用重心之间的距离表示。设p与q的重心分别是,则类p和q的距离为第十二章聚类分析将p和q合并为k,则k类的样品个数为它的重心是某一类r的重心是,它与新类k的距离是经推导可以得到如下递推公式:设聚类到某一步,类p与q分别有样品

、个,第十二章聚类分析

②③④⑤①②③④13104260272892212453640

4计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2.合并距离最小的两类为新类,按顺序定为第6类。⑥=例重心法

第十二章聚类分析3、计算新类⑥与各当前类的距离,得距离矩阵如下:②③⑥①②③

13

1042658923237第十二章聚类分析为最小,⑦=⑥⑦③⑥

37

93.25245.254、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。

为最小,⑧=5、第十二章聚类分析6、按聚类的过程画聚类谱系图45⑥⑨⑧并类距离312⑦7、决定类的个数与类。

观察此图,我们可以把5个样品分为3类,、、。第十二章聚类分析五、类平均法(Average)定义两类之间的距离平方为这两类元素两两之间距离平方的平均•••••pq第十二章聚类分析将p和q合并为k,则k类的样品个数为设聚类到某一步,类p与q分别有样品、个,k类与任一类r的距离为第十二章聚类分析

②③④⑤①②③④13104260272892212453640

4计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2.合并距离最小的两类为新类,按顺序定为第6类。⑥=例类平均法

第十二章聚类分析3、计算新类⑥与各当前类的距离,得距离矩阵如下:②③⑥①②③

13

1042668923338第十二章聚类分析为最小,⑦=⑥⑦③⑥

38

96.5249.54、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。

为最小,⑧=5、第十二章聚类分析6、按聚类的过程画聚类谱系图45⑥⑨⑧并类距离312⑦7、决定类的个数与类。

观察此图,我们可以把5个样品分为3类,、、。第十二章聚类分析六、差平方和法(Ward法)

反映样品之间的差异程度设变量X的n个样品观察值为:n个样品的离差平方和为:第十二章聚类分析•••••••••••q•••••••••••••pk设类p和q分别含有np、nq个样品,其离差平方和分别记为和第十二章聚类分析直观上容易想到把两群样品聚为一大群,大群的离差平方和将超过原来两个群的离差平方和之和。

如果将p和q并类得到新类k,则类k的离差平方和为把增加的量记为定义类p和q之间的距离为:设类p和q分别含有np、nq个样品,其离差平方和分别记为和第十二章聚类分析可以推得新类k与任一类r的距离:第十二章聚类分析

②③④⑤①②③④6.55213013644.5110.5122.51820

2计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2.合并距离最小的两类为新类,按顺序定为第6类。⑥=例离差平方和法(Ward法)

两样品间的距离的平方恰为它们之间欧氏距离平方的一半。第十二章聚类分析3、计算新类⑥与各当前类的距离,得距离矩阵如下:②③⑥①②③

6.5

52176.6744.5154.6724.67第十二章聚类分析为最小,⑦=⑥⑦③⑥

24.67

62.17245.264、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。

为最小,⑧=5、第十二章聚类分析6、按聚类的过程画聚类谱系图45⑥⑨⑧并类距离312⑦7、决定类的个数与类。

观察此图,我们可以把5个样品分为3类,、、。第十二章聚类分析最短距离法最长距离法中间距离法重心法类平均法离差平方和法第十二章聚类分析Procclustermethod=选项

data=文件名outtree=文件名1

standard;varvariable-list;idvariable;run;Proctreedata=文件名1

horizontalgraphics;idvariable;run;Method=选项single最短距离法complete最长距离法median中间距离法centroid重心法average类平均法ward离差平方和法(Ward法)SAS程序第十二章聚类分析系统聚类分析案例第十二章聚类分析

根据第三产业国内生产总值的9项指标,对华东地区6省1市进行分类,原始数据如下表:交通贸易金融房服务

卫生文教科研党政

X1X2X3X4X5X6X7X8X9上海江苏浙江安徽福建江西山东244.42412.04459.63512.21160.4543.5189.9348.5548.63435.77724.85376.04381.81210.3971.82150.6423.74188.28321.75665.80157.94172.19147.1652.4478.1610.9093.50152.29258.6083.4285.1075.7426.7563.475.8947.02347.25332.59157.32172.48115.1633.8077.278.6979.01145.40143.5497.40100.5043.2817.7151.035.4162.03442.20665.33411.89429.88115.0787.45145.2521.39187.77第十二章聚类分析福建江西安徽浙江山东江苏上海AverageDistanceBetweenClusters012第十二章聚类分析福建江西安徽浙江山东江苏上海DistanceBetweenClusterCentroids012第十二章聚类分析

为了解我国城镇居民的生活质量,对全国各地区(除内蒙古和西藏)进行聚类分析。选用了4个指标:X1:全年人均消费支出X2:全年人均可支配收入X3:人均居住面积X4:人均公共绿地面积第十二章聚类分析甘肃青海陕西河南吉林江西黑龙江宁夏山西重庆福建云南江苏四川广西湖南山东湖北海南安徽贵州辽宁新疆河北浙江天津广东上海北京MedianDistance012第十二章聚类分析由聚类谱系图,29个地区可分四类:

第一类:{北京、上海、广东},生活质量好。第二类:{浙江、天津},生活质量较好。第三类:{河北、新疆、辽宁、贵州、安徽、海南、湖北、江苏、云南、福建、山东、湖南、广西、四川、重庆},生活质量一般。第四类:{山西、宁夏、黑龙江、江西、吉林、河南、陕西、青海、甘肃},生活质量差。第十二章聚类分析重庆四川广西湖南山东福建云南江苏甘肃青海陕西河南吉林江西黑龙江宁夏山西湖北海南安徽贵州辽宁新疆河北浙江天津广东上海北京DistanceBetweenClusterCentroids012第十二章聚类分析29个地区可分为四类:第一类:{北京、上海、广东},生活质量好。第二类:{浙江、天津},生活质量较好。第三类:{江苏、云南、福建、山东、湖南、广西、四川、重庆},生活质量一般。第四类:{河北、新疆、辽宁、贵州、安徽、海南、湖北、山西、宁夏、黑龙江、江西、吉林、河南、陕西、青海、甘肃},生活质量差

第十二章聚类分析第十二章聚类分析29个地区可分为四类:第一类:{北京、上海、广东},生活质量好。第二类:{浙江、天津},生活质量较好。第三类:{江苏、云南、福建、山东、湖南、广西、四川、重庆},生活质量一般。第四类:{河北、新疆、辽宁、贵州、安徽、海南、湖北、山西、宁夏、黑龙江、江西、吉林、河南、陕西、青海、甘肃},生活质量差

第十二章聚类分析

综合以上分析结果和实际情况,29个地区城镇居民的生活质量分为五类比较合适:第一类:{北京、上海、广东},生活质量好。第二类:{浙江、天津},生活质量较好。第三类:{江苏、云南、福建、山东、湖南、广西、四川、重庆},生活质量一般。第四类:{河北、新疆、辽宁、贵州、安徽、海南、湖北},生活质量较差。第五类:{山西、宁夏、黑龙江、江西、吉林、河南、陕西、青海、甘肃},生活质量差。第十二章聚类分析

根据美国等20个国家和地区的信息基础设施的发展状况进行分类。Call—每千人拥有的电话线数;movecall—每千人户居民拥有的蜂窝移动电话数;fee—高峰时期每三分钟国际电话的成本;computer—每千人拥有的计算机数;mips—每千人计算机功率(每秒百万指令);net—每千人互联网络户主数。

数据摘自《世界竞争力报告——1997》数据见sasuser.cluli01第十二章聚类分析第Ⅰ类:美国、瑞典、丹麦,发达国家,信息基础设施发展良好第Ⅱ类:日本、中国台湾、韩国、德国、法国、瑞士、新加坡、英国,新兴工业化国家,信息基础设施发展较好第Ⅲ类:巴西、墨西哥、波兰、匈牙利、马来西亚、智利、俄罗斯、泰国、印度,发展中国家,基础设施薄弱第十二章聚类分析某公司下属30个企业,公司为了考核下属企业的经济效益,设计了8个指标。为了避免重复,需要对这8个指标进行筛选,建立一个恰当的经济效益指标体系。通过计算30个企业8个指标的相关系数距离,数据是1-r2。得如下表:

x1x2

x3

x4x5

x6

x7

x8

x10

0.600

0.430.460

0.470.450.120

0.570.450.230.220

0.380.400.210.290.220

0.310.790.650.700.800.660

0.450.450.270.230.140.190.770

试将它们聚类。x2

x3x4x5

x6

x7

x8对变量聚类第十二章聚类分析第十二章聚类分析第四节简单聚类方法简单聚类方法的基本思想简单聚类方法的计算过程简单聚类方法的特点简单聚类方法的改进返回第十二章聚类分析简单聚类方法的基本思想计算样本到聚类中心的距离并和门限T比较,决定归属哪类或作为新的一类中心。通常使用欧氏距离。返回第十二章聚类分析简单聚类方法的计算过程将待分类的样本记为{X1,X2,…,XN},选定类内距离门限T;取任意一个样本作为第一个聚类中心。例如,令

1类的中心Z1=X1;计算下一个样本X2到Z1的距离d21;若d21>T,则建立新的一类

2,其中心Z2=X2;若d21

T,则X2

1;假设已有聚类中心Z1,Z2,…,Zk,计算尚未确定类别的样本Xi到各聚类中心Zj(j=1,2,…,k)的距离dij。如果dij>T(j=1,2,…,k),则Xi作为新的一类的中心Zk+1=Xi;否则,如果,则指判Xi

l;检查是否所有的样本都分划类别,如果是则结束;否则返回到第4步。返回第十二章聚类分析简单聚类方法的特点类心选定后在聚类过程中就不再改变。样本指判类别后在聚类过程中也不再改变。聚类结果很大程度上依赖于距离门限T的选取和待分类样本参与分类的次序。当有样本分布的先验知识来指导门限T及初始中心Z1的选取时,可以获得较合理的结果。返回第十二章聚类分析距离门限和样本次序的影响示意图返回第十二章聚类分析简单聚类方法的改进选用不同的门限及模式输入次序来尝试分类,并对聚类结果进行检验。最后对各种方案的划分结果进行比较,选取最好的一种聚类结果。第十二章聚类分析最大最小距离算法最大最小距离算法的基本思想最大最小距离算法的计算过程最大最小距离算法的特点最大最小距离算法举例返回第十二章聚类分析最大最小距离算法的基本思想在样本集中以最大距离原则选取新的聚类中心,以最小距离原则进行模式归类。通常使用欧氏距离。返回第十二章聚类分析最大最小距离算法的计算过程1.

选定比例系数

和初始聚类中心Z1和Z22.

计算各样本Xi到Z1和Z2的距离最小值di3.计算{di}的最大值dl并判断Xl的归属4.计算各样本Xi到当前所有聚类中心的距离最小值di及{di}最大值dl并判断Xl的归属5.计算聚类结果返回第十二章聚类分析最大最小距离算法的第1步将待分样本记为{X1,X2,…,XN},选定比例系数

;选取任一模式特征矢量作为第一个聚类中心Z1,例如Z1=X1;从待分类矢量集中选出距离Z1最远的特征矢量作为第二个聚类中心Z2。返回第十二章聚类分析最大最小距离算法的第2步计算各样本Xi与Z1和Z2之间的距离,并求出它们之中的最小值,即:返回第十二章聚类分析最大最小距离算法的第3步计算{di}的最大值若,则相应的样本Xl作为第三个聚类中心Z3=Xl,然后转至第4步;否则,转至第5步。返回第十二章聚类分析最大最小距离算法的第4步设存在k个聚类中心Z1,Z2,…,

Zk,计算各样本Xi到各聚类中心的距离:计算出dij的最小值:计算{di}的最大值如果,则Zk+1=Xl并转至第4步;否则转至第5步。返回第十二章聚类分析最大最小距离算法的第5步在不再有新的聚类中心之后,将各样本X1,X2,…,XN按最小距离原则分到各类中去,即计算:如果,则判断。返回第十二章聚类分析最大最小距离算法的特点聚类结果与参数

以及第一个聚类中心Z1的选取有关。如果没有先验知识指导

和Z1的选取,可适当调整

和Z1,比较多次试探分类结果,选取最合理的一种聚类。返回第十二章聚类分析最大最小距离算法举例Z1=X1Z2=X6Z3=X7返回第十二章聚类分析第三节聚类求解计算第十二章聚类分析求解过程第1步令k=0,m=N,每个样本自成一类,即:返回第十二章聚类分析求解过程第2步按欧氏距离计算矩阵D(0)

如下:返回

0

0

0

0

0

0第十二章聚类分析求解过程第3步D(0)中最小阵元为,它是与之间的距离,将它们合并为一类,得一新的分类为:返回第十二章聚类分析求解过程第4步计算合并后的距离矩阵D(1)

如下:返回

0

0

0

0

0第十二章聚类分析求解过程第5步D(1)中距离最小者为,它是与间的距离,合并它们得新的分类:返回第十二章聚类分析求解过程第6步计算合并后的距离矩阵D(2)如下:返回

0

0

0

0第十二章聚类分析求解过程第7步D(2)中距离最小者为,它是与间的距离,合并它们得新的分类:

返回第十二章聚类分析求解过程第8步计算合并后的距离矩阵D(3)如下:返回

0

0

0第十二章聚类分析求解过程第9步距离矩阵D(3)可知,、和距离相同,所以有两种合并方式:或返回第十二章聚类分析求解过程第10步最终聚类结果为:

{{{{X1,X2},X4},X3},{X5,X6}}或:

{{{X1,X2},X4},{X3,{X5,X6}}}试对上述两个结果划出树图。返回第十二章聚类分析第五节ISODATA迭代自组织数据分析算法第十二章聚类分析ISODATA算法的完整名称IterativeSelf-OrganizingDataAnalysisTechniquesAlgorithm迭代自组织数据分析算法第十二章聚类分析ISODATA算法的基本思想在迭代过程中,通过不断计算类内及类间有关参数,并和设定的门限比较,确定是两类合并为一类还是一类分裂为两类,从而不断地“自组织”,以达到在各参数满足设计要求条件下,使各样本到其类心的距离平方和最小。第十二章聚类分析ISODATA算法的计算过程第1步.预置初始条件第2步.按最小距离原则归类第3步.依据

n判断合并条件第4步.计算分类后的参数第5步.依据Ip,Nc判断停止条件或选择路径第6步.计算类内距离的标准差矢量

j第7步.计算类内距离标准差矢量的最大分量

jmax第8步.依据

jmax判断分裂条件第9步.计算各类心间的距离第10步.依据

D判断合并条件第11步.判断结束条件返回第十二章聚类分析ISODATA算法的第1步设定聚类控制参数选定初始聚类中心返回第十二章聚类分析设定聚类控制参数c=预期的类数Nc=聚类中心个数(可以不等于c)

n=每一类中允许的最少样本数目

s=类内各分量分布的标准差上限

D=两类中心间的最小距离下限L=在每次迭代中可合并类的最多对数I=允许的最多迭代次数返回第十二章聚类分析选定初始聚类中心读入待分类样本X1,X2,…,XN从{Xi}中任选Nc个样本作为初始聚类中心zj

(j=1,2,…,Nc)返回第十二章聚类分析ISODATA算法的第2步按最小距离原则将样本集{Xi}中每个样本分到某一类中,即:如果,则判Xi

l

其中返回第十二章聚类分析ISODATA算法的第3步如果类

j中样本数nj

<

n,则取消该类的中心,Nc=Nc-1,转至第2步;否则转至第4步。返回第十二章聚类分析ISODATA算法的第4步计算各类的中心:计算各类样本到类心的平均距离:计算样本到其类心的总体平均距离返回第十二章聚类分析ISODATA算法的第5步5.1若迭代次数Ip=I,则置

D=0,转到第9步,否则转5.2;5.2若Nc

c/2则转到第6步,否则转5.3;5.3若Nc2c,则转至第9步,否则转5.4;5.4若c/2<Nc<2c,当Ip是奇数时转至第6步,否则转至第9步。返回第十二章聚类分析ISODATA算法的第6步计算各类类内距离的标准差矢量其中k为分量编号,j为类的编号,n为矢量维数,Xki是Xi的第k个分量,zkj是zj的第k个分量。返回第十二章聚类分析ISODATA算法的第7步计算各类类内距离标准差矢量

j中的最大分量:返回第十二章聚类分析ISODATA算法的第8步若某

jmax>

s,且满足下面两个条件之一:(1)(2)则将该类

j分裂为两个聚类,取消zj且令Nc=Nc+1,同时选择实数k产生两个新的聚类中心,其中

或如果分裂,则Ip=Ip+1,转至第2步,否则转第9步;返回第十二章聚类分析ISODATA算法的第9步计算各类对中心间的距离返回第十二章聚类分析ISODATA算法的第10步将Dij与

D比较,并将小于

D的那些Dij按递增次序排列,取前L个。从最小的Dij开始,将相应的两类合并。若原来的两个类心为zi和zj,则合并后的聚类中心为其中每类最多只能被合并一次,合并后有:Nc=Nc-已并掉的类数返回

第十二章聚类分析ISODATA算法的第11步如果迭代次数Ip=I次或过程收敛,则结束。否则,Ip=Ip+1,若需要调整参数,则转至第1步;若不改变参数,则转至第2步返回第十二章聚类分析ISODATA算法的特点具有启发性推理、分析监督、控制聚类结构及人机交互等特点,是较好的聚类方法之一。返回第十二章聚类分析ISODATA算法举例已知样本集如右图试用ISODATA算法聚类求解过程返回第十二章聚类分析求解过程第1步,第2步,第3步第4步,第5步,第6步第7步,第8步,第9步返回第十二章聚类分析求解过程第1步样本数N=8,样本维数n=2设定参数和初始值如下:

c=2,Nc=1,

n=2,

s=1

D=4,L=1,I=4,z1=(0,0)T令Ip=1返回第十二章聚类分析求解过程第2步因只有一个聚类中心,故

1={X1,X2,…,X8},n1=8因n1>

n,故无合并返回第十二章聚类分析求解过程第3步计算聚类中心计算内类平均距离计算总的类内平均距离返回第十二章聚类分析求解过程第4步因不是最后一步迭代,且,故计算

1的标准差矢量标准差矢量

1的最大分量为

1max=1.99返回第十二章聚类分析求解过程第5步因

1max=1.99>

s且,将1分裂成两类,取k=0.5,0.51max1.0,则返回第十二章聚类分析求解过程第6步令Ip=Ip+1=2,Nc=Nc+1=2,按最小距离原则对样本重新归类:

1={X4,X5,X6,X7,X8},n1=5

2={X1,X2,X3},n2=3因nj>

n(j=1,2),故无合并。返回第十二章聚类分析求解过程第7步计算聚类中心计算内类平均距离计算总的类内平均距离返回第十二章聚类分析求解过程第8步计算类间距离得D12=4.72,由D12>

D,类不能合并因Ip=2<I=4,令Ip=Ip+1=3,判断是否修改参数。由上面结果可知,已获得所要求类别数目,类间距离大于类内距离,每类样本数都有样本总数的足够大的百分比,因此不改变参数。返回第十二章聚类分析求解过程第9步计算

1={X4,X5,X6,X7,X8}和

2={X1,X2,X3}的标准差矢量所以1max=0.75,2max=0.82因

jmax<

s,故分裂条件不满足因D12=4.72>

D=4,故合并条件不满足令Ip=Ip+1=4,计算无变化,停止。返回第十二章聚类分析近邻函数法该方法特别适合于类的样本分布是条状或线状的情况。算法细节可查阅有关资料自学。返回第十二章聚类分析条状或线状分布样本示意图返回第十二章聚类分析自组织特征映射该方法可将任意维数的输入样本映射为一维或二维分布,并且可以较好地保持原样本分布的拓扑结构。演化示意图1,演化示意图2。算法细节可查阅有关资料自学。返回第十二章聚类分析自组织特征映射演化示意图1返回第十二章聚类分析自组织特征映射演化示意图2返回第十二章聚类分析第六节动态聚类第十二章聚类分析动态聚类法

系统聚类法是一种比较成功的聚类方法。然而当样本点数量十分庞大时,则是一件非常繁重的工作,且聚类的计算速度也比较慢。比如在市场抽样调查中,有4万人就其对衣着的偏好作了回答,希望能迅速将他们分为几类。这时,采用系统聚类法就很困难,而动态聚类法就会显得方便,适用。动态聚类使用于大型数据。第十二章聚类分析动态聚类法

基本思想:选取若干个样品作为凝聚点,计算每个样品和凝聚点的距离,进行初始分类,然后根据初始分类计算其重心,再进行第二次分类,一直到所有样品不再调整为止。第十二章聚类分析选择凝聚点分类修改分类分类是否合理分类结束YesNo第十二章聚类分析

用一个简单的例子来说明动态聚类法的工作过程。例如我们要把图中的点分成两类。快速聚类的步骤:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论