系统聚类法课件_第1页
系统聚类法课件_第2页
系统聚类法课件_第3页
系统聚类法课件_第4页
系统聚类法课件_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024/9/101第三章聚类分析§3.1聚类分析的思想§3.2相似性度量§3.3类和类的特征§3.4系统聚类法§3.5模糊聚类分析§3.6K-均值聚类和有序样本聚类§3.7计算步骤与上机实现§3.8案例研究2024/9/102§3.1聚类分析的思想目录上页下页返回结束对样品的分类常称为Q型聚类分析,对变量的分类常称为R型聚类分析。与多元分析的其他方法相比,聚类分析的方法是很粗糙的,理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,和回归分析、判别分析一起被称为多元分析的三大方法。2024/9/103§3.1聚类分析的思想目录上页下页返回结束3.1.2聚类的目的聚类分析的目的就是把相似的研究对象归成类。

类间对象同质性最大化

类与类间对象的异质性最大化2024/9/104§3.1聚类分析的思想目录上页下页返回结束“什么是类”?粗糙地讲,相似样品(或指标)的集合称作类。

聚类分析给人们提供了丰富多采的方法进行分类,这些方法大致可归纳为:(1)系统聚类法。(2)模糊聚类法。(3)K-均值法。(4)有序样品的聚类。(5)分解法。(6)加入法。2024/9/105§3.2相似性度量目录上页下页返回结束从一组复杂数据产生一个相当简单的类结构,必然要求进行“相关性”或“相似性“度量。在相似性度量的选择中,常常包含许多主观上的考虑,但是最重要的考虑是指标(包括离散的、连续的和二态的)性质或观测的尺度(名义的、次序的、间隔的和比率的)以及有关的知识。当对样品进行聚类时,“靠近”往往由某种距离来刻画。另一方面,当对指标聚类时,根据相关系数或某种关联性度量来聚类。

2024/9/106§3.2相似性度量目录上页下页返回结束2024/9/10中国人民大学六西格玛质量管理研究中心7§3.2相似性度量目录上页下页返回结束2024/9/108§3.2相似性度量目录上页下页返回结束2024/9/109目录上页下页返回结束(1)当各指标的测量值相差悬殊时,先对数据标准化,然后用标准化后的数据计算兰氏距离。(2)一种改进的距离就是在前面曾讨论过的马氏距离,它对一切线性变换是不变的,不受指标量纲的影响。它对指标的相关性也作了考虑,我们仅用一个例子来说明。

兰氏距离这是兰思和维廉姆斯(Lance&Williams)所给定的一种距离,其计算公式为:

这是一个自身标准化的量,适用于一切x>0的情况。由于它对大的奇异值不敏感,这样使得它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。马氏距离这是印度著名统计学家马哈拉诺比斯(P.C.Mahalanobis)所定义的一种距离,其计算公式为:

分别表示第i个样品和第j样品的p指标观测值所组成的列向量,即样本数据矩阵中第i个和第j个行向量的转置,

表示观测变量之间的协方差短阵。在实践应用中,若总体协方差矩阵

未知,则可用样本协方差矩阵作为估计代替计算。2024/9/1012§3.2相似性度量目录上页下页返回结束定义距离的较灵活的思想方法。【例3.3】欧洲各国的语言有许多相似之处,有的十分相似。为了研究这些语言的历史关系,也许通过比较它们数字的表达比较恰当。表3.3列举了英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语和芬兰语的1,2,…,10的拼法,希望计算这11种语言之间的距离。2024/9/1013§3.2相似性度量目录上页下页返回结束显然,此例无法直接用上述公式来计算距离,仔细观察表3.3,发现前三种文字(英、挪、丹)很相似,尤其每个单词的第一个字母,于是产生一种定义距离的办法:用两种语言的10个数词中的第一个字母不相同的个数来定义两种语言之间的距离,例如英语和挪威语中只有1和8的第一个字母不同,故它们之间的距离为2。十一种语言之间两两的距离列于表3.4中。

2024/9/1014§3.2相似性度量目录上页下页返回结束2024/9/1015§3.2相似性度量目录上页下页返回结束对于间隔尺度,常用的相似系数有:(1)夹角余弦。这是受相似形的启发而来,图3.1中的曲线AB和CD尽管长度不一,但形状相似,当长度不是主要矛盾时,应定义一种相似系数使AB和CD呈现出比较密切的关系。而夹角余弦适合这一要求。2024/9/1016§3.2相似性度量目录上页下页返回结束17§3.2相似性度量

(2)相关系数。这是大家最熟悉的统计量,它是将数据标准化后的夹角余弦。有时指标之间也可用距离来描述它们的接近程度。实际上距离和相似系数之间可以互相转化,2024/9/1018§3.3类和类的特征目录上页下页返回结束目的是聚类,那么什么叫类呢?由于客观事物的千差万别,在不同的问题中类的含义是不尽相同的。给类下一个严格的定义,决非易事。下面给出类的适用于不同的场合几个定义。2024/9/1019§3.3类和类的特征目录上页下页返回结束2024/9/10中国人民大学六西格玛质量管理研究中心20§3.3类和类的特征目录上页下页返回结束在聚类分析中,不仅要考虑各个类的特征,而且要计算类与类之间的距离。由于类的形状是多种多样的,所以类与类之间的距离也有多种计算方法。

2024/9/1021§3.3类和类的特征目录上页下页返回结束(1)最短距离法。(nearestneighbor或singlelinkagemethod)

2024/9/1022§3.3类和类的特征目录上页下页返回结束(2)最长距离法(farthestneighbor或completelinkagemethod)。2024/9/1023§3.3类和类的特征目录上页下页返回结束(3)类平均法(groupaveragemethod)。

2024/9/1024§3.3类和类的特征目录上页下页返回结束(4)重心法(Centroidmethod)。

(5)离差平方和法(SumofSquaresmethod)。

2,41,56,5红绿(2,4,6,5)8.75离差平方和增加8.75-2.5=6.25黄绿(6,5,1,5)14.75离差平方和增加14.75-8.5=6.25黄红(2,4,1,5)10-10=02024/9/1026§3.4系统聚类法目录上页下页返回结束系统聚类法(hierarchicalclusteringmethod)在聚类分析中诸方法中用的最多,包含下列步骤:

2024/9/1027§3.4系统聚类法目录上页下页返回结束不同的距离定义方式用到系统聚类程序中,得到不同的系统聚类法。我们现在通过一个简单的最短例子,来说明各种系统聚类法。图解上述聚类过程如下,此图清楚说明了分组与分组发生时的距离水平。

2024/9/1030§3.4系统聚类法目录上页下页返回结束【例3.4】为了研究辽宁等5省份某年城镇居民消费支出的分布规律,根据调查资料作类型划分。指标名称及原始数据见表3.5。资料来源[10]

2024/9/1031§3.4系统聚类法目录上页下页返回结束2024/9/1032§3.4系统聚类法目录上页下页返回结束3.4.1最短距离法和最长距离法所谓最短距离法就是类与类之间的距离采用(3.12)的系统聚类方法。

2024/9/1033§3.4系统聚类法目录上页下页返回结束2024/9/1034§3.4系统聚类法目录上页下页返回结束2024/9/1035§3.4系统聚类法目录上页下页返回结束2024/9/1036§3.4系统聚类法目录上页下页返回结束2024/9/1037§3.4系统聚类法目录上页下页返回结束所谓最长距离法是类与类之间的距离采用(3.13)的系统聚类法。选择最大的距离作为新类与其他类之间的距离,然后将类间距离最小的两类进行合并,一直合并到只有一类为止。上述两方法中,主要的不同是计算新类与其他类的距离的递推公式不同。2024/9/1038§3.4系统聚类法目录上页下页返回结束最短距离法也可用于对指标的分类,分类时可以用距离也可以用相似系数。但用相似系数时应找最大的元素并类,计算新类与其他类的距离应使用公式(3.19)。最短距离法的主要缺点是它有链接聚合的趋势,因为类与类之间的距离为所有距离中的最短者,两类合并以后,它与其他类的距离缩小了,这样容易形成一个比较大的类,大部分样品都被聚在一类中,在树状聚类图中,会看到一个延伸的链状结构,所以最短距离法的聚类效果并不好,实际中不提倡使用。2024/9/1039§3.4系统聚类法目录上页下页返回结束最长距离法克服了最短距离法链接聚合的缺陷,两类合并以后与其他类的距离是原来两个类中的距离最大者,加大了合并后的类与其他类的距离。本例中最短距离法与最长距离法得到的结果是相同的。2024/9/1040§3.4系统聚类法目录上页下页返回结束3.4.2重心法和类平均法从物理的观点看,一个类用它的重心(该类样品的均值)做代表比较合理,类与类之间的距离就用重心之间的距离来代表。重心法虽有很好的代表性,但并未充分利用各样本的信息2024/9/1042§3.4系统聚类法目录上页下页返回结束类平均法是聚类效果较好、应用比较广泛的一种聚类方法。它有两种形式,一种是组间联结法(Between-groupslinkage),另一种是组内联结法(Within-groupslinkage)。组间联结法在计算距离时只考虑两类之间样品之间距离的平均,组内联结法在计算距离时把两组所有个案之间的距离都考虑在内。2024/9/1043§3.4系统聚类法目录上页下页返回结束2024/9/1044§3.4系统聚类法目录上页下页返回结束3.4.3离差平方和法(或称Ward方法)离差平方和方法是由Ward提出来的,许多资料上称做Ward法。他的思想是来于方差分析,如果类分得正确,同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。

2024/9/1045§3.4系统聚类法目录上页下页返回结束离差平方和法放弃了在一切分类中求的极小值的要求,而是设计出某种规格:找到一个局部最优解,Ward法就是找局部最优解的一个方法。其思想是先将n个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使增加最小的两类合并,直到所有的样品归为一类为止。

2024/9/1046§3.4系统聚类法目录上页下页返回结束由于上述的聚类方法得到的结果是不完全相同的。于是产生一个问题:我们应当选择哪一个结果为好?为了解决这个问题,需要研究系统聚类法的性质,现简要介绍如下。

2024/9/1047§3.4系统聚类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论