条件系统聚类方法的研究_第1页
条件系统聚类方法的研究_第2页
条件系统聚类方法的研究_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

条件系统聚类方法的研究

对事物的类别研究比对混合和不断变化的组合更清晰、更清晰、更详细。通常,人们可以根据经验和专业知识来实现分类。本世纪中叶,数值分类学的发展使得数学这个有用的工具被引入到分类学中,并逐步形成了聚类分析方法。随着科学技术的突飞猛进,人们对分类的要求也越来越高,聚类分析方法的研究也越来越细致,系统聚类、动态聚类、模糊聚类等众多的聚类方法,使得人们可以根据自己的研究目的、处理要求和数据类型进行选择,而且希望聚类结果更符合实际。比如在小儿的生长发育过程中,我们希望把整个发育过程人为地分成几个阶段,其次序不能打乱,这是因为小儿发育是一个连续的过程,聚类时不仅要考虑小儿的生长发育速率,还要考虑时间上的连续性,这就是一种样品有序的问题。本文讨论一维有序样品的条件系统聚类法(conditionalhierarchicalclustering)。带约束的系统聚类一般的样品聚类,不必考虑它们之间的排列次序。但在有些问题中样品是有序的,分类时不能打乱原有次序,而只能按序将全部样品截成几截,同类样品次序互相衔接,这就是有序样品的聚类。有序样品的概念由Fisher在1958年提出,他把这种问题称为带约束(restricted)的聚类问题,这种聚类是在聚类过程中加入某种约束条件,而这种约束是来自于已有的知识、理论,或客观存在,或实际要求,目的是使聚类结果更贴近实际,解释更合理。有序样品的聚类,已有一些方法。在这里,我们借用目前实际工作中用得最多,研究也最为深入的系统聚类法之思想,在聚类时加入样品有序这个条件,这是一种带约束的系统聚类,可称为一维有序样品的条件系统聚类。其聚类过程与一般的系统聚类法相似,只不过在聚类时加入了样品有序这个条件,所以聚类步骤稍有不同。(1)样品参数的选取一维有序样品的条件系统聚类的关键是根据实际要求构造条件矩阵。我们举一个简单的例子来说明这个问题。设有5个有序样品a,b,c,d,e,只有一个指标x,取值为{10,12,8,9,5}。因为有序,故聚类条件是前后衔接记为1(条件满足),否则记为0(条件不满足),得条件矩阵,如下:可见,一维有序样品聚类时,其条件矩阵的次对角线上的元素均为1,其余各元素均为0。(2)计算距离矩阵:样品之间的距离可以采用欧氏距离。距离矩阵如下所示把距离矩阵和条件矩阵合并,把距离矩阵中满足条件者用方框标出,并称其为条件距离矩阵。(3)次结论条件距离矩阵的计算对条件距离矩阵进行系统聚类。与一般系统聚类不同的是,只考虑满足条件的样品间的聚类,其余步骤相同。我们采用系统聚类法中最简单的最短距离法,考察次对角线上的元素,c和d之间的距离为1,最短,所以,第一步把c和d合并,形成一个新的类,记为c+d。然后,计算新类与其余各类的距离,并重新审核各类间条件,得条件距离矩阵如下:不难看出,此时的条件矩阵仍然是次对角线上的元素为1,其余均为0。继续考察次对角线上的元素,发现a和b的距离为2,最短,将a和b合并,形成新类,记作a+b;同样,计算新类与各类之间的距离,得条件距离矩阵:如果我们还要继续合并,就继续比较次对角线上的距离,把距离最小的两类进行合并,如上,我们可以把a+b、c+d两类合并,形成两类{a,b,c,d}和{e}。最后,把这两类合并为一类{a,b,c,d,e}。(4)多个一维有序样品的条件矩阵和距离矩阵在这个例子中,我们可以一目了然地看到分成四类、三类、两类时的分类结果。由上可见,n个一维有序样品的条件矩阵是一个次对角线上的元素为1,而其余所有元素均为0的n×n矩阵。n个一维有序样品的距离矩阵也是一个n×n矩阵。聚类时,我们首先合并条件矩阵和距离矩阵为条件距离矩阵,然后对该矩阵采用系统聚类法分析,只需比较满足条件的样品间距离即可。机数随机聚类分析对某地区1253名男孩身长的逐月平均增长率采用上述条件系统聚类法进行分析。样品间的距离采用欧氏距离,聚类方法采用类平均法。结果如表1:假设上述实例为一组正态总体,每一年龄组对应于一个总体。每个总体,根据其均数和标准差各产生1个随机数,则每个样本都包括20个年龄组,对每个随机样本采用一维有序样品条件系统聚类法进行聚类,如此重复100次。比较分成两类、三类、四类时各种分类结果所占的比例,如表2:由表2可见,分成两类时,与总体分类相同的分类结果占93次。分成三类时,第一、二、三类相同的分别有93次、61次、67次,与总体分类完全相同的有61次。分成四类,第一、二、三类相同的分别有93次、47次、38次、50次,与总体分类完全相同的有38次。考虑±1个样品的误差时,分成两类与总体相同的有100次;分成三类与总体相同的有82次,第一、二、三类相同的分别有100次、82次、82次;分成四类与总体相同的有56次,第一、二、三、四类相同的分别有100次、72次、54次、57次。模拟试验说明,这种聚类方法具有一定的稳定性。系统聚类分析一维有序样品的条件系统聚类方法,与一般的聚类分析方法之差别在于样品有序,聚类时不能打乱固有的次序。因此,在聚类中必须加入条件约束。有序样品的条件矩阵很容易构造,它就是一个次对角线为1,其他元素全为0的下三角矩阵。距离计算可采用系统聚类法中的各种距离的计算方法,如绝对值距离、欧氏距离、兰氏距离和马氏距离等。系统聚类中类间距离的定义亦可直接运用。模拟试验结果表明,这种聚类方法的聚类结果比较稳定。Fisher在1958年曾提出了一种有序样品的聚类方法。该法可以求得有序数据的精确最优解,所以被称之为最优分割法或最小目标函数法。目标函数是按某种方案将n个有序样品分成k类时,各类直径之和。如果目标函数越小,表示同类间直径越小,即类内方差越小,这种分类方法也就越合理。这就是Fisher的最优分割法(theleast-squarespartition)。将上述模拟结果与最优分割聚类结果进行比较,分两类时分类结果完全相同的有7次。分成三类时,第一、二、三、四类相同的分别有93次、61次、67次,与最优分割法分类完全相同的有61次。分四类时,第一、二、三、四类相同的分别有94次、26次、7次、8次,分类完全相同的有5次。考虑±1个样品的误差时,分成两类与总体相同的有100

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论