模糊聚类分析的理论、方法与应用研究_第1页
模糊聚类分析的理论、方法与应用研究_第2页
模糊聚类分析的理论、方法与应用研究_第3页
模糊聚类分析的理论、方法与应用研究_第4页
模糊聚类分析的理论、方法与应用研究_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模糊聚类分析的理论、方法与应用研究摘要:在科学技术、经济管理中常常要按一定的标准进行分类。对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。本文旨在运用模糊聚类分析的方法,贯彻其理论,对具体的例子进行分析和研究。关键词:聚类分析,模糊,应用,方法。前言:聚类就是把具有相似性质的事物区分开加以分类。聚类分析就是用数学方法研究和处理给定对象的分类,“人以群分,物以类聚”,聚类问题是一个古老的问题,是伴随着人类产生和发展不断深化的一个问题。人类要认识世界就必须要区分不同的事物并认识事物间的,聚类就是把具有相似性质的事物区分开加以分类。经典分类学往往是从单因素或有限的几个因素出发,凭经验和专业对事物分类。这种分类具有非此即彼的特性,同一事物归属且仅归属所划定类别中的一类,这种分类的类别界限是清晰的。随着着人们认识的深入,发现这种分类越来越不适用于具有模糊性的分类间题,如把人按身高分为“高个子的人’,“矮个子的人”,“不高不矮的人”。如何判别特定的一个人的类别便产生了经典分类学解决不了的困难。模糊数学的产生为上述软分类提供了数学基础,由此产生了模糊聚类分析。我们把应用普通数学方法进行分类的聚类方法称为普通聚类分析,而把应用模糊数学方法进行分析的聚类分析称为模糊聚类分析。随着模糊数学传人我国,模糊聚类分析也传人了我国。其应用领域已包括了天气预报、气象分析、模式识别、生物、医学、化学等诸多领域。聚类分析和模糊聚类分析聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。由于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物进行聚类分析,分类过程中不是仅仅考虑事物之间有无关系,而是考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自然,因此称为模糊聚类分析。模糊聚类分析的一般步骤1、第一步:数据标准化(1)数据矩阵设论域为被分类对象,每个对象又有个指标表示其性状,即,于是,得到原始数据矩阵为。其中表示第个分类对象的第个指标的原始数据。(2)数据标准化在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间上。通常有以下几种变换:①平移·标准差变换其中,。经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但是,再用得到的还不一定在区间上。②平移·极差变换,显然有,而且也消除了量纲的影响。③对数变换取对数以缩小变量间的数量级。2、第二步:标定(建立模糊相似矩阵)设论域,,依照传统聚类方法确定相似系数,建立模糊相似矩阵,与的相似程度。确定的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。(1)相似系数法①夹角余弦法。②最大最小法。③算术平均最小法。④几何平均最小法。以上3种方法中要求,否则也要做适当变换。⑤数量积法,其中。⑥相关系数法,其中,。⑦指数相似系数法,其中,而。(2)距离法①直接距离法,其中为适当选取的参数,使得,表示他们之间的距离。经常用的距离有●海明距离。●欧几里得距离。●切比雪夫距离。②倒数距离法。其中为适当选取的参数,使得。③指数距离法。3、第三步:聚类(求动态聚类图)(1)基于模糊等价矩阵聚类方法①传递闭包法根据标定所得的模糊矩阵还要将其改造称模糊等价矩阵。用二次方法求的传递闭包,即=。再让由大变小,就可形成动态聚类图。②布尔矩阵法[10]布尔矩阵法的理论依据是下面的定理:定理2.2.1设是上的一个相似的布尔矩阵,则具有传递性(当是等价布尔矩阵时)矩阵在任一排列下的矩阵都没有形如的特殊子矩阵。布尔矩阵法的具体步骤如下:①求模糊相似矩阵的截矩阵.②若按定理2.2.1判定为等价的,则由可得在水平上的分类,若判定为不等价,则在某一排列下有上述形式的特殊子矩阵,此时只要将其中特殊子矩阵的0一律改成1直到不再产生上述形式的子矩阵即可。如此得到的为等价矩阵。因此,由可得水平上的分类(2)直接聚类法所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包,也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。其步骤如下:①取(最大值),对每个作相似类,且=,即将满足的与放在一类,构成相似类。相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现,,.此时只要将有公共元素的相似类合并,即可得水平上的等价分类。②取为次大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。③取为第三大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。④以此类推,直到合并到成为一类为止。二、最佳阈值的确定在模糊聚类分析中对于各个不同的,可得到不同的分类,许多实际问题需要选择某个阈值,确定样本的一个具体分类,这就提出了如何确定阈值的问题。一般有以下两个方法:=1\*GB3①按实际需要,在动态聚类图中,调整的值以得到适当的分类,而不需要事先准确地估计好样本应分成几类。当然,也可由具有丰富经验的专家结合专业知识确定阈值,从而得出在水平上的等价分类=2\*GB3②用F统计量确定最佳值。[11]设论域为样本空间(样本总数为),而每个样本有个特征:,。于是得到原始数据矩阵,如下表所示,其中,称为总体样本的中心向量。样本指标12km设对应于值的分类数为,第类的样本数为,第类的样本记为:,第类的聚类中心为向量,其中为第个特征的平均值,即,,作统计量,其中为与间的距离,为第类中第个样本与其中心间的距离。称为统计量,它是遵从自由度为,的分布。它的分子表征类与类之间的距离,分母表征类内样本间的距离。因此,值越大,说明类与类之间的距离越大;类与类间的差异越大,分类就越好。三、基于模糊聚类分析的实际应用成绩评价问题一、问题的提出某高中高二有7个班级,学生成绩的好与差,没有明确的评定界限,并且班级间成绩好坏的表现具有一定的模糊不确定性。二、问题的分析解决上述问题可运用模糊聚类分析方法。现以7个班级某次其中考试的四门主课成绩为依据,对7个班级成绩好坏的相关程度分类。设7个班级组成一个分类集合:分别代表1班到7班。每个班级成绩均是四门基础课(语文、数学、英语、综合)作为四项统计指标,即有这里表示为第个班级的第门基础课指标。这四项成绩指标为:语文平均成绩,数学平均成绩,英语平均成绩,综合平均成绩。各班级成绩指标值见表1。表17个班4门基础课的成绩指标三、问题的解决1、数据标准化采用极差变换,(1)式中是第i个班级第门基础课平均成绩的原始数据,和分别为不同班级的同一门基础课平均成绩的最大值和最小值。为第个班级第门基础课平均成绩指标的标准化数值。当时,,当时,。表2平均成绩指标值的标准化数值2、用最大最小法建立相似矩阵计算模糊相似矩阵R,根据标准化数值建立各班级之间四门基础课成绩指标的相似关系矩阵,采用最大最小法来计算:其中是表示第个班级与第个班级在四门基础课成绩指标上的相似程度的量。取,=0,其余运算量可以通过MATLAB编程运算。得相似矩阵:3、改造相似关系为等价关系进行聚类分析矩阵满足自反性和对称性,但不具有传递性,为求等价矩阵,要对进行改造,只需求其传递闭包。由平方法可得最后可得到。故传递闭包为,它就是模糊等价矩阵。用其可对7个班级进行聚类分析。令由1降至0,写出,按分类元素和归同一类的条件是取=1,则有U可分7类,,,,,,。降低置信水平,对不同的作同样分析,得到取=0.77,U可分6类,,,,,。取=0.73,U可分5类,,,,。取=0.69,U可分4类,,,。取=0.61,U可分3类,,。取=0.36,U可分2类,。取=0.15,U可分1类。按不同的置信水平对7个班级进行模糊聚类,将会得到不同的分类结果雨量站问题一、问题的提出某地区设置有11个雨量站,其分布图见图1,10年来各雨量站所测得的年降雨量列入表1中。现因经费问题,希望撤销几个雨量站,问撤销那些雨量站,而不会太多的减少降雨信息?图1雨量站分布图表1各雨量站10年间测得的降雨量年序号12763241594132922583113031752433202251287349344310454285451402307470319243329056347950222122032041123242462322432812673102733152853273525291311502388330410352267603290292646615822417816420350232024027835072583274324013613813014134021994218453365357452384420482228360316252915827141030828341020117943034218510324406235520442520358343251282371二、问题的分析应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多因素。我们仅考虑尽可能地减少降雨信息问题。一个自然的想法是就10年来各雨量站所获得的降雨信息之间的相似性,对全部雨量站进行分类,撤去“同类”(所获降雨信息十分相似)的雨量站中“多余”的站。问题求解假设为使问题简化,特作如下假设①每个观测站具有同等规模及仪器设备;②每个观测站的经费开支均等;具有相同的被裁可能性。分析:对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分析,原始数据如上。三、问题的解决求解步骤:1、数据的收集原始数据如表1所示。2、建立模糊相似矩阵利用相关系数法,构造模糊相似关系矩阵,其中=其中=,=1,2,…,11。=,=1,2,…,11。取,代入公式得=0.839,得到模糊相似矩阵1.0000.8390.5280.8440.8280.7020.9950.6710.4310.5730.7120.8391.0000.5420.9960.9890.8990.8550.5100.4750.6170.5720.5280.5421.0000.5620.5850.6970.5710.5510.9620.6420.5680.8440.9960.5621.0000.9920.9080.8610.5420.4990.6390.6070.8280.9890.5850.9921.0000.9220.8430.5260.5120.6860.5840.7020.8990.6970.9080.9221.0000.7260.4550.6670.5960.5110.9950.8550.5710.8610.8430.7261.0000.6760.4890.5870.7190.6710.5100.5510.5420.5260.4550.6761.0000.4670.6780.9940.4310.4750.9620.4990.5120.6670.4890.4671.0000.4870.4850.5730.6170.6420.6390.6860.5960.5870.6780.4871.0000.6880.7120.5720.5680.6070.5840.5110.7190.9940.4850.6881.000对这个模糊相似矩阵用平方法作传递闭包运算,求即。3、聚类注:是对称矩阵,故只写出它的下三角矩阵取=0.996,则在置信水平为0.996的阈值下相似度为1,故同属一类,所以此时可以将观测站分为9类{,},{},{},{},{},{},{},{},{}。降低置信水平,对不同的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论