模糊聚类案例分析_第1页
模糊聚类案例分析_第2页
模糊聚类案例分析_第3页
模糊聚类案例分析_第4页
模糊聚类案例分析_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、模糊数学方法及其应用论文题目:模糊聚类方法案例分析小组成员:王季光宋申辉兰洁陈倩芸肖仑杨洋吴云峰2013年10月27日模糊聚类分析方法1.1 距离和相似系数为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大,因此先介绍

2、变量的类型。由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定性的(如性别、职业等),因此将变量(指标)的类型按以下三种尺度划分:间隔尺度:变量是用连续的量来表示的,如长度、重量、压力、速度等等。在问隔尺度中,如果存在绝对零点,又称比例尺度,本书并不严格区分比例尺度和问隔尺度。有序尺度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间有次序关系,如某产品分上、中、下三等,此三等有次序关系,但没有数量表示。名义尺度:变量度量时、既没有数量表示,也没有次序关系,如某物体有红、黄、白三种颜色,又如医学化验中的阴性与阳性,市场供求中的“产”和“销”等。不同类型的变量,在定义距离

3、和相似系数时,其方法有很大差异,使用时必须注意。研究比较多的是间隔尺度,因此本章主要给出间隔尺度的距离和相似系数的定义。设有n个样品,每个样品测得p项指标(变量),原始资料阵为x1x2xpXix11x12x1pX2x21x22x2pXXnxn1Xn2xnp其中Xj(i1,1)n;j1,L,p)为第i个样品的第j个指标的观测数据。第i个样品Xi为矩阵X的第i行所描述,所以任何两个样品XK与XL之间的相似性,可以通过矩阵X中的第K行与第L行的相似程度来刻划;任何两个变量xK与xL之问的相似性,可以通过第K列与第L列的相似程度来刻划。1.2 F相似关系1.2.1 定义设RF(UU),如果具有自反和对

4、称关系,则称R为U上的一个F相似关系(F表示模糊)当论域U为有限时,F相似关系可以用F矩阵表示。具有F相似关系的矩阵,称为F相似矩阵。在实际应用时,通常只能得到自反矩阵和对称举证,即相似矩阵。现在的问题是对具有相似关系的元素怎样进行分类,也就是如何将相似矩阵改造为等价矩阵。1.2.2 定理若RtR,则称R为对称矩阵。(1)若R1(I是单位矩阵),则称R为自反矩阵。(2)2若RR,则称R为传递的F关系。(3)若满足上面三点则称为等价矩阵。定理1:相似矩阵RUnn的传递闭包是等价矩阵,且RRn。证只需要证明R是自反的、对称的。n2ruRkRn因R是自反的,故R1,RR。不难得到Rn不减,因此k1:

5、即R是自反的。因为rrt,(RT(RYRn,故R是对称的。有定理1可见,要想将相似矩阵改变为等价矩阵,只需求相似矩阵的传递闭包。定理2:设RUnn是自反矩阵,则任意自然数mn,者B有RRm证由R自反性推得RR2.Rn.当mn时,有RRnRmURkRk11.3聚类分析所谓聚类分析,就是用数学的方法对事物进行分类,它有广泛的实际应用。在模糊数学产生之前,聚类分析已是数理统计多元分析的一个分支,然而现实的分类问题往往伴有模糊性。例如,环境污染分类、春天连阴雨预报、临床症状资料分类、岩石分类,等等。对这些伴有模糊性的聚类问题,用模糊数学语言来表达更为自然。模糊聚类分析的步骤:第一步:数据标准化数据矩阵

6、设论域UXl,X2,Lxn为被分类的对象,每个对象由m个指标表示其性状,即Xi(X1,Xi2,.,Km)于是得到原始数据矩阵为X11X12LXmX21X22LX2mMMMXn1Xn2LXnm数据标准化在实际问题中,不同的数据一般有不同的量纲。为了使有不同的量纲的量也能进行比较,通常需要对数据作适当的变换。但是,即使这样,得到的数据也不一定在区间0,1上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间0,1上。通常需要作如下集中变换。1)平移?标准差变换2)平移?极差变换3)对数变换第二步标定(建立模糊相似矩阵)设U(U1,U2,4为待分类的全体。其中每一待分类对象由一组数

7、据表征如下:Ui(Xi1,Xi2,.,Xim)现在的问题是如何建立“和山之间的相似关系。这有许多方法(这里选一些,列在下面),我们可以按照实际情况,选其中一种来求口与5的相似关系R(U,Uj)j(1)形似系数法数量积法1rj1mXik.XjkM其中M为一适当选择之正数,满足mMmax(Xk-Xjk)hjk1夹角余弦法mmIxikxillXjkxjIk1rij'm-2.(XikXi)2.k1m(XjXj)2其中最大最小法ml-11,XjmJrrjmmin(XiXjk)k1mmaX(Xk,Xjk)k1算术平均最小法r.rjmmin(XiXjk)k11m,、-(XikXjl2k1几何平均最小

8、法rrjmmin(XiXjk)k1m.Xk.Xjkk1绝对值指数法Ixikxjkl1ek1绝对值减数法1当ijriim一1c|凡Xj"当ijk1其中,c适当选取,使0rij1。(2)距离法1)直接距离法海明距离欧几里得距离切比雪夫距离2)倒数距离法3)指数距离法选择上述哪一个方法好,要按实际情况而定。在实际应用时,最好采用多种方法,选取分类最符合实际的结果。第三步聚类(求动态聚类图)。由第一步得到的矩阵R一般只满足自反性和对称性,即R是相似矩阵,需将它改造成模糊等价矩阵。为此,采用平方法求出R的传递闭包口,口便是所求的模糊等价矩阵。通过口便可对U进行分类。实际应用具体问题如下:X1:

9、地区生产总值(当年价格)(亿元);X2:第一产业增加值;X3:第二产业增加值;X4:第三产业增加值;X5:地方财政一般预算内收入;X6:工业企业数(个);X7:工业总产值(当年价格)(万元);X8:从业人员年平均人数(万人);X9:流动资产年平均余额(万元);X1°:主营业务收入(万元)为1:利润总额(万元);X:移动电话年末用户数(万户);X13:国际互联网用12户数(户);Xi公路里程;X'普通中学学生数(万人);Xt医院、卫生院数(个);X17:医生数(执业医师+执业助理医师)(个)。17项指标来描述江西省11各市区经济发展水平情况。现将11个不同经济发展水平的市区进行聚类人10.85730.68530.662030.61440.56360.49690.48620.45270.431601110,987654321352681147910分类数111098.765.4321标准差变换下一一相关系数法构造相似矩阵R采用传递闭包法进行聚类,得到的动态聚类图如下:入1924567810311分类数10.95260.8720.86840.85720.84080.83730.827350.754910.7165入1235478910116分类数10.89040.86440.83940.83760.78380.773310.77190.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论