模糊聚类分析与模式识别_第1页
模糊聚类分析与模式识别_第2页
模糊聚类分析与模式识别_第3页
模糊聚类分析与模式识别_第4页
模糊聚类分析与模式识别_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模糊聚类分析与模式识别1

模糊数学是用数学方法研究和处理具有“模糊性”现象的数学。所谓的模糊性主要是指客观事物差异的中间过渡界线的“不分明性”。如储层的含油气性、油田规模的大小,成油地质条件的优劣,圈闭的形态,岩石的颜色等。这些模糊变量的描述或定义是模糊的,各变量的内部分级没有明显的界线。

1965年美国控制论专家L.A.Zadeh提出这一概念后,模糊数学得到迅速发展并应用到各个领域。前言2聚类分析的基本概念“聚类”就是按照一定的要求和规律对事物进行区分和分类的过程,在这一过程中没有任何关于分类的先验知识,仅靠事物间的相似性作为类属划分的准则,属于无监督分类的范畴。“聚类分析”是指用数学的方法研究和处理给定对象的分类。“人以群分,物以类聚”,聚类是一个古老的问题,它伴随着人类社会的产生和发展而不断深化,人类要认识世界就必须区别不同的事物并认识事物间的相似性。3聚类分析的基本概念聚类分析是多元统计分析的一种,它把一个没有类别标记的样本集按某种准则划分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。传统的聚类分析是一种硬划分,它把每个待辨识的对象严格地划分到某类中,具有非此即彼的性质,因此这种类别划分的界限是分明的。而实际上大多数对象并没有严格的属性,它们在性态和类属方面存在着中介性,具有亦此亦彼的性质,因此适合进行软划分。4聚类分析的基本概念模糊集理论的提出为软划分提供了有力的分析工具,用模糊数学的方法来处理聚类问题,被称之为模糊聚类分析。由于模糊聚类得到了样本属于各个类别的不确定性程度,表达了样本类属的中介性,更能客观地反映现实世界,从而成为聚类分析研究的主流。模糊聚类已经在诸多领域获得了广泛的应用,如模式识别、图像处理、信道均衡、矢量量化编码、神经网络的训练、参数估计、医学诊断、天气预报、食品分类、水质分析等。5聚类分析的基本概念常用的模糊聚类分析方法大致可分为两大类:其一是基于模糊关系(矩阵)的聚类分析方法,而作为其中核心步骤的模糊分类,有下述的主要方法:模糊传递闭包法、直接聚类法、最大树法和编网法;其二是基于目标函数的聚类分析方法,称为模糊C均值(FCM)聚类算法(或称为模糊ISODATA聚类分析法)(IterativeSelf-OrganizingDataAnalysisTechniquesAlgorithm迭代自组织数据分析)。6§1模糊聚类分析

模糊聚类分析是在模糊相似矩阵的基础上,对分类对象进行定量分类的方法。主要内容数据标准化建立模糊相似矩阵动态聚类71、建立数据矩阵

一、数据标准化8(1)标准差标准化9(2)极差正规化(3)极差标准化(4)最大值规格化其中:10由上可知,对原始数据正规化处理以后,变量最大值为1,最小值为0,即新数据在区间[0,1]内。二、模糊相似矩阵

模糊相似矩阵是进行模糊聚类的基础。下面介绍建立模糊相似矩阵的常用方法。11(1)数量积法1.相似系数法显然|rij|∈[0,1],若rij<0,令rij’=(rij+1)/2,则rij’∈[0,1]。其中矢量或点:Xj=(xj1

xj2…xjm)Xi=(xi1

xi2…xim)i=ji≠ji,j=1,2,…,n12相似系数法----(2)夹角余弦法13相似系数法----(3)相关系数法其中14符号∧和∨分别表示两个元素取小和取大。(4)最大最小法例如:1516

(5)算术平均最小法17(6)几何平均最小法

上述(4)、(5)、(6)三种方法要求xij≥0,否则,要进行适当变换。182距离法①Hamming距离②Euclid距离③Chebyshev距离19三、聚类1.模糊等价矩阵给定U上的一个模糊关系Rij=[rij]n×n,若它满足:

(1)自反性(rij=1);

(2)对称性(rij=rji

);

(3)传递性();则称R是U上的一个模糊等价矩阵。传递性20式中“○”表示矩阵的合成运算,类似矩阵乘法运算,但要将元素的相乘改为求最小值、相加改为求最大值。例如:矩阵乘法运算矩阵○运算21相似性度量的相关、相似系数矩阵满足自反性和对称性,但不一定满足传递性。对于传递性,可先计算R○R(记作R2),然后看其是否满足传递性。若不满足,经过R○R=R2,R2○R2=R4…运算,可将R改造成满足传递性的模糊等价矩阵。2.模糊等价矩阵的λ截矩阵

设R=[rij]n×n是模糊等价矩阵,对任意λ∈[0,1],称Rλ=[rij(λ)]n×n为R=[rij]n×n的λ截矩阵,其中:221.000.890.420.410.270.220.891.000.460.450.300.250.420.461.000.770.680.560.410.450.771.000.620.590.270.300.680.621.000.690.220.250.560.590.691.00

R=将R中≥0.6的元素改为1,其它元素改为01.00

1.00

0.000.000.000.001.00

1.00

0.000.000.000.000.000.00

1.00

1.001.00

0.000.000.00

1.00

1.00

1.00

0.000.000.001.001.00

1.00

1.00

0.000.000.000.001.00

1.00RR=矩阵RR叫做R矩阵的截矩阵(λ≥0.6)23(1)模糊传递闭包法步骤:

3.分类由模糊等价矩阵的λ截矩阵可知,当rij=1时,i与j应为同类,否则为异类。

让λ由大到小变化,可形成动态聚类图。2425例:设有模糊相似矩阵2627解:由题设知特性指标矩阵为采用最大值规格化法将数据规格化为28用最大最小法构造模糊相似矩阵得到29用平方法合成传递闭包30取,得31取,得取,得32取,得取,得33画出动态聚类图如下:0.70.630.620.53134

对于不同的λ∈[0,1],可得不同的分类方案,从而形成一种动态聚类图。这对全面了解对象的分类情况是比较形象和直观的。但有的实际问题需要选择某个阀值λ,确定一个具体的分类,这就是确定阀值λ的问题。二、最佳阀值λ的确定

在动态聚类过程中,调整λ的值以得到适当的分类。另外,也可由熟悉专业的专家确定阀值λ,得到阀值λ水平上的分类。1.按实际需要确定35设对应于λ的分类数为r,第j类的样品数为nj

,j类的样本记为:

2.用F-统计量确定λ的最佳值第j类的聚类中心为向量:第j类中第k个变量的平均值:36定义F-统计量为:表征了类与类之间的距离表征类内样品间的距离F越大,表明类间的差异越大,分类效果就越好。为:与的距离。为第j类中样品与的距离。37假设各类差异不明显,对于给定的检验水平α,查Fα(r-1,n-r)分布表,得临界值Fα,若F>Fα,则认为各类之间有明显的差异。F服从自由度为r-1,n-r的F分布。38简单讲,模型识别就是根据研究对象具有的某些特征对其进行识别并归类。如采集的植物标本识别它属于哪个纲目;又如拨打电话号码识别对应的电话机。这种模型识别具有2个本质的特征:§2模糊模型识别一、基本概念

①事先已知若干标准模型(称为标准模型库),模型具有明显的界线;1.模型识别②有待识别归类的对象,并且它所属的类必然是若干标准模型之一。39

模糊模型识别是指标准模型库中的模型是模糊的(模型间没有明显的界线)。如据电测或气测资料,建立的储层含油气性(油层、油气层、油水同层、气层、含水油层、干层等)标准模型库,又如由不同沉积相岩样观测值构成的岩样标准模型库,它们中的模型都是模糊的。因此,根据测井信息或者岩样的观测值判断钻穿储层的含油气性、岩样的沉积相是一个模糊集对标准模糊集的识别问题。对于这类模型识别问题,可据模型的界线对待识别对象进行归类,是标准集对标准集的识别。2.模糊模型识别40为了解决模糊集的识别问题,需要一个度量模糊集与标准模糊集靠近程度的指标,这就是下面要介绍的隶属度和贴近度。

(1)模糊向量及其内外积若0≤ai≤1(i=1,2,…,n),则称向量a=(a1,a2,…,an)为模糊向量。设a,b是模糊向量,则分别称:二、隶属度和贴近度1.隶属度为向量a与b内积和外积。符号∧和∨分别表示两个元素取小和取大。表示和取大、小运算。41例如设:0.10.500.60.200.70.30.20.50.70.6

取小→0.20.10.500.60.200.70.30.1000.3取大→0.3ab42(2)模糊向量集合族(3)隶属度

设U上有n个模糊子集,其隶属函数为:

当为模糊向量集合族,为普通向量时,则:为对的隶属度。

设是论域U上的n个模糊子集,称以模糊集为分量的模糊向量为模糊向量集合族,记为:43应用模糊数学方法的关键是建立符合实际的隶属函数,但它是目前尚未完全解决的问题。我国的汪培庄教授提出的随机集落影理论对于相当一部分模糊集的隶属函数的客观实在性给出了满意的解释,基于这一理论的模糊统计方法是确定一类模糊集隶属度的有效方法。现确定隶属函数的方法有模糊统计法、指派法、借用已有尺度法等。

基于不同考虑,隶属度也有其他的定义形式,如:44(4)最大隶属度原则原则Ⅰ:

设论域

U={x1,x2,…,xn}上有m个模糊子集:

(m个模型)构成一个标准模型库,若对x0∈U,有i0∈{1,2,…,m}

使得则认为x0隶属于。45则应首先录取xk。

原则Ⅱ:

设论域U上只有1个标准型,现有n个待识别对象x1,x2,…,xn∈U,若其中的xk

满足:为便于理解,下面给出应用的例子:46原则Ⅰ的例子。在论域U=[0,100](分数)上确定三个代表学习成绩的模集糊=“优”,=“良”,=“差”。当某学生的数学成绩为88分时,该学生的数学成绩该评为优、良、还是差?

为此,要先建立模糊集隶属函数。有人用指派法建立了论域U上模糊集的隶属函数为:4748

把x=88分别代入上述三个隶属函数,得:

据原则Ⅰ,88分相对三个模型应隶属于,即可评为优。49例细胞染色体形状的模糊识别细胞染色体形状的模糊识别就是几何图形的模糊识别,而几何图形常常化为若干个三角图形,故设论域为三角形全体.即X={(A,B,C)|A+B+C=180,A≥B≥C}

标准模型库={E(正三角形),R(直角三角形),I(等腰三角形),I∩R(等腰直角三角形),T(任意三角形)}.某人在实验中观察到一染色体的几何形状,测得其三个内角分别为94,50,36,即待识别对象为x0=(94,50,36).问x0应隶属于哪一种三角形?50先建立标准模型库中各种三角形的隶属函数.直角三角形的隶属函数R(A,B,C)应满足条件:

(1)当A=90时,R(A,B,C)=1;(2)当A=180时,R(A,B,C)=0;(3)0≤R(A,B,C)≤1.因此,不妨定义R(A,B,C)=1-|A-90|/90.则R(x0)=0.955.

或者其中p=|A–90|则R(x0)=0.54.51正三角形的隶属函数E(A,B,C)应满足:(1)当A=B=C=60时,E(A,B,C)=1;(2)当A=180,B=C=0时,E(A,B,C)=0;(3)0≤E(A,B,C)≤1.

因此,不妨定义E(A,B,C)=1–(A–

C)/180.则E(x0)=0.677.

或者其中p=A–C

则E(x0)=0.02.52等腰三角形的隶属函数I(A,B,C)应满足:(1)当A=B或者B=C时,I(A,B,C)=1;(2)当A=180,B=60,C=0时,I(A,B,C)=0;(3)0≤I(A,B,C)≤1.

因此,不妨定义I(A,B,C)=1–[(A–

B)∧(B–

C)]/60.则I(x0)=0.766.

或者

p=(A–

B)∧(B–

C)则I(x0)=0.10.53等腰直角三角形的隶属函数(I∩R)(A,B,C)=I(A,B,C)∧R(A,B,C);(I∩R)(x0)=0.766∧0.955=0.766.任意三角形的隶属函数T(A,B,C)=Ic∩Rc∩Ec=(I∪R∪E)c.T(x0)=(0.766∨0.955∨0.677)c=(0.955)c=0.045.

通过以上计算,R(x0)=0.955最大,所以x0应隶属于直角三角形.或者(I∩R)(x0)=0.10;T(x0)=(0.54)c=0.46.仍然是R(x0)=0.54最大,所以x0应隶属于直角三角形.54

(2)择近原则设论域U上有m个模糊子集构成一个标准模型库为待识别的对象。若存在i0∈{1,2,…,m}使得:

2.贴近度及其择近原则

(1)贴近度贴近度是描述模糊集之间彼此靠近程度的指标,是我国学者汪培庄教授提出的,由于研究的问题不同,贴近度也有不同的定义形式,它的一般定义为:设A,B是论域U上的两个模糊子集,则称为A与B的贴近度。55待识别对象归入Ai0类。

(3)实用贴近度实际工作中实用的几个贴近度计算公式:56

例1茶叶的模型识别论域U={茶叶},其等级标准模型库质量指标模型样品条索0.50.30.20.00.00.4色泽0.40.20.20.10.10.2净度0.30.20.20.20.10.1汤色0.60.10.10.10.10.4香气0.50.20.10.10.10.5滋味0.40.20.20.10.10.6三、应用待识别的茶叶样品为B,衡量茶叶质量指标为:条索,色泽,净度,汤色,香气和滋味。模型库与样品的有关数据如右表。贴近度计算公式:57按择近原则:58贴近度计算改用:上述两种计算贴近度公式,计算数值不同,但归类果一样,那一种更好?茶叶样品59

(1)建立标准模式库在试油证实的油层、油水同层、含油水层、油气层、干层等各取若干个样品,每个以样品都有相同的7项气测指标,它们都是模糊变量

。各气测指标的平均值构成论域U={x1,x2,…,x7},xi是论域U上的模糊子集。例2识别储层含油气性论域U={储层含油气性},储层含油气性可分为油层、油水同层、含油水层、油气层干层等,构成标准模型库为:X=(X1,X2,X3,X4)。待识别含油气性的储层为Y,试据贴近度判定Y的含油气性。60

(2)对待识别储层的识别计算待识别储层Y与Xi(i=1,2,3,4)的贴近度:

σ0(Xi,Y)(i=1,2,3,4)

若σ0(Xk,Y)是其中最大者,则认为待识别储层Y的含油性与Xk相同模糊模型库油层油水同层含有水层干层0.01130.05030.09590.00540.01290.23140.10500.02710.01490.11940.26500.00680.20090.76510.59130.10183.14751.02791.02834.24300.05200.43610.17160.13220.10542.79140.00190.0476储层含油气性标准模型数据61某地区储层含油气性模式识别与试油结果井名深度/m识别结果试油结果Zh101cZh101c潜山潜山潜山Zh104Zh10Zh10Ch307Zh104潜山34273432406939843952321746504660381038873818油层油层油层油水同层油水同层干层含油水层含油水层干层干层干层油层油层油层油水同层油水同层含油水层含油水层含油水层干层干层油水同层62蠓的分类左图给出了9只Af和6只Apf蠓的触角长和翼长数据,其中“●”表示Apf,“○”表示Af.根据触角长和翼长来识别一个标本是Af还是Apf是重要的.

①给定一只Af族或Apf族的蠓,如何正确地区分它属于哪一族?②将你的方法用于触角长和翼长分别为(1.24,1.80),(1.28,1.84),(1.40,2.04)三个标本.6364模糊判别方法先将已知蠓重新进行分类.65当=0.919时,分为3类{1,2,3,6,4,5,7,8},{9},{10,11,12,13,14,15},三类的中心向量分别为(1.395,1.770),(1.560,2.080),(1.227,1.927).用平移极差变换将它们分别变为A1=(0.200,0.637)(Af蠓),A2=(0.390,1.000)(Af

蠓),A3=(0.000,0.821)(Apf蠓),再将三只待识别的蠓用上述变换分别变为B1=(0.015,0.672),B2=(0.062,0.719),B3=(0.203,0.953).66采用贴近度3(A,B)

=计算得:3(A1,B1)=0.89,3(A2,B1)=0.65,

3(A3,B1)=0.92.3(A1,B2)=0.89,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论