分析讲评课件-聚类分析_第1页
分析讲评课件-聚类分析_第2页
分析讲评课件-聚类分析_第3页
分析讲评课件-聚类分析_第4页
分析讲评课件-聚类分析_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、聚类分析概述聚类分析(Clusterysis)就是将一个没有类别标记的样本集按照某种准则划分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽可能划分到不同的类中。由于在对样本集进行聚类的过程中,没有任何关于类别的先验知识,所以聚类分析属于无监督分类的范畴。聚类分析是一种探索性的分析,它从样本数据出发,自动进行分类。因此,聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。1.聚类分析的基本聚类分析的基本依据就是“物以类聚”的。一般认为:待聚类的样本之间存在着程度不同的相似性。可以根据一批样本的多个观测指标,找出能够度

2、量样本之间相似程度的统计量。并以此为依据,将所有的样品或变量分别聚合到不同的类中,使同一类中的有较大的相似性,不同类中的差异较大。2.数据的预处理在聚类分析中,称待分类的对象为样本。要对样本进行合理的分类,首先应考虑样本的各种特性指标(观测数据)。设有 n 个被分类对象,即样本集为X = x1, x2, , xn每一个 xi 有 p 个特性指标,即 xi特性指标向量xi = (xi1, xi2, , xip)其中 xij 表示第 i 个样本的第 j 个特性指标。可表示为于是,n 个样本的特性指标矩阵为 MMML通常,也将样本集记为特性指标矩阵的形式,即 X = (xij)np。如果 p 个特性

3、指标的量纲和数量级都不相同,在运算过程中就可能会因为突出某些数量级特别大的特性指标对分类的作用,而降低甚至排除某些数量级很小的特性指标的作用,致使对各特性指标的分类缺乏一个所以,为了消除特性指标的尺度。的差别和数量级不同的影响,当特性指标的量纲和数量级相差较大时,通常事先对各种指标值实施数据标准化(规格化),从而使得各个指标值都于某种共同的数值特性范围。预处理。称之为数据常用的数据标准化方法有两种:均值方差标准化极大极小标准化。(1) 均值方差标准化设给定的样本集为 X = (xij)np,标准化之后的样本集为X = (xij)np,则i = 1, 2, , n,j = 1, 2, , pj,

4、j式中n1n1n x ,(xi1x x )2jijjijjn 1i1这里 j = 1, 2, , p。(2) 极大极小标准化设给定的样本集为 X = (xij)np,标准化之后的样本集为X = (xij)np,则mj inj这里 i = 1, 2, , n,j = 1, 2, , p,并且x j min minxij,xjmax maxxij, j =1, 2, , p1in1in显然,实施数据标准化之后,每个指标值均在区间0, 1 中。3.样本之间的相似性度量设待分类的样本集为 X = x1, x2, , xn 或者X = (xij)np,并已经标准化或者不需要标准化。如果能够计算出衡量样本

5、 xi 与 xj 之间相似程度的相似性统计量 rij,使得0 rij 1,i, j = 1, 2, , n就可以在样本集 X那么,上建立描述样本之间相似关系的相似矩阵: 1r12 1 Mn 2r1nLL L LR r21r2n ,其中 r r 0, 1 MM ijjir1rn1其中:rij = 0 表示样本 xi 与 xj 之间毫不相似rij = 1 表示样本 xi 与 xj 之间完全相似rii 1 表示样本 xi 自身完全相似用于计算样本相似性的方法通常有如下几种:(1) 相关系数法pxj|jkk 1rijpp2x )jk 1k 1其中pp11k 1k 1xi x , xxikjjkpp(2

6、) 指数相似系数法( xik x jk )24p31eS 2rijkpk 1其中 Sk 是第 k 个特征的标准差:pn11ni1k 1Skxk ) ,xk22(xxikikn 1(3) 夹角余弦法p xik x jkk 1rijp x2ik x2 jkk 1(4) 数量积法i i 1,jj 1prx x jk ,ij Mikk 1pM x x其中 M 为一适当选取的正数:maxi , jjk ik k 1(5) 最大最小法pmin(xik , x jk ) k 1max(xik , x jk )k 1rijp(6) 算术平均最小法min(xik , x jk )p k 1prij12k 1(x

7、 x jk )ik(7) 几何平均最小法min(xik , x jk )p k 1rijp k 1 x jkxik4.聚类分析方法聚类分析包括很多种方法,通常分为两大类:传统聚类方法和模糊聚类方法。传统聚类方法还包括多种具体算法,如系统聚类法,有序样品聚类法,动态聚类法,图论聚类法、聚类预报法,K 均值聚类法等。模糊聚类方法主要有两种具体算法:模糊等价矩阵聚类法,模糊 C 均值聚类法。二、模糊聚类算法简介模糊聚类算法主要有两种:模糊等价矩阵聚类法,模糊 C 均值聚类法。1.模糊等价矩阵聚类法模糊等价矩阵聚类方法的主要,就是从计算各个样本之间的相似性统计量出发,建立样本集 X 上的模糊相似矩阵;

8、通过改造模糊相似矩阵为模糊等价矩阵,达到对样本集 X 进行模糊聚类的目的。(1)模糊矩阵运算设 R = (rij)mt, S = (sij)tn, T = (tij)mn, 并且 rij,sij, tij0, 1。若t( rt s )ijikkjk 1则称 T 为 R 与 S 的,记为 T = RS。若 R 是方阵,即 R = (rij)nn, rij0, 1,则规R2 = RR定例 设RM23,SM32,其中 0.60.5 0.20.50.110.8R 0.7, S 0.41 0.10.9则(0.2 0.6) (0.5 0.4) (1 0.1)(0.2 0.5) (0.5 1) (1 0.9

9、)R o S (0.7 0.6) (0.1 0.4) (0.8 0.1)(0.7 0.5) (0.1 1) (0.8 0.9) 0.40.9 0.8 0.6(2)基于模糊等价矩阵的聚类算法设待分类的样本集为 X = x1, x2, , xn,其相应的特性指标矩阵为X (x ) MnijMpML1选择适当的相似性统计量,构造样本集上的模糊相似矩阵 1r12 1 Mn 2r1nLL L LR r21r2n ,其中 r r 0, 1 MM ijjir1r n12按照模糊矩阵运算,将模糊相似矩阵改造为模糊等价矩阵。通过“平方法”依次计算 R,R2,R4,R8,当第一次出现 (Rk)2 = Rk 时,R

10、k 就是一个模糊等价矩阵,称为 R 的传递闭包,记为 t(R)。3 对于指定的水平值 ,求 t(R) 的 截矩阵,从而得到该水平下的聚类结果。注:所谓 截矩阵,就是将其大于等于 的元素取为 1,将小于 的元素取为 0。例对于某样本集的特性指标矩阵 55325 X 2145由于数据不存在量纲和数量级的差异,故不需进行数据标准化,直接进入构造模糊相似矩阵步骤。按照绝对值减数法建立模糊相似关系,取c = 0.1,得模糊相似矩阵0.5111.00.811.000.0000.3416120000.18 R 03124015300310.06用平方法求传递闭包,以便将模糊相似矩阵改造成模糊等价矩阵,有:0

11、.310.110.10.20.40.410.40.40.40.80.110.30.10.80.410.50.50.50.20.310.60.50.40.510.610.310.20.40.40.410.40.40.40.80.310.50.30.80.410.50.50.50.40.510.60.50.40.510.60.50.40.4 0.1 0.3R 0.80.1 0.80.3R2 0.50.6 0.50.6 0.31 0.510.5110.50.40.4 0.4 0.4 0.80.5 0.80.5R4R8 0.50.6 0.50.6 0.51 0.51 R4于是,传递闭包 t(R)=R4

12、就是所求的模糊等价矩阵。根据得到的模糊等价矩阵 t(R),利用不同水平下的截矩阵得到各个水平下的聚类结果。例如:当 = 0.4 时, t(R) 的 截矩阵为10.410.40.40.40.80.410.50.50.50.40.510.60.5111111111111111111 0.4 0.80.410.5 11 0.50.611 0.5111因此,X 分为一类:I, II, III, IV, V。再如:当 = 0.6 时, t(R) 的 截矩阵为0.5 1010001010000011010.410.40.40.40.80.410.50.50.50.40.510.60 0 0.4 0.80.

13、40.5 10 0.50.6 01 0.51 01因此,X 分为一类:I, III, IV, V, II。2.模糊 C 均值(FCM)聚类算法设待分类的样本集为 X = x1, x2, , xn,其相应的特性指标矩阵为X (x ) MnijMpMLFCM 算法就是将样本集 X 划分成 c 个模糊群组,并且在每个模糊群组中寻找一个聚类中心,使得一个基于距离测度的目标函数最小化。它兼顾了类之间的交迭,允许对象对所有的类有部分归属。的 Fuzzy 工具箱中,给出了在FCM 算法函数:fcm。其调用格式为center, U, = fcm(X, n)例运行结果为10.90.80.70.60.50.40.

14、30.20.1000.20.40.60.81其中聚类中心为:center center_1 0.31460.63290.3030center_2 0.7294对任意的样本xi,分别计算xi 与center_1 和center_2 的距离,按照择进原则归类。例如对第一个样本点 x1 = (0.8147, 0.1622),可计算得:d1 = 0.3590,d2 = 0.6434。于是,可将 x1 归为以 (0.3146, 0.6329) 为聚类中心的第一类。事实上,程序中的 index1 和 index2分别是隶属于两个类别的样本的标号。例如,若Index1 = 1, 2, 4, 6, 11, 的

15、则数据样本 x1, x2, x4, x6, x11, 均归属于第一类。补充:K 均值聚类算法设待分类的样本集为 X = x1, x2, , xn,其相应的特性指标矩阵为X (x ) MnijMpML的 Ss(统计)工具箱中,给在出了 K 均值算法函数:kmeans。其调用格式为idx, center = kmeans(X, n)例程序clear allX = randn(20,2)+ones(20,2); randn(20,2)-ones(20,2);opts = sset(Display,final);idx, center = kmeans(X,2); plot(X(idx=1,1),X(idx=1,2),r.,X(idx=2,1), X(idx=2,2),b., center(:,1), center(:,2),kx);运行结果为43210-1-2-3-3-2-10123其中聚类中心为:center center_1 1.1040 1.06051.0486center_2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论