统计方法 聚类分析_第1页
统计方法 聚类分析_第2页
统计方法 聚类分析_第3页
统计方法 聚类分析_第4页
统计方法 聚类分析_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计方法6 聚类分析第一节 基本概念 1分类问题直观解释:聚类分析就是用某种准则将靠近的点集归为一类对样本(观测值)进行聚类,也可以对指标(变量)进行聚类。2 距离样品之间的距离设p维空间内的点及定义两点之间的距离(1)欧氏距离(2)马氏距离其中是数据矩阵的协方差阵。马氏距离的优点是考虑了空间内的概率分布,在正态总体的情况下,有比较好的效果。距离的定义比较灵活,只要满足条件都可以作为聚类时的距离。变量之间的距离变量之间的距离要考虑到变量之间的相互关系。常用的距离如夹角余弦,相关系数等类和类之间的距离在聚类过程中,要涉及到类和类之间的合并,因此也要考虑类间的距离。如 类间最短距离设是样本i和样本

2、j之间的距离,是类和类之间的距离 定义类间的最短距离为 =类似的可以定义类间的最长距离,平均距离等。 第二节 系统聚类法系统聚类方法是非常容易在计算机上实现的一种聚类方法,其聚类步骤为:1)将空间各点各自视为一类,计算每类间的距离矩阵,将距离最小者归为一类。2)对与新的类重新计算类与类间的距离矩阵,再将距离最小者归为一类。3)这一过程一直进行下去,直到所有的点归为一类为止。n 例 :设抽六个样,每个样本只有一个变量,即:1,2,5,7,9,10。定义距离为:两点的绝对值。试用最小距离法对它们进行系统聚类。1) 计算得距离矩阵D(0),为2) D(0)的最小距离时是1,对应元素D12=D56=1

3、,则将 G1,G2并成G7;G5;G6并成G8。3)计算G7,G8与其他类道距离,得D(1)4)的D(1)的最小距离是2,把合并为类,5)把G7和G9合并为G10,聚类距离为3。此时已将全部样本合并为一类,聚类结束。可以按照聚类的距离,通过谱系图把聚类的过程表示出来。最后,选择合适的阈值,确定聚类的个数。如取阈值为2.5,则分为2类,G7和G9 第三节 动态聚类法(k均值法)k-均值法是一种划分方法。函数kmeans把数据划分为k个互不相交的类,然后对每个观测返回类的标号。对于大量的数据k-均值法比系统聚类法更合适。Kmeans把数据集中的每一个数据视为占有空间中某个位置的对象。K-均值法寻找

4、划分使得每一类内部的数据足够近而类之间的数据足够远 。函数提供了5种距离的测量。步骤 Step1:选择k 个样品作为初始凝聚点,或者将样品分为k 个初始类,然后将其重心(均值)作为初始凝聚点Step2:将每个样品归入离其凝聚点最近的类(通常采用欧氏距离)。Step3:重新计算每个类的重心(均值);Step4:重复Step2,直到各类重心不再变化,类不再变化为止。动态聚类的结果严重依赖初始凝聚点的选取。经验表明,聚类过程的绝大多数重要变化均发生在第一次再分类中。 第四节MATLAB统计工具箱中的聚类分析A系统聚类法1. 点点距离的计算命令pdistY = pdist(X)Y = pdist(X,

5、'metric')Y = pdist(X,distfun)Y = pdist(X,'minkowski',p)这里:X:为数据矩阵metric:各种距离方法euclidean:欧几里得距离Euclidean distance (default)seuclidean:标准欧几里得距离.mahalanobis:马氏 距离cityblock:绝对值距离minkowski:明可夫斯基距离cosine:cosine角度距离(对变量聚类)correlation:相关系数距离.(对变量聚类)hamming:Hamming 距离(符号变量求距离)jaccard: Jaccard

6、 系数距离(符号变量求距离)chebychev:切比雪夫距离2. 类类距离的计算命令linkage,基本语法为;Z = linkage(Y) Z = linkage(Y,'method') 这里:Y:为pdist输出的结果,即点点的距离矩阵。method:为计算类类间距离的方法。它们有:single': 最短距离法 (系统内定)complete:最长距离法。average:平均距离法。weighted:加权平均距离法。centroid:中心距离法。median:加权重心法。3) 聚类命令cluster,语法为:T = cluster(Z,'cutoff'

7、,c)T = cluster(Z,'maxclust',n)这里:Z:为linkage输出的层次数据。cutoff:按某个值进行切割,值c取(0,1)之间的值。maxclust:按最大聚类数聚类,n为指定的聚类数。4) 作聚类图命令dendrogram,其语法为:H = dendrogram(Z) H = dendrogram(Z,p)H,T = dendrogram(.)H,T,perm = dendrogram(.). = dendrogram(.,'colorthreshold',t). = dendrogram(.,'orientation

8、9;,'orient'). = dendrogram(.,'labels', S)这里:Z:为linkage输出的层次数据。p:原始结点个数的设置,p=0显示全部点。系统内定显示30个点。colorthreshold:颜色设置,其值t>0。orientation:聚类图的位置,内定是从上到下。可选值为:top : 从上到下 (default)bottom:从下到上left:从左到右right:从右到左labels:标号例 16个地区('北京','天津','河北','山西','内蒙古&#

9、39;,'辽宁','吉林','黑龙江','上海','江苏','浙江','安徽','福建','江西','山东','河南)农民支出情况调查,指标为食品,衣着,燃料,住房,生活用品,文化生活服务.x=190.33 43.77 9.73 60.54 49.01 9.04;135.2 36.4 10.47 44.16 36.49 3.94;95.21 22.83 9.3 22.44 22.81 2.8;104.78 25.11 6.4 9

10、.89 18.17 3.25;128.41 27.63 8.94 12.58 23.99 3.27;145.68 32.83 17.79 27.29 39.09 3.47;159.37 33.38 18.37 11.81 25.29 5.22;116.22 29.57 13.24 13.76 21.75 6.04;221.11 38.64 12.53 115.65 50.82 5.89;144.98 29.12 11.67 42.6 27.3 5.74;169.92 32.75 12.72 47.12 34.35 5;153.11 23.09 15.62 23.54 18.18 6.39;14

11、4.92 21.26 16.96 19.52 21.75 6.73;140.54 21.5 17.64 19.19 15.97 4.94;115.84 30.26 12.2 33.61 33.77 3.85;101.18 23.26 8.46 20.2 20.5 4.3;zx=zscore(x);y=pdist(zx);z=linkage(y,'average')z = 12.0000 13.0000 0.6656 3.0000 16.0000 0.9931 4.0000 18.0000 1.0711 14.0000 17.0000 1.2032 10.0000 11.0000

12、 1.2670 5.0000 19.0000 1.2756 2.0000 15.0000 1.2833 21.0000 23.0000 1.7088 6.0000 7.0000 1.8245 8.0000 20.0000 1.8799 24.0000 25.0000 2.3302 26.0000 27.0000 2.6476 22.0000 28.0000 2.9664 1.0000 9.0000 3.1788 29.0000 30.0000 5.2728s='北京','天津','河北','山西','内蒙古',&#

13、39;辽宁','吉林','黑龙江','上海','江苏','浙江','安徽','福建','江西','山东','河南'dendrogram(z,'orientation','right','labels',s)T=cluster(z,5)T = 4 2 3 3 3 2 2 1 5 2 2 1 1 1 2 3find(T=1)ans = 8 12 1314find(T=2)ans = 2

14、 6 7 10 1115find(T=3)ans = 3 4 516find(T=4)ans = 1find(T=5)ans = 9或者:T = clusterdata(zx,'distance','euclid','linkage','average','maxclust',5)T = 4 2 3 3 3 2 2 1 5 2 2 1 1 1 2 3它与前面的cluster(z,5)相等B K均值法函数kmeans把数据划分为k个互不相交的类,然后对每个观测返回类的标号。Kmeans把数据集中的每一个数据视为占有空

15、间中某个位置的对象。K-均值法寻找划分使得每一类内部的数据足够近而类之间的数据足够远 。函数提供了5种距离的测量。IDX = kmeans(X,k)将n个点分为k类,返回的idx为每个点的类标号。IDX,C = kmeans(X,k)返回的c为每个类的中心。IDX,C,sumd = kmeans(X,k)Sumd返回类内的距离。IDX,C,sumd,D = kmeans(X,k)返回的D是一个矩阵,里边的元素是第i个元素到第j类的距离。. = kmeans(.,param1,val1,param2,val2,.)param1为参数名,val1为参数值。这些参数用来控制迭代算法。继续上例,采用K

16、均值法分类的结果为:IDX = kmeans(x,4)%分为4类IDX = 1 3 4 4 2 3 3 2 1 3 3 3 3 3 2 4分类的结果为:IDX = kmeans(x,5) %分为5类IDX = 1 5 2 2 3 5 5 3 4 5 1 5 5 5 3 2分类的结果为:轮廓图可以利用轮廓图作为评价分类结果的一种标准。Silhouette函数可以用来根据cluster,clusterdata,kmeans的聚类结果绘制轮廓图。从图上可以看每个点的分类是否合理。轮廓图上第i点的轮廓值定义为S(i)=其中,a是第i个点与同类其它点的平均距离。b 是向量,其元素表示第i个点与不同类的类

17、内各点的平均距离。S(i)的取值范围-1,1,此值越大,说明该点的分类越合理。特别当s(i)<0是说明该点分类不合理。silhouette(X,clust)s = silhouette(X,clust) %此命令只返回轮廓值,不画轮廓图s,h = silhouette(X,clust) . = silhouette(X,clust,metric). = silhouette(X,clust,distfun,p1,p2,.)上例分为4类的情况s,h = silhouette(x,IDX)s = 0.7623 0.3966 0.8080 0.8171 0.1771 0.7020 0.6955

18、 0.7293 1.0000 0.6564 0.2927 0.7608 0.6757 0.5099 0.4582 0.8398上例分为5类的情况s,h = silhouette(x,IDX)s = 0.7623 0.0555 0.8037 0.6583 0.4817 0.4747 0.5376 0.0540 1.0000 0.4960 0.2927 0.6268 0.4506 0.1971 0.1993 0.8479比较两图,此例使用k均值法分四类要更合适 第五节 模糊聚类 聚类分析是一种无监督的学习方法。很多的分类问题中,分类对象往往没有明确的界限。用传统的聚类方法,把样本点严格的分到某个类

19、中,可能存在一定的不合理性。借助于模糊数学的思想,可以有模糊聚类的方法。 使用模糊聚类将n个样品划分为c类,记为c个类的聚类中心。在模糊聚类中每个样品不是严格的划分到某一类,而是按照一定的隶属度属于某一类。 设表示第k个样品属于第i类的隶属度,取值0,1,且。定义目标函数 其中U为隶属度矩阵,所以该目标函数表示各类中样品到聚类中心的加权的距离平方和。模糊C均值聚类法的准则是求U,V使J(U,V)得到最小值。具体步骤:(1)确定类的个数c,幂指数m(>1)和初始隶属度矩阵。通常的做法是取0,1上的均匀分布随机数来确定初始隶属度矩阵。令l=1表示第一步迭代。(2)通过下式计算第l步的聚类中心

20、:(3)修正隶属度矩阵,计算目标函数值。其中(4)对于迭代算法,给定隶属度终止容限(或目标函数终止容限,或给定最大迭代步长)。当(或当l>1, ,或大于最大步长),停止迭代,否则l=l+1,返回(2)。经迭代可以求得最终的隶属度矩阵U和聚类中心V,使目标函数达最小。根据最终的隶属度矩阵U中元素的取值来确定最终所有样品的归属,当时,把归于第j类。模糊逻辑工具箱中模糊C聚类的函数:fcm center,U,obj_fcn = fcm(data,cluster_n)center,U,obj_fcn =fcm(data,cluster_n,options)说明:cluster_n是类的个数。Op

21、tions中的第一个参数是隶属度的幂指数,默认为2;第二个参数是最大迭代次数,默认值为100,第三个参数是目标函数的终止容限,默认值为。第四个参数用来控制是否显示中间迭代过程。取值为0,则不显示。输出参数center是cluster_n个类的类中心坐标矩阵(cluster_n X p)。U是隶属度矩阵(cluster_n x n),表示其元素第k个样品属于第i类的隶属度。根据U中每列元素的取值判定元素的归属。obj_fcn是目标函数值向量,其第i个元素表示第i步迭代的目标函数值,它包含的元素总个数就是实际迭代的总步数。继续前面的例子x=190.33 43.77 9.73 60.54 49.01

22、 9.04;135.2 36.4 10.47 44.16 36.49 3.94;95.21 22.83 9.3 22.44 22.81 2.8;104.78 25.11 6.4 9.89 18.17 3.25;128.41 27.63 8.94 12.58 23.99 3.27;145.68 32.83 17.79 27.29 39.09 3.47;159.37 33.38 18.37 11.81 25.29 5.22;116.22 29.57 13.24 13.76 21.75 6.04;221.11 38.64 12.53 115.65 50.82 5.89;144.98 29.12 11.67 42.6 27.3 5.74;169.92 32.75 12.72 47.12 34.35 5;153.11 23.09 15.62 23.54 18.18 6.39;144.92 21.26 16.96 19.52 21.75 6.7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论