版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学─从数据到结论第十一章聚类分析
分类物以类聚、人以群分;但根据什么分类呢?如要想把中国的县分类,就有多种方法可以按照自然条件来分,比如考虑降水、土地、日照、湿度等,也可考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。聚类分析对一个数据,既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。当然,不一定事先假定有多少类,完全可以按照数据本身的规律来分类。本章要介绍的分类的方法称为聚类分析(clusteranalysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。它们在数学上是无区别的。饮料数据(drink.txt)16种饮料的热量、咖啡因、钠及价格四种变量11.1如何度量距离远近?如果想要对100个学生进行分类,而仅知道他们的数学成绩,则只好按照数学成绩分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。11.1如何度量距离远近?三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。两个距离概念按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。点间距离有很多定义方式。最简单的是歐氏距离。当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。两个距离概念由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离或各类的中心之间的距离来作为类间距离。两个距离概念在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。向量x=(x1,…,xp)与y=(y1,…,yp)之间的距距离或相相似系数数:欧氏距离离:Euclidean平方欧氏氏距离:SquaredEuclidean夹角余弦弦(相似系系数1):cosinePearsoncorrelation(相似系系数2):Chebychev:Maxi|xi-yi|Block(绝绝对距离离):Si|xi-yi|Minkowski:当变量的的测量值值相差悬悬殊时,要先进进行标准准化.如如R为为极差,s为为标准准差,则则标准准化的数数据为每每个观测测值减类Gp与类Gq之间的距离Dpq(d(xi,xj)表示点xi∈Gp和xj∈Gq之间的距离)最短距离法:最长距离法:重心法:离差平方和:(Wald)类平均法:(中间距离,可变平均均法,可变法法等可参考各各书).在用欧氏氏距离时时,有统一的的递推公公式有了上面面的点间间距离和和类间距距离的概概念,就就可以介介绍聚类类的方法法了。这这里介绍绍两个简简单的方方法。11.2事先先要确定定分多少少类:k-均值值聚类前面说过过,聚类类可以走走着瞧,,不一定定事先确确定有多多少类;;但是这这里的k-均值值聚类((k-meanscluster,也叫叫快速聚聚类,quickcluster)却要要求你先先说好要要分多少少类。看看起来有有些主观观,是吧吧!假定你说说分3类类,这个个方法还还进一步步要求你你事先确确定3个个点为““聚类种种子”(SPSS软件件自动为你选种种子);;也就是是说,把把这3个个点作为为三类中中每一类类的基石石。11.2事先先要确定定分多少少类:k-均值值聚类然后,根根据和这这三个点点的距离离远近,,把所有有点分成成三类。。再把这这三类的的中心(均值)作为新新的基石石或种子子(原来来“种种子”就就没用了了),再再重新按按照距离离分类。。如此叠代代下去,,直到达达到停止止叠代的的要求((比如,,各类最最后变化化不大了了,或者者叠代次次数太多多了)。。显然,,前面的的聚类种种子的选选择并不不必太认认真,它它们很可可能最后后还会分分到同一一类中呢呢。下面面用饮料料例的数数据来做做k-均均值聚类类。假定要把把这16种饮料分分成3类。利用用SPSS,只叠代代了三次次就达到到目标了了(计算算机选的的种子还还可以))。这样样就可以以得到最最后的三三类的中中心以及及每类有有多少点点根据需要,,可以输出出哪些点分分在一起。。结果是::第一类为为饮料1、、10;第第二类为饮饮料2、4、8、11、12、13、、14;第第三类为剩剩下的饮料料3、5、、6、7、、9、15、16。。SPSS实实现(聚类分析)K-均值聚聚类以数据drink.sav为为例,在SPSS中中选择Analyze-Classify-K-MenasCluster,然后把calorie(热量量)、caffeine(咖咖啡因)、、sodium(钠钠)、price((价格)选选入Variables,在NumberofClusters处选选择3(想想要分的类类数),如果想要知知道哪种饮饮料分到哪哪类,则选选Save,再选ClusterMembership等。注意k-均均值聚类只只能做Q型型聚类,如如要做R型型聚类,需需要把数据据阵进行转转置。11.2事事先不用用确定分多多少类:分分层聚类另一种聚类类称为分层层聚类或系系统聚类((hierarchicalcluster)。开始始时,有多多少点就是是多少类。。它第一步先把把最近的两类类(点)合并并成一类,然然后再把剩下下的最近的两两类合并成一一类;这样下去,每每次都少一类类,直到最后后只有一大类类为止。越是是后来合并的的类,距离就就越远。对于饮料聚类。SPSS输出出为“冰柱图”(icicle)例:5个样品品距离阵令Dk为系统聚类法法种第k次合合并时的距离离,如{Dk}为单调的,则称具有单单调性.前面面只有重心和和中间距离法法不具有单调调性.步骤:最短距离法最长距离法阶段 bk(第k阶段类类的集合)DkDkD(0)(1)(2)(3)(4)(5)00D(1)(1,3)(2)(4)(5)11D(2)(1,3)(2,4)(5)33D(3)(1,3)(2,4,5)45D(4)(1,3,2,4,5)69注:最最短短和和最最长长距距离离法法结结果果一一样样(一一般般不不一一定定一一样样)聚类类要要注注意意的的问问题题聚类类结结果果主主要要受受所所选选择择的的变变量量影影响响。。如如果果去去掉掉一一些些变变量量,,或或者者增增加加一一些些变变量量,,结结果果会会很很不不同同。。相比比之之下下,,聚聚类类方方法法的的选选择择则则不不那那么么重重要要了了。。因因此此,,聚聚类类之之前前一一定定要要目目标标明明确确。。聚类类要要注注意意的的问问题题另外外就就分分成成多多少少类类来来说说,,也也要要有有道道理理。。只只要要你你高高兴兴,,从从分分层层聚聚类类的的计计算算机机结结果果可可以以得得到到任任何何可可能能数数量量的的类类。。但是,,聚类类的目目的是是要使使各类类之间间的距距离尽尽可能能地远远,而而类中中点的的距离离尽可可能的的近,,并且且分类类结果果还要要有令令人信信服的的解释释。这这一点点就不不是数数学可可以解解决的的了。。SPSS实实现(聚类分分析)分层聚聚类对drink.sav数数据在在SPSS中选选择Analyze-Classify--HierarchicalCluster,然后把把calorie((热量量)、、caffeine(咖咖啡因因)、、sodium(钠钠)、、price((价格格)选选入Variables,在Cluster选选Cases((这是是Q型型聚类类:对对观测测值聚聚类)),如如果要要对变变量聚聚类((R型型聚类类)则则选Variables,为了画画出树树状图图,选选Plots,,再点点Dendrogram等。。附录Lance和Williams给出(对欧欧氏距离)统一递推公式:D2(k,r)=apD2(k,p)+aqD2(k,q)+bD2(p,q)+g|D2(k,p)-D2(k,q)|前面方法的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论