《SPSS的聚类分析》PPT课件.ppt_第1页
《SPSS的聚类分析》PPT课件.ppt_第2页
《SPSS的聚类分析》PPT课件.ppt_第3页
《SPSS的聚类分析》PPT课件.ppt_第4页
《SPSS的聚类分析》PPT课件.ppt_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019年7月30日星期二,1,第九章 SPSS的聚类分析,2019年7月30日星期二,2,9.1 聚类分析的一般问题,9.1.1 聚类分析的意义 聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。 聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。,2019年7月30日星期二,3,例如,学校里有些同学经常在一起,关系比较密切,而他们与另一些同学却很少来往,关系比较疏远。究其原因可能会发现,经常在一起的同学的家庭情况、性格、学习成绩、课余爱好等方面有许多共同之处,而关系比较疏远的同学在这些方面有较大的差异性。为了研究家庭情况、性格、学习成绩、课余爱好等是否会成为划分学生小群体的主要决定因素,可以从有关这些方面的数据入手,进行客观分组,然后比较所得的分组是否与实际相吻合。对学生的客观分组就可采用聚类分析方法。,2019年7月30日星期二,4,9.1.2 聚类分析中“亲疏程度”的度量方法 1、定距型变量个体间距离的计算方式 欧式距离(Euclidean distance) 平方欧式距离(Squared Euclidean distance ) 切比雪夫(Chebychev)距离 Block距离 明考斯基(Minkowski)距离 夹角余弦(Cosine)距离 用户自定义(Customized)距离,2019年7月30日星期二,5,2、计数变量个体间距离的计算方式 卡方(Chi-Square measure)距离 Phi方(Phi-Square measure)距离 3、二值(Binary)变量个体间距离的计算方式 简单匹配系数(Simple Matching) 雅科比系数(Jaccard) 注:聚类分析的几点说明 所选择的变量应符合聚类的要求 各变量的变量值不应有数量级上的差异 各变量间不应有较强的线性相关关系,2019年7月30日星期二,6,9.2 层次聚类,9.2.1 层次聚类的两种类型和两种方式 层次聚类又称系统聚类,简单地讲是指聚类过程是按照一定层次进行的。层次聚类有两种类型,分别是Q型聚类和R型聚类;层次聚类的聚类方式又有两种,分别是凝聚方式聚类和分解方式聚类。,2019年7月30日星期二,7,Q型聚类:对样本进行聚类,使具有相似特征的样本聚集在一起,使差异性大的样本分离开来。 R型聚类:对变量进行聚类,使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。,2019年7月30日星期二,8,凝聚方式聚类:其过程是,首先,每个个体自成一类;然后,按照某种方法度量所有个体间的亲疏程度,并将其中最“亲密”的个体聚成一小类,形成n-1个类;接下来,再次度量剩余个体和小类间的亲疏程度,并将当前最亲密的个体或小类再聚到一类;重复上述过程,直到所有个体聚成一个大类为止。可见,这种聚类方式对n个个体通过n-1步可凝聚成一大类。 分解方式聚类:其过程是,首先,所有个体都属一大类;然后,按照某种方法度量所有个体间的亲疏程度,将大类中彼此间最“疏远”的个体分离出去,形成两类;接下来,再次度量类中剩余个体间的亲疏程度,并将最疏远的个体再分离出去;重复上述过程,不断进行类分解,直到所有个体自成一类为止。可见,这种聚类方式对包含n个个体的大类通过n-1步可分解成n个个体。 SPSS中的层次聚类采用的是凝聚方式。,2019年7月30日星期二,9,9.2.2 个体与小类、小类与小类间“亲疏程度”的度量方法 SPSS中提供了多种度量个体与小类、小类与小类间“亲疏程度”的方法。与个体间“亲疏程度”的测度方法类似,应首先定义个体与小类、小类与小类的距离。距离小的关系亲密,距离大的关系疏远。这里的距离是在个体间距离的基础上定义的,常见的距离有:,2019年7月30日星期二,10,最近邻居(Nearest Neighbor)距离:个体与小类中每个个体距离的最小值。 最远邻居(Furthest Neighbor )距离:个体与小类中每个个体距离的最大值。 组间平均链锁(Between-groups linkage)距离:个体与小类中每个个体距离的平均值。 组内平均链锁(Within-groups linkage)距离:个体与小类中每个个体距离以及小类内各个体间距离的平均值。 重心(Centroid clustering)距离:个体与小类的重心点的距离。 离差平方和法(Wards method):聚类过程中使小类内离差平方和增加最小的两小类应首先合并为一类。,2019年7月30日星期二,11,9.2.3 层次聚类的基本操作 1、选择菜单AnalyzeClassifyHierarchical Cluster,出现窗口:,2019年7月30日星期二,12,2、把参与层次聚类分析的变量选到Variable(s)框中。 3、把一个字符型变量作为标记变量选到Label Cases by框中,它将大大增强聚类分析结果的可读性。 4、在Cluster框中选择聚类类型。其中Cases表示进行Q型聚类(默认类型);Variables表示进行R型聚类。 5、在Display框中选择输出内容。其中Statistics表示输出聚类分析的相关统计量;Plot表示输出聚类分析的相关图形。,2019年7月30日星期二,13,6、单击Method按钮指定距离的计算方法。,2019年7月30日星期二,14,Measure框中给出的是不同变量类型下的个体距离的计算方法。其中Interval框中的方法适用于连续型定距变量;Counts框中的方法适用于计数型变量;Binary框中的方法适用于二值变量。Cluster Method框中给出的是计算个体与小类、小类与小类间距离的方法。 7、如果参与聚类分析的变量存在数量级上的差异,应在Transform Values框中的Standardize选项中选择消除数量级差的方法。并指定处理是针对变量的还是针对样本的。By variable表示针对变量,适于Q型聚类分析;By case表示针对样本,适于R型聚类分析。,2019年7月30日星期二,15,8、单击Statistics按钮指定输出哪些统计量,2019年7月30日星期二,16,Agglomeration schedule表示输出聚类分析的凝聚状态表;Proximity matrix表示输出个体间的距离矩阵;Cluster Membership框中,None表示不输出样本所属类,Single Solution表示指定输出当分成n类时各样本所属类,是单一解。Range of solution表示指定输出当分成m至n类(m小于等于n)时各样本所属类,是多个解。,2019年7月30日星期二,17,9、单击Plot按钮指定输出哪种聚类分析图。,2019年7月30日星期二,18,Dendrogram选项表示表示输出聚类分析树形图;在Icicle框中指定输出冰挂图,其中,All clusters表示输出聚类分析每个阶段的冰挂图,Specified range of clusters表示只输出某个阶段的冰挂图,输入从第几步开始,到第几步结束,中间间隔几步;在Orientation框中指定如何显示冰挂图,其中,Vertical表示纵向显示,Horizontal表示横向水平显示。 树形图以躺倒树的形式展现了聚类分析中的每一次类合并的情况。SPSS自动将各类间的距离映射到025之间,并将凝聚过程近似地表示在图上。,2019年7月30日星期二,19,10、单击Save按钮可以将聚类分析的结果以变量的形式保存到数据编辑窗口中。生成的变量名为clun_m(如clu2_1),其中n表示类数(如2),m表示是第m次分析(如1)。 由于不同的距离计算方法会产生不同的聚类分析结果,即使聚成n类,同一样本的类归属也会因计算方法的不同而不同。因此实际分析中应反复尝试以最终得到符合实际的合理解,并保存于SPSS变量中。,2019年7月30日星期二,20,9.2.4 层次聚类的应用举例 1、利用对5个商厦的评分做聚类分析。 2、 例:31个省市自治区小康和现代化指数的层次聚类分析。 利用SPSS层次聚类Q型聚类对31个省市自治区进行分类分析。其中个体距离采用欧式距离,类间距离采用平均组间链锁距离,由于数据不存在数量级上的差异,因此无需进行标准化处理。,2019年7月30日星期二,21,9.3 K-Means聚类,9.3.1 K-Means聚类分析的核心步骤 K-Means聚类也称快速聚类,仍将数据看成k维空间上的点,仍以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率,其核心步骤是: 第一,指定聚类数目K 第二,确定K个初始类中心 SPSS中初始类中心的指定方式有两种:一是用户指定方式;二是系统指定方式。,2019年7月30日星期二,22,第三,根据距离最近原则进行分类 依次计算每个样本数据点到K个类中心点的欧式距离,并按距K个类中心点距离最短的原则将所有样本分成K类。 第四,重新确定K个类中心 中心点的确定原则是,依次计算各类中k个变量的均值,并以均值点作为K个类的中心点。 第五,判断是否已满足中止聚类分析的条件 条件有两个:一是迭代次数(SPSS默认为10);二是类中心点偏移程度,即新确定的类中心点距上个类中心点的最大偏移量小于指定的量(SPSS默认为0.02)时中止聚类。,2019年7月30日星期二,23,9.3.2 K-Means聚类分析的操作步骤 1.选择选项AnalyzeClassifyK-Means Cluster,打开主窗口。,2019年7月30日星期二,24,2.选定参与K-Means聚类的变量放入Variables框中。 3.选择一个字符型变量作为标记变量放入Label Cases框中,增加分析结果的可读性。 4.在Number of Clusters框中输入聚类数目,该数应小于样本数。 5.如果用户自行指定初始类中心点,则单击Centers按钮,并在Read initial from框后给出存放初始类中心的SPSS数据文件名;否则本步可略去。,2019年7月30日星期二,25,6.在Method框中指定聚类过程是否调整类中心点。其中,Iterate and classify表示在聚类分析的每一步都重新确定类中心点(SPSS默认);Classify only表示聚类分析过程中类中心点始终为初始类中心点,此时仅进行一次迭代。 7.单击Iterate按钮确定中止聚类的条件。在Maximum iterations框后输入最大迭代次数,在Convergence criterion框后输入类中心的偏移量。另外,Use running means选项,选中表示每当一个样本被分配到一类时便立即重新计算新的类中心点,此时类中心点与样本分配的前后顺序有关;不选该项表示只有当完成了所有样本的类分配后再计算类中心,该方式可节省运算时间,通常不选中该选项。,2019年7月30日星期二,26,8.单击Save按钮将聚类分析的部分结果以SPSS变量的形式保存到数据编辑窗口中,其中Cluster membership表示保存样本所属类的类号;Distance from cluster center表示保存样本距各自类中心点的距离。 9.单击Option按钮确定输出哪些相关分析结果和缺失值的处理方式。Statistics框中,Initial cluster centers表示输出初始类中心点;ANOVA table表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论