SPSS课件10-聚类分析.ppt_第1页
SPSS课件10-聚类分析.ppt_第2页
SPSS课件10-聚类分析.ppt_第3页
SPSS课件10-聚类分析.ppt_第4页
SPSS课件10-聚类分析.ppt_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,第10章 聚类分析,10.1 聚类分析的一般问题 10.2 层次聚类 10.3 K-Means 聚类(快速聚类),2,例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。,3,什么是聚类分析,聚类分析是统计学所研究的“物以类聚”问题的一种方法,它属于多元统计分析的范畴. 它是一种建立分类的方法,能够将一批样本数据(或变量)按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行分类。这里,一个类就是一个具有相似性的个体的集合,不同类之间具有明显的非相似性。在分类过程中,不必事先给出一个分类标准,聚

2、类分析能够从样本数据出发,客观地决定分类标准。,4,样品间亲疏程度的测度,研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。,5,变量之间的聚类即R型聚类分析,常用相似系数来测度变量之间的亲疏程度。而样品之间的聚类即Q型聚类分析,则常用距离来测度样品之间的亲疏程度。,6,常用距离的算法,设 和 是第i和 j 个样品的观

3、测值,则二者之间的距离 为:,欧氏距离,欧氏距离测度,7,聚类分析的几点说明,1.所选择的变量应符合聚类的要求 2.各变量的变量值不应有数量级的差异 消除数量级常用的方法是 标准化处理: 3.各变量间不应有较强的线性相关性,8,层次聚类法,层次聚类分析的基本思想是,在聚类分析的开始,每个样本自成一类;然后,按照某种方法度量所有样本之间的亲疏程度,并把其中最亲密或称最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类之间的亲疏程度,并将当前最亲密的样本或小类再聚成一类;再接下来,再度量剩余下的样本和小类(或小类和小类)间的亲疏程度,并将当前最亲密的样本或小类再聚成一类;如此反复,直到所有的样

4、本分别聚成一类为止。,由此可见,层次聚类方法中,度量数据之间的亲疏程度是极为关键的。要注意的是,这里并没有给定分类的标准,也没有给出所有数据分成几类,而要求比较客观地从数据自身出发进行分类。 层次聚类分析的结果是凝聚状态表、冰柱图和树形图。 连续变量的样本距离测度方法有欧氏距离,欧氏距离平方,切比雪夫距离,Block距离,明考夫斯基距离,夹角余弦距离,用户自定义距离等。 样本数据与小类、小类与小类间亲疏程度的度量方法有最短距离法,最长距离法,组间平均链锁法,组内平均链锁法,重心法,离差平方和法。,10,样本数据与小类、小类与小类之间的度量,1 、最短距离(Nearest Neighbor),1

5、1,最长距离(Furthest Neighbor ),12,组间平均连接(Between-group Linkage),13,1 、组内平均连接法(Within-group Linkage),14,重心法(Centroid clustering):均值点的距离,15,用spss输出的凝聚状态表,16,冰柱图,17,K-Means 聚类(快速聚类),一、思想 层次聚类法是一种比较成功的聚类方法。然而当样本点数量十分庞大时,则是一件非常繁重的工作,且聚类的计算速度也比较慢。比如在市场抽样调查中,有4万人就其对衣着的偏好作了回答,希望能迅速将他们分为几类。这时,采用层次聚类法就很困难,而快速聚类法就

6、会显得方便,适用。,18,和层次聚类分析一致,快速聚类分析也以距离为样本间亲疏程度的标志。 但两者的不同点在于: 层次聚类可以对不同的聚类类数产生一系列的聚类解,而快速聚类只能产生固定类数的聚类解,类数需要用户事先指定。,19,快速聚类分析的计算过程,首先需要用户指定聚类成多少类(如k类) 然后确定k个类的初始类中心。指定方式有两种:1)用户指定;2)系统指定。Spss系统会根据样本数据的实际情况,选择k个有代表性的样本数据作为初始类中心。 计算所有样本数据点到k个类中心的欧氏距离,并按照距k个类中心点距离最短原则,把所有样本数据点分派到各中心点所在的类中,形成一个新的k类,完成一次迭代过程。,20,重新确定k个类中心。 Spss计算每个类中各个变量的变量值均值,并以均值点作为新的类中心点。 然后重复上面的两步计算过程,直到达到指定的迭代次数,或终止迭代的判断要求为止。,21,(a)空间的群点 (b) 任取两个聚核,(c) 第一次分类 (d) 求各类中心,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论