第十一章聚类分析_第1页
第十一章聚类分析_第2页
第十一章聚类分析_第3页
第十一章聚类分析_第4页
第十一章聚类分析_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十一章第十一章 聚类分析聚类分析n一、聚类分析概述一、聚类分析概述n二、相似性的衡量二、相似性的衡量n三、层次聚类分析三、层次聚类分析n四、非层次聚类分析四、非层次聚类分析n五、聚类分析的五、聚类分析的SPSS过程过程一、聚类分析概述一、聚类分析概述n(一)什么是聚类分析(一)什么是聚类分析n(二)聚类分析的目的与原则(二)聚类分析的目的与原则n(三)聚类分析的性质(三)聚类分析的性质n(四)聚类分析要解决的基本问题(四)聚类分析要解决的基本问题n(五)聚类分析的基本流程(五)聚类分析的基本流程什么是聚类分析?什么是聚类分析?n1、聚类分析,又称集群分析(、聚类分析,又称集群分析(Clust

2、er Analysis),是一种常用的多元统计方法,是根据),是一种常用的多元统计方法,是根据事物之间的相似性和相异性,将事物归入到不同的事物之间的相似性和相异性,将事物归入到不同的“类类”中去的过程。中去的过程。n 这里的这里的“类类”,数学上也叫,数学上也叫“集群集群”,是指由某方面性质相同或相似的事物组成的集,是指由某方面性质相同或相似的事物组成的集合。合。n2、“物以类聚,人以群分物以类聚,人以群分”。在科学研究工作中,最基础的一项工作就是对研究对象进行。在科学研究工作中,最基础的一项工作就是对研究对象进行分类,以便更好地把握对象的实质规律。聚类分析能够很好地帮助人们对研究对象进行数分

3、类,以便更好地把握对象的实质规律。聚类分析能够很好地帮助人们对研究对象进行数值分类。值分类。n3、在心理学研究中、在心理学研究中, 经常遇到的分类包括两种情况:一是对研究样本或个案的分类经常遇到的分类包括两种情况:一是对研究样本或个案的分类, 即根即根据每个个案的一系列观测指标,将那些在这些观测量方面表现相近的个案归为一类据每个个案的一系列观测指标,将那些在这些观测量方面表现相近的个案归为一类, 将那将那些在这些观测量方面的表现很不相同的个案归为不同类;二是对观测量的分类,即将一系些在这些观测量方面的表现很不相同的个案归为不同类;二是对观测量的分类,即将一系列的观测量归类合并为性质明显不同的少

4、数几个方面。列的观测量归类合并为性质明显不同的少数几个方面。 也就是说,在也就是说,在SPSS的聚类分析功能中,可以对数据文件的的聚类分析功能中,可以对数据文件的“行行”进行分类,也可以对进行分类,也可以对数据文件的数据文件的“列列”进行分类。进行分类。聚类分析的目的与原则聚类分析的目的与原则n聚类分析的聚类分析的是:辨认在某些特性上相似的事物,是:辨认在某些特性上相似的事物,并将这些事物按照这些特性划分成几个并将这些事物按照这些特性划分成几个“类类”,使得使得同一类中的事物具有高度的同质性,不同类之间的事同一类中的事物具有高度的同质性,不同类之间的事物具有高度的异质性。物具有高度的异质性。n

5、上述红色字体部分体现了聚类分析的基本上述红色字体部分体现了聚类分析的基本。聚类分析的性质聚类分析的性质n1、一种数值分类法。它与传统分类方法的不同之处在于,传统的一种数值分类法。它与传统分类方法的不同之处在于,传统的分类方法的分类准则是事先决定的,而聚类分析是按照分类方法的分类准则是事先决定的,而聚类分析是按照“自然类别自然类别”将分布于某一数量空间的点予以分类,使分类后的将分布于某一数量空间的点予以分类,使分类后的“类类”(集群)具(集群)具有同质性。有同质性。n2、一种统计推论技术。而是将一组观察值的结构特性予以数量一种统计推论技术。而是将一组观察值的结构特性予以数量化的一种客观方法。因此

6、,在推论统计中非常重要的正态性、线性和化的一种客观方法。因此,在推论统计中非常重要的正态性、线性和方差齐性等要求,对聚类分析几乎没什么作用。但如果变量间有方差齐性等要求,对聚类分析几乎没什么作用。但如果变量间有多重多重共线性共线性,则会影响聚类分析的结果。,则会影响聚类分析的结果。多重共线性是指特征变量之间存在精确的相关关系或高度相关关系。IdX1X2X31a2420252b2017223c2019244d2520245e2218236f2117217g2119258h2217229i21182310j24202511k22192312l211722聚类分析要解决的基本问题聚类分析要解决的基本

7、问题n主要解决三个基本问题:n1、我们如何衡量各事物之间的相似性?n2、假设我们能衡量每一个事物与其他事物的相对相似性,我们又要如何将相似的事物归入同一“类”内?n3、当聚类完成后,如何来描述这些“类”?同时又如何知道所得到的类别(集群)是真实的,而不是某种统计上的加工品?聚类分析的基本流程聚类分析的基本流程n(一)研究问题(探索性的还是验证性的?)n(二)变量的选择n(三)相似性的衡量n(四)聚类方法的选择n(五)“类数” 的决定n(六)“类”的解释n(七)“类”的验证(二)变量的选择n 不论研究的目的是探索性的还是验证性的,进行聚类分析,首先应建立由某些事物属性不论研究的目的是探索性的还是

8、验证性的,进行聚类分析,首先应建立由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。n 所谓完备的指标体系,是说入选的指标是充分的,其他任何新增变量对辨别事物差异所谓完备的指标体系,是说入选的指标是充分的,其他任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备,则导致分类偏差。比如要对家庭教养方式进行分类,无显

9、著性贡献。如果所选指标不完备,则导致分类偏差。比如要对家庭教养方式进行分类,就要有描述家庭教育方式的一系列变量,这些变量能够充分地反映不同家庭对子女的教养就要有描述家庭教育方式的一系列变量,这些变量能够充分地反映不同家庭对子女的教养方式。方式。n 简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确、测量越可靠,得到的分类结果越是能描述事物各类间的本质区别。准确、测量越可靠,得到的分类结果越是能描述事物各类间的本质区别。(三)相似性的衡量n各事物间相似程度的衡量方法有好多种,大致可分成两大类:n

10、1、距离衡量(distance measures)。n2、关联衡量(association measures) 。距离衡量n很多相似性的衡量是以点与点间的距离为代表。点与点间距离的计算方法有很多,根据数据的不同类很多相似性的衡量是以点与点间的距离为代表。点与点间距离的计算方法有很多,根据数据的不同类型,可以选择不同的计算距离:型,可以选择不同的计算距离:n1、连续的等距数据:、连续的等距数据:n 欧几里得距离欧几里得距离:n n 欧氏距离平方:公式略。欧氏距离平方:公式略。n 绝对值距离:两个体在每一个变量上取值之差的绝对值的总和。绝对值距离:两个体在每一个变量上取值之差的绝对值的总和。n 切

11、比雪夫距离:两个体在任意一个变量上取值之差的绝对值的最大值。切比雪夫距离:两个体在任意一个变量上取值之差的绝对值的最大值。n 等等;等等;n2、计数数据:、计数数据:n 卡方相似性测度:公式略。卡方相似性测度:公式略。n 等等;等等;n3、二分变量:、二分变量:n 二值二值 欧氏距离、二值欧氏距离平方欧氏距离、二值欧氏距离平方n 等等。等等。mkjkikijXXd12)(mkjkikijXXd1jkikijXXd max关联衡量n1、个案之间的相似性:如果事物的属性全部以名义变量来表示时,则两事物之间的相似性可、个案之间的相似性:如果事物的属性全部以名义变量来表示时,则两事物之间的相似性可以用

12、配合系数(以用配合系数(matching coefficient)或相似比()或相似比(similarity ratio)来衡量。)来衡量。n配合系数:配合系数:n相似比:相似比: n、变量之间的相似性:如果要描述测量指标之间的亲疏程度,则可用相似性系数来表示。、变量之间的相似性:如果要描述测量指标之间的亲疏程度,则可用相似性系数来表示。其取值范围为(,)。最常用的相似性系数为积差相关系数。其次有其取值范围为(,)。最常用的相似性系数为积差相关系数。其次有cosine向量夹向量夹角余弦等。角余弦等。为属性总数。,共同不具有的属性数目和为属性数目,这两个事物共同具有的和为式中,mjibjia,m

13、baSij属性数目至少有一个事物拥有的或都拥有的属性数目和事物jijibmaSRij欧氏距离平方图解1. 1. 聚类分析的前期准备工作聚类分析的前期准备工作 聚类分析是以完备的数据文件为基础的,一般还要求各个观聚类分析是以完备的数据文件为基础的,一般还要求各个观测变量的量纲一致,即各变量取值的数量级一致。测变量的量纲一致,即各变量取值的数量级一致。 所以,聚类分析前要检查各变量的量纲是否一致,不一致则所以,聚类分析前要检查各变量的量纲是否一致,不一致则需进行转换,如将各变量均作标准化转换就可保证量纲一致。需进行转换,如将各变量均作标准化转换就可保证量纲一致。2. 2. 聚类分析的主要方法聚类分

14、析的主要方法 Q Q聚类分析:聚类分析: 对个案进行分类。使具有共同特征的个案对个案进行分类。使具有共同特征的个案 聚集在一起。聚集在一起。 层次聚类分析层次聚类分析 R R聚类分析:聚类分析:对观察变量进行分类。对观察变量进行分类。聚类分析聚类分析 非层次聚类分析:非层次聚类分析:它先对数据进行初始分类,然后逐步调整,得到最后分类。它先对数据进行初始分类,然后逐步调整,得到最后分类。 以快速聚类法(以快速聚类法(K- Means methodsK- Means methods)应用最广泛,是由研究者)应用最广泛,是由研究者 指定类别数的大样本资料的逐步聚类分析,指定类别数的大样本资料的逐步聚

15、类分析, 。 类数的决定n“类类”数目的决定是聚类分析的一项重要决策。但尚无一个客观的标准程数目的决定是聚类分析的一项重要决策。但尚无一个客观的标准程序可供遵循,通常,以各连续分类步骤下序可供遵循,通常,以各连续分类步骤下“类类”间的距离作为参考。例如,间的距离作为参考。例如,可以事先设定一个距离,一旦可以事先设定一个距离,一旦“类类”间的实际距离超过此一预定的距离时间的实际距离超过此一预定的距离时就停止继续聚类;或是当两个聚类步骤间的就停止继续聚类;或是当两个聚类步骤间的“类类”距离剧增时就停止聚类。距离剧增时就停止聚类。n有时也可基于实际考量而设定某些决定有时也可基于实际考量而设定某些决定

16、“类类”数目的准则,例如:数目的准则,例如:“如果如果“类类”数介于数介于3-6之间,则研究发现将较易处理和沟通之间,则研究发现将较易处理和沟通”。等等。等等。“类”的解释n一旦经由聚类分析而找出一旦经由聚类分析而找出“类类”后,我们应设法来描述这些后,我们应设法来描述这些“类类”。n常用的一种方法是以常用的一种方法是以“类类”的重心的重心即即“类类”内的各事物点在各变量上的平均内的各事物点在各变量上的平均数值,来描述该数值,来描述该“类类”。(条件:等距资料,在原始变量的空间上进行聚类。)。(条件:等距资料,在原始变量的空间上进行聚类。) 此外,我们还可以计算此外,我们还可以计算“类类”的变

17、异情形,如的变异情形,如“类类”内各点间的平均距离或各点内各点间的平均距离或各点与重心间的平均距离,来辅助描述该与重心间的平均距离,来辅助描述该“类类”。“类”的验证n聚类分析将各事物分别归入聚类分析将各事物分别归入“类类”之后,还需要就聚类的结果对一般总体之后,还需要就聚类的结果对一般总体的代表性如何加以验证,这样才能使聚类的结果适用到其他的事物。的代表性如何加以验证,这样才能使聚类的结果适用到其他的事物。n最直接的方法就是对不同的样本进行聚类分析,比较其结果并估计其一致性;最直接的方法就是对不同的样本进行聚类分析,比较其结果并估计其一致性;不过,由于时间或成本的限制,或找不到所需的事物供多

18、次聚类分析之用,上不过,由于时间或成本的限制,或找不到所需的事物供多次聚类分析之用,上述方法往往是不切实际的。常用的一种方法是将样本分成两群,分别做聚类分述方法往往是不切实际的。常用的一种方法是将样本分成两群,分别做聚类分析,然后比较其结果。析,然后比较其结果。距离矩阵n如前所述,相似性的衡量方法有两种:距离衡量和关联衡量。如前所述,相似性的衡量方法有两种:距离衡量和关联衡量。n相似性衡量的结果可以表现为相似性衡量的结果可以表现为“距离矩阵距离矩阵”。其形如下表。聚类分析以距离矩阵为。其形如下表。聚类分析以距离矩阵为基础进行。基础进行。0111086e0357d096c02b0aedcba的距

19、离矩阵如下:设有一包含五个事物点三、层次聚类分析n将成对事物间的相似性加以衡量后,接着应利用聚类方法将各事物归入将成对事物间的相似性加以衡量后,接着应利用聚类方法将各事物归入“类类”中。聚类的方法有好多种,常见的有层次聚类和非层次聚类两大类,后者以中。聚类的方法有好多种,常见的有层次聚类和非层次聚类两大类,后者以K平平均数法(均数法(K-Means methods)应用较广,又称快速聚类法。)应用较广,又称快速聚类法。n层次聚类方法:层次聚类方法:n通常是把观测样本中的每一个个案或指标体系中的每一个变量看作是一个独通常是把观测样本中的每一个个案或指标体系中的每一个变量看作是一个独立的小类,计算

20、它们所有的两两之间的距离,在比较这些距离后把距离最小的两立的小类,计算它们所有的两两之间的距离,在比较这些距离后把距离最小的两个聚为一个小类。然后计算这个新类与其他各类之间的距离,再把其中距离最小个聚为一个小类。然后计算这个新类与其他各类之间的距离,再把其中距离最小的聚为一类,如此不断地进行下去,直到所有个体或所有变量聚为一个大类为止。的聚为一类,如此不断地进行下去,直到所有个体或所有变量聚为一个大类为止。 当然,也可以用相反的过程,即,先把所有的事物视为一个大类,然后再依据相当然,也可以用相反的过程,即,先把所有的事物视为一个大类,然后再依据相似性的准则把各事物划分成较不相似的两个类,如此继

21、续下去直到所有的事物都似性的准则把各事物划分成较不相似的两个类,如此继续下去直到所有的事物都自成一个类为止。自成一个类为止。 这两种过程,前者称为这两种过程,前者称为“集结式层次聚类方法集结式层次聚类方法”,后者称为,后者称为“区分式层次聚类方法区分式层次聚类方法”n 层次聚类不仅可以将个案或变量分为若干类,而且可以形成一个类属间的层次聚类不仅可以将个案或变量分为若干类,而且可以形成一个类属间的层次关系,还可以依据分类的过程绘制个体或变量的谱系关系图。层次关系,还可以依据分类的过程绘制个体或变量的谱系关系图。集结式层次聚类方法的演算步骤n1、设有、设有n个事物,首先每个事物均自成一个个事物,首

22、先每个事物均自成一个“类类”,并列成一个,并列成一个nn的对称的对称距离(或相似)矩阵距离(或相似)矩阵D=ddikik 。n2 2、从距离矩阵中找出最近的(最相似的)两个、从距离矩阵中找出最近的(最相似的)两个“类类”u u和和v v,设其距离为,设其距离为d duvuv。n3 3、将、将u u和和v v 这两个这两个“类类”合并,成为合并,成为“类类”(uvuv)。将原距离矩阵中相对应于)。将原距离矩阵中相对应于“类类”u u 和和“类类”v v的行和列删除,然后加上一个新的行和列,表明的行和列删除,然后加上一个新的行和列,表明“类类”(uvuv)和其他)和其他“类类”之间的距离。之间的距

23、离。n4 4、重复第、重复第2 2步和第步和第3 3步骤步骤n-1n-1次,直到所有的事物并入同一次,直到所有的事物并入同一“类类”为止。为止。集结式层次聚类方法之连锁法(连锁法(linkage methods)n1、单一连锁法。、单一连锁法。n 以最小的点际距离作为以最小的点际距离作为“类类”间的距离,故又称为最小距离法或最间的距离,故又称为最小距离法或最近邻法。近邻法。n2、完全连锁法。、完全连锁法。n 以最大的点际距离为以最大的点际距离为“类类”间的距离,故又称为最大距离法或最远间的距离,故又称为最大距离法或最远邻法。邻法。n3、平均连锁法。、平均连锁法。n 以平均点际距离作为以平均点际

24、距离作为“类类”间的距离,故又称为平均距离法。间的距离,故又称为平均距离法。单一连锁法举例:得一新的距离矩阵如下距离:)到其他“类”的最小,)。然后计算(,一“类”(最小,故得合并,因为首先将最近的两个事物的距离矩阵如下:设有一包含五个事物点6)6 , 8(min)d, 5d(mind5)7 , 5(min)d,d(mind6)6 , 9(min)d,d(mindaba2d0111086e0357d096c02b0aedcbaaebea)e(b,adbd a)d(b,acbc a)c(b,babdDik0106e05)cd(0)(ecd)(10)11,10(min)d,d(mind5)5 ,

25、6(min)d,d(mindd, cd, cdc3d011106035060)()(deced)e(c,d(ba)c(ba) a)d)(b,(c,cdbabadDedcbaedcbadDikik)(下:可得一新的距离矩阵如距离:)到其他“类”的最小再计算(),合并得一“类”(与为最小,故将因为在此一新的距离矩阵,树形图表示如下:上述聚类的结果,可用又可得一新的矩阵:的最小距离:)到“类”),再计算(“类”()合并成)与(最小,故将(在此一新的矩阵中,06e0)cdba(e)cdba(D6)10, 6(mind,dmindecd,bacd,bacdba5de)cd(ba)ee)cd,ba()cd

26、)(ba(单一连锁法的树形图 2 1 3 4 5 0 1 2 3 4 5 6冰柱图冰柱图类的类的数目数目个案个案a b c d e 1234x x x x x x x x xx x x x x x x xx x x x x x x x x x x x x 集结式层次聚类方法之最小方差法(最小方差法(minimum variance methodn此法先将每一个事物看作一个此法先将每一个事物看作一个“类类”,然后将各,然后将各“类类”依序合并,合并依序合并,合并之顺序视合并后之顺序视合并后“类类”之组内总变异数的大小而定。凡使组内总变异数之组内总变异数的大小而定。凡使组内总变异数产生最小增量的事

27、物即予优先合并,越早合并之事物表示其间的相似性产生最小增量的事物即予优先合并,越早合并之事物表示其间的相似性越高。越高。四、非层次聚类分析以“快速聚类法”为例n在层次聚类方法中,如前所述,在层次聚类方法中,如前所述,“类类”一旦形成,便不再打散。而非层次聚一旦形成,便不再打散。而非层次聚类方法则在各阶段分类过程中,将原有的类方法则在各阶段分类过程中,将原有的“类类”予以打散,并重新形成新的予以打散,并重新形成新的“类类”。n快速聚类法作为采用最广的非层次聚类方法,其演算步骤如下:快速聚类法作为采用最广的非层次聚类方法,其演算步骤如下:n1、将各事物点分割成个原始、将各事物点分割成个原始“类类”

28、;n2、计算某一事物点到各、计算某一事物点到各“类类”重心(平均数)的距离(通常采用欧几里得重心(平均数)的距离(通常采用欧几里得距离),然后将一些事物点分派到距离最近的那个距离),然后将一些事物点分派到距离最近的那个“类类”。重新计算得到新。重新计算得到新事物点的那个事物点的那个“类类”和丧失该事物点的那个和丧失该事物点的那个“类类”的重心。的重心。n3、重复第、重复第2个步骤,直到各事物点都不必重新分派到其他个步骤,直到各事物点都不必重新分派到其他“类类”为止。为止。n我们也可以不必先将各事物点分割成我们也可以不必先将各事物点分割成k个原始的个原始的“类类”(步骤步骤1),而可先设,而可先

29、设定定k个重心(种子点),然后进行步骤个重心(种子点),然后进行步骤2。n注意:快速聚类只能对个案进行聚类。注意:快速聚类只能对个案进行聚类。举例分析快速聚类方法n表表11-1 n=12个个案、个个案、m=3个特征变量的数据文件(个特征变量的数据文件(Id为个案的标识变量)为个案的标识变量)IdX1X2X31a2420252b2017223c2019244d2520245e2218236f2117217g2119258h2217229i21182310j24202511k22192312l211722用于K-Means 聚类分析的资料,必须满足的条件n1、至少具有一个特征变量,即、至少具有一个

30、特征变量,即m1;n2、每一个特征变量的数据都是等距计量(可以求平均数的);、每一个特征变量的数据都是等距计量(可以求平均数的);n3、具有一个诸如姓名或编号等能够用来辨别个案的标识变量,以便了解某、具有一个诸如姓名或编号等能够用来辨别个案的标识变量,以便了解某一个案最终被划归与哪一类属;一个案最终被划归与哪一类属;n4、类属数目、类属数目K=2,是由研究者根据需要选定的,但是类属数目必须少于,是由研究者根据需要选定的,但是类属数目必须少于个案的数目,也就是样本容量必须大于类属数目,即个案的数目,也就是样本容量必须大于类属数目,即K=4时的时的m 维空间就比较抽象了,对它的理解就维空间就比较抽

31、象了,对它的理解就比较地困难。比较地困难。 K-Means 聚类分析的基本过程n1、根据、根据“类与类之间有尽可能大的差异类与类之间有尽可能大的差异”的原则,选择的原则,选择k 个个案作为聚类的个个案作为聚类的“种子种子”(它(它们又被称为初始类中心),可以由研究者经验地指定们又被称为初始类中心),可以由研究者经验地指定k个特征突出的个案,也可以是缺省地个特征突出的个案,也可以是缺省地由由SPSS代为选定。代为选定。n2、根据与初始类中心、根据与初始类中心“距离最小距离最小”的原则,将的原则,将m维空间中的维空间中的n个点子(个案)分别个点子(个案)分别“就近就近”划归于划归于k个初始类之中。

32、个初始类之中。n3、在每一个初始类中求它的、在每一个初始类中求它的m个特征变量的平均数,并且把以个特征变量的平均数,并且把以m个平均数为坐标的点作为个平均数为坐标的点作为新的类中心。新的类中心。n4、再根据与类中心、再根据与类中心“距离最小距离最小”的原则,将的原则,将m 维空间中的维空间中的 n个点子(个案)重新分别个点子(个案)重新分别“就就近近”划归于划归于k个新的类属之中。个新的类属之中。n5、再在每一个类属中求、再在每一个类属中求m个特征变量的平均数,并且把以个特征变量的平均数,并且把以m个平均数为坐标的点作为更新个平均数为坐标的点作为更新一代的类重心,再根据与类中心一代的类重心,再

33、根据与类中心“距离最小距离最小”的原则重新划归各个个案的原则重新划归各个个案. 如此反复迭代如此反复迭代下去,直至达成了预先设定的(尽可能小的类内差异,尽可能大的类间差别)下去,直至达成了预先设定的(尽可能小的类内差异,尽可能大的类间差别)“收敛收敛”指标,指标,或者是完成了预先设定的迭代次数,聚类工作结束。或者是完成了预先设定的迭代次数,聚类工作结束。一、一、Q Q聚类分析的聚类分析的SPSSSPSS过程过程第一步:第一步:数据文件的准备。数据文件的准备。Q聚类分析是根据一系列观测变聚类分析是根据一系列观测变量的测量值对个案进行分类,分类的依据是个案之间的量的测量值对个案进行分类,分类的依据

34、是个案之间的“距距离离”。聚类之前的数据文件包括:。聚类之前的数据文件包括:n个个案的个个案的k个观测值。个观测值。第二步:第二步:点击点击“Analyze”菜单选中菜单选中“Classify”的的“HierarchicalCluster Analysis”,打开对话框。将参与聚类分析的观测变量打开对话框。将参与聚类分析的观测变量置入置入“Variable(s)”下的方框中,同时在下的方框中,同时在 Cluster 之下选择之下选择Cases。然后选中。然后选中“Statistics”和和“Plots”。第三步:第三步:点击点击“Method”打开聚类分析的距离计算方法设置对打开聚类分析的距离

35、计算方法设置对话框话框 ,以实现对小类间距离,以实现对小类间距离 、个案间距离计算方法的设置、个案间距离计算方法的设置 ,同时对量纲不一致情况下的变量观测值进行转换:同时对量纲不一致情况下的变量观测值进行转换:(1) 小类间距离计算:默认方式是类间平均链锁法(小类间距离计算:默认方式是类间平均链锁法(Between-Groups linkage) ,这种方法最充分地使用了数据资料;,这种方法最充分地使用了数据资料;(2) 个案间距离计算:个案间距离计算: 观测变量为连续变量,默认方法:欧氏距离平方;观测变量为连续变量,默认方法:欧氏距离平方; 观测变量为顺序或名义变量,默认方法:卡方测量方法;

36、观测变量为顺序或名义变量,默认方法:卡方测量方法; 观测变量为二项选择变量观测变量为二项选择变量, 默认方法:二元欧氏距离平方。默认方法:二元欧氏距离平方。(3) 如果观测变量的量纲不一致,还需设置对不同量纲变量进如果观测变量的量纲不一致,还需设置对不同量纲变量进标准化处理。默认状态是标准化处理。默认状态是“none”,需要时可以选择需要时可以选择“Z-scores”,这是使用最广泛、最直观的转换方法这是使用最广泛、最直观的转换方法 。在进行量纲转换时。在进行量纲转换时 ,要选择要选择“By cases”表明是属于表明是属于Q聚类分析中的量纲转换。聚类分析中的量纲转换。第四步:第四步:指定图形

37、输出。层次聚类分析的图形结果有两种形指定图形输出。层次聚类分析的图形结果有两种形式式(1)树形图()树形图(Dendrogram),它可以展现聚类分析的每一它可以展现聚类分析的每一次合并过程,次合并过程,SPSS首先将各类之间的距离重新转换到首先将各类之间的距离重新转换到 025之间之间 ,然后表现在图上,然后表现在图上 。此图可以粗略地表现聚类的过程。此图可以粗略地表现聚类的过程 ;(2)冰柱图()冰柱图(Icicle), 包括纵向冰柱图(包括纵向冰柱图(Vertical) 和横向和横向冰柱图冰柱图(Horizontal) 。冰柱图用。冰柱图用X符号来表示聚类过程符号来表示聚类过程 , 其选

38、其选择包括:全部、部分、无。择包括:全部、部分、无。第五步:第五步:显示凝聚状态表。点击层次聚类分析对话框中的显示凝聚状态表。点击层次聚类分析对话框中的“statistics”可以打开设置凝聚状态对话框。可以打开设置凝聚状态对话框。(1) 选中选中“Agglomeration schedule”,可以输出聚类分析,可以输出聚类分析详细过程,即每一阶段完成的是哪些个案或小类间的聚集;详细过程,即每一阶段完成的是哪些个案或小类间的聚集;(2)选中)选中“Proximity matrix”,可以输出各个案的距离矩阵;可以输出各个案的距离矩阵;(3)设置个案归属结果显示状态:)设置个案归属结果显示状态

39、: 选中选中none,不显示个案归属情况;,不显示个案归属情况; 选中选中Single solution,则显示聚集成指定的,则显示聚集成指定的n类时个案类时个案 归属情况;归属情况; 选中选中Range of solutions,则显示聚集成,则显示聚集成n1到到n2范围内范围内 的各种情况下的个案归属情况。的各种情况下的个案归属情况。第六步:第六步:设定保存层次聚类分析的结果。点击层次聚类分析设定保存层次聚类分析的结果。点击层次聚类分析对话框中的对话框中的“save”可以打开设置保存分类结果的对话框。在可以打开设置保存分类结果的对话框。在“Cluster membership”下边:下边:

40、 选中选中None,不保存聚类结果到数据编辑窗口;,不保存聚类结果到数据编辑窗口; 选中选中Single solution,则保存聚集成指定的,则保存聚集成指定的n类时个案类时个案 归属结果;归属结果; 选中选中Range of solutions,则显示聚集成,则显示聚集成n1到到n2范围内范围内 的各种情况下的个案归属结果。的各种情况下的个案归属结果。 OK! 实例分析:根据实例分析:根据20名被试在不同色光刺激下选择反应时间的反名被试在不同色光刺激下选择反应时间的反应模式,对其进行类型划分。实验数据如下表所示:应模式,对其进行类型划分。实验数据如下表所示:IDREDGREENBLUEYE

41、LLOW1 14104103893894504504904902 23563563603603913914064063 34124124224224804804654654 43203203503504004004204205 53803803903904254254604606 63903904564564554554334337 74124124504504404404554558 83563563833834004004104109 940540539039049049045045010103883884104104264264104101111378378410410426426409

42、409121230030035035040040042042013134124124204204904905235231414420420430430451451480480151536836839039038938940340316163903904004004204205095091717405405380380510510489489181839039039039042842847647619194004003803805005004554552020420420400400486486505505SPSSSPSS过程演示过程演示二、二、R R聚类分析的聚类分析的SPSSSPSS过程过程

43、 R 层次聚类分析对研究对象的观察变量进行分类,它使得层次聚类分析对研究对象的观察变量进行分类,它使得具有共同特征的变量聚集在一起,以便选择其中具有代表性的具有共同特征的变量聚集在一起,以便选择其中具有代表性的变量,实现用较少变量刻画研究对象的目的。变量,实现用较少变量刻画研究对象的目的。 R聚类分析的过程与聚类分析的过程与Q 聚类分析的过程是一致的聚类分析的过程是一致的 ,只是在,只是在打开打开“Hierarchical Cluster Analysis” 的对话框中选的对话框中选“Variables”的聚类。在变量间距离的计算方法上选的聚类。在变量间距离的计算方法上选“Pearson Co

44、rrelation” ,其他操作与,其他操作与Q聚类相同。聚类相同。三、快速聚类分析的三、快速聚类分析的SPSSSPSS过程过程 快速聚类分析是由研究者指定类别数的大样本资料逐步聚类分快速聚类分析是由研究者指定类别数的大样本资料逐步聚类分析。它先对数据进行初始分类,然后逐步调整,得到最终分类。快析。它先对数据进行初始分类,然后逐步调整,得到最终分类。快速聚类分析一般是对个案来进行的。对于变量分类来说,当变量较速聚类分析一般是对个案来进行的。对于变量分类来说,当变量较少时可以使用层次聚类分析中的少时可以使用层次聚类分析中的R聚类分析;当变量数比较多时则聚类分析;当变量数比较多时则可以使用因素分析

45、。可以使用因素分析。 快速聚类分析也是以个案的距离为基础的,与层次聚类分析不快速聚类分析也是以个案的距离为基础的,与层次聚类分析不同的是:快速聚类分析要指定分类的类别数。快速聚类分析的逻辑同的是:快速聚类分析要指定分类的类别数。快速聚类分析的逻辑程序是:程序是:第一步:第一步:数据文件的准备。快速聚类分析的数据文件往往比数据文件的准备。快速聚类分析的数据文件往往比较大,主要是包括的个案数较多,而且可以包括一个个案的较大,主要是包括的个案数较多,而且可以包括一个个案的标识变量。当数据文件中数据量纲不一致时,则需要对数据标识变量。当数据文件中数据量纲不一致时,则需要对数据进行标准化转换或其他转换。进行标准化转换或其他转换。第二步:第二步:点击点击 “Analyze” 菜单选中菜单选中 “Classify” 的的 “K-MeansCluster”打开快速聚类分析对话框,将参与聚类分析的观测打开快速聚类分析对话框,将参与聚类分析的观测变量置入变量置入 “Va

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论