




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、会计学1spss使用使用(shyng)教程教程 聚类分析与判聚类分析与判别分析别分析第一页,共133页。聚类分析与判别分析的基本概念聚类分析与判别分析的基本概念8.1层次聚类分析中的层次聚类分析中的QQ型聚类型聚类8.2层次聚类分析中的层次聚类分析中的R R型聚类型聚类8.3快速聚类分析快速聚类分析8.4判判 别别 分分 析析8.5第1页/共132页第二页,共133页。 本章介绍统计学中经常使用的分类统计分本章介绍统计学中经常使用的分类统计分析方法析方法聚类分析与判别分析。主要聚类分析与判别分析。主要(zhyo)(zhyo)内容有层次聚类分析、快速聚类分析内容有层次聚类分析、快速聚类分析和判别
2、分析。其中层次聚类分析根据聚类的对和判别分析。其中层次聚类分析根据聚类的对象不同分成象不同分成Q Q型聚类和型聚类和R R型聚类。型聚类。第2页/共132页第三页,共133页。 统计学研究这类问题的常用分类统计方法主统计学研究这类问题的常用分类统计方法主要有聚类分析(要有聚类分析(cluster analysiscluster analysis)与判别分析)与判别分析(discriminant analysisdiscriminant analysis)。其中聚类分析是统)。其中聚类分析是统计学中研究这种计学中研究这种“物以类聚物以类聚”问题的一种问题的一种(y (y zhn)zhn)有效方法
3、,它属于统计分析的范畴。聚类有效方法,它属于统计分析的范畴。聚类分析的实质是建立一种分析的实质是建立一种(y zhn)(y zhn)分类方法,它分类方法,它能够将一批样本数据按照他们在性质上的亲密程能够将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。这里度在没有先验知识的情况下自动进行分类。这里所说的类就是一个具有相似性的个体的集合,不所说的类就是一个具有相似性的个体的集合,不同类之间具有明显的区别。同类之间具有明显的区别。第3页/共132页第四页,共133页。 聚类分析是一种聚类分析是一种(y zhn)(y zhn)探索性的分探索性的分析,在分类的过程中,人们不必
4、事先给出一析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚对于同一组数据进行聚类分析,所得到的聚类数未必一致。因此我们说聚类分析是一种类数未必一致。因此我们说聚类分析是一种(y zhn)(y zhn)探索性的分析方法。探索性的分析方法。第4页/共132页第五页,共133页。 对个案的聚类分析类似于判别分析,都是对个案的聚类分析类似于判别分析,
5、都是将一些观察个案进行分类。聚类分析时,个案将一些观察个案进行分类。聚类分析时,个案所属的群组特点还未知。也就是说,在聚类分所属的群组特点还未知。也就是说,在聚类分析之前,研究者还不知道独立观察组可以分成析之前,研究者还不知道独立观察组可以分成(fn chn)(fn chn)多少个类,类的特点也无所得知。多少个类,类的特点也无所得知。第5页/共132页第六页,共133页。 变量变量(binling)(binling)的聚类分析类似于因素分的聚类分析类似于因素分析。两者都可用于辨别变量析。两者都可用于辨别变量(binling)(binling)的相关的相关组别。不同在于,因素分析在合并变量组别。
6、不同在于,因素分析在合并变量(binling)(binling)的时候,是同时考虑所有变量的时候,是同时考虑所有变量(binling)(binling)之间的关系;而变量之间的关系;而变量(binling)(binling)的聚类分析,则采用层次式的判别方式,根据的聚类分析,则采用层次式的判别方式,根据个别变量个别变量(binling)(binling)之间的亲疏程度逐次进行之间的亲疏程度逐次进行聚类。聚类。第6页/共132页第七页,共133页。 聚类分析的方法,主要有两种,一种是聚类分析的方法,主要有两种,一种是“快速快速聚类分析方法聚类分析方法”(K KMeans Cluster Anal
7、y- sisMeans Cluster Analy- sis),另一种是,另一种是“层次聚类分析方法层次聚类分析方法”(Hierarchical Hierarchical Cluster AnalysisCluster Analysis)。如果观察值的个数多或文件)。如果观察值的个数多或文件非常庞大非常庞大(pngd)(pngd)(通常观察值在(通常观察值在200200个以上),则个以上),则宜采用快速聚类分析方法。因为观察值数目巨大,宜采用快速聚类分析方法。因为观察值数目巨大,层次聚类分析的两种判别图形会过于分散,不易解层次聚类分析的两种判别图形会过于分散,不易解释。释。第7页/共132页第
8、八页,共133页。 判别分析是一种有效的对个案进行分类分析判别分析是一种有效的对个案进行分类分析的方法。和聚类分析不同的是,判别分析时,组的方法。和聚类分析不同的是,判别分析时,组别的特征已知。如银行为了对贷款进行管理,需别的特征已知。如银行为了对贷款进行管理,需要预测哪些类型要预测哪些类型(lixng)(lixng)的客户可能不会按时归的客户可能不会按时归还贷款。已知过去几年中,还贷款。已知过去几年中,900900个客户的贷款归还个客户的贷款归还信誉度,据此可以将客户分成两组:可靠客户和信誉度,据此可以将客户分成两组:可靠客户和不可靠客户。不可靠客户。 第8页/共132页第九页,共133页。
9、 再通过收集客户的一些资料,如年龄、工资再通过收集客户的一些资料,如年龄、工资收入、教育收入、教育(jioy)(jioy)程度、存款等,将这些资料程度、存款等,将这些资料作为自变量。通过判别分析,建立判别函数。那作为自变量。通过判别分析,建立判别函数。那么,如果有么,如果有150150个新的客户提交贷款请求,就可以个新的客户提交贷款请求,就可以利用创建好的判别函数,对新的客户进行分析,利用创建好的判别函数,对新的客户进行分析,从而判断新的客户是属于可靠客户类,还是不可从而判断新的客户是属于可靠客户类,还是不可靠客户类。靠客户类。第9页/共132页第十页,共133页。 层次聚类分析是根据观察层次
10、聚类分析是根据观察(gunch)(gunch)值或变量之值或变量之间的亲疏程度,将最相似的对象结合在一起,以逐间的亲疏程度,将最相似的对象结合在一起,以逐次聚合的方式(次聚合的方式(Agglomerative ClusteringAgglomerative Clustering),它),它将观察将观察(gunch)(gunch)值分类,直到最后所有样本都聚成值分类,直到最后所有样本都聚成一类。一类。第10页/共132页第十一页,共133页。 层次聚类分析有两种形式,一种是对样本(个层次聚类分析有两种形式,一种是对样本(个案)进行分类,称为案)进行分类,称为Q Q型聚类,它使具有共同特点的型聚类
11、,它使具有共同特点的样本聚齐在一起,以便对不同类样本聚齐在一起,以便对不同类(tngli)(tngli)的样本进的样本进行分析;另一种是对研究对象的观察变量进行分类行分析;另一种是对研究对象的观察变量进行分类,称为,称为R R型聚类。它使具有共同特征的变量聚在一起型聚类。它使具有共同特征的变量聚在一起,以便从不同类,以便从不同类(tngli)(tngli)中分别选出具有代表性的中分别选出具有代表性的变量作分析,从而减少分析变量的个数。变量作分析,从而减少分析变量的个数。 第11页/共132页第十二页,共133页。 本节讲述本节讲述Q Q型聚类的原理型聚类的原理(yunl)(yunl)和和SPS
12、SSPSS的实现过程,下一节将讲述的实现过程,下一节将讲述R R型聚类的实现过型聚类的实现过程。程。第12页/共132页第十三页,共133页。 定义:层次聚类分析中的定义:层次聚类分析中的Q Q型聚类,它使具型聚类,它使具有共同有共同(gngtng)(gngtng)特点的样本聚齐在一起,以特点的样本聚齐在一起,以便对不同类的样本进行分析。便对不同类的样本进行分析。第13页/共132页第十四页,共133页。 层次聚类分析中,测量样本之间的亲疏层次聚类分析中,测量样本之间的亲疏(qn sh)(qn sh)程度是关键。聚类的时候会涉及到程度是关键。聚类的时候会涉及到两种类型亲疏两种类型亲疏(qn s
13、h)(qn sh)程度的计算:一种是程度的计算:一种是样本数据之间的亲疏样本数据之间的亲疏(qn sh)(qn sh)程度,一种是程度,一种是样本数据与小类、小类与小类之间的亲疏样本数据与小类、小类与小类之间的亲疏(qn sh)(qn sh)程度。下面讲述这两种类型亲疏程度。下面讲述这两种类型亲疏(qn sh)(qn sh)程度的计算方法和公式。程度的计算方法和公式。第14页/共132页第十五页,共133页。 计算公式如下。计算公式如下。 样本数据之间的亲疏程度主要通过样本之间样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。的距离、样本间的相关系数来度量。SPSSSPSS
14、根据变根据变量数据类型的不同,采用不同的测定量数据类型的不同,采用不同的测定(cdng)(cdng)亲亲疏程度的方法。疏程度的方法。第15页/共132页第十六页,共133页。 样本若有样本若有k k个变量,则可以将样本看成是个变量,则可以将样本看成是一个一个k k维的空间的一个点,样本和样本之间的维的空间的一个点,样本和样本之间的距离距离(jl)(jl)就是就是k k维空间点和点之间的距离维空间点和点之间的距离(jl)(jl),这反映了样本之间的亲疏程度。聚,这反映了样本之间的亲疏程度。聚类时,距离类时,距离(jl)(jl)相近的样本属于一个类,相近的样本属于一个类,距离距离(jl)(jl)远
15、的样本属于不同类。远的样本属于不同类。1连续变量的样本连续变量的样本(yngbn)距离测距离测量方法量方法第16页/共132页第十七页,共133页。 (1 1)欧氏距离()欧氏距离(Euclidean DistanceEuclidean Distance)两个两个(lin )(lin )样本之间的欧氏距离是样本各个样本之间的欧氏距离是样本各个变量值之差的平方和的平方根,计算公式为变量值之差的平方和的平方根,计算公式为第17页/共132页第十八页,共133页。 (2 2)欧氏距离)欧氏距离(jl)(jl)平方(平方(Squared Squared Euclidean DistanceEuclid
16、ean Distance) 两个样本之间的欧氏距离两个样本之间的欧氏距离(jl)(jl)平方是各样本平方是各样本每个变量值之差的平方和,计算公式为每个变量值之差的平方和,计算公式为第18页/共132页第十九页,共133页。 (3 3)ChebychevChebychev距离距离(jl)(jl) 两个样本之间的两个样本之间的ChebychevChebychev距离距离(jl)(jl)是各是各样本所有变量值之差绝对值中的最大值,计算公样本所有变量值之差绝对值中的最大值,计算公式为式为第19页/共132页第二十页,共133页。 (4 4)BlockBlock距离距离(jl)(jl) 两个样本之间的两
17、个样本之间的BlockBlock距离距离(jl)(jl)是各样本所是各样本所有变量值之差绝对值的总和,计算公式为有变量值之差绝对值的总和,计算公式为第20页/共132页第二十一页,共133页。 (5 5)MinkowskiMinkowski距离距离 两个样本之间的两个样本之间的MinkowskiMinkowski距离是各样本所有距离是各样本所有(suyu)(suyu)变量值之差绝对值的变量值之差绝对值的p p次方的总和,再求次方的总和,再求p p次方根。计算公式为次方根。计算公式为第21页/共132页第二十二页,共133页。 (6 6)CustomizedCustomized距离(用户自定义距
18、离)距离(用户自定义距离) 两个样本之间的两个样本之间的CustomizedCustomized距离是各样本距离是各样本所有变量值之差绝对值的所有变量值之差绝对值的p p次方的总和次方的总和(zngh)(zngh),再求,再求q q次方根。计算公式为次方根。计算公式为第22页/共132页第二十三页,共133页。 连续变量亲疏连续变量亲疏(qn sh)(qn sh)程度的度量,除了上面程度的度量,除了上面的各种距离外,还可以计算其他统计指标。如的各种距离外,还可以计算其他统计指标。如PearsonPearson相关系数、相关系数、SosineSosine相似度等。相似度等。2连续变量的样本亲疏程
19、度连续变量的样本亲疏程度(chngd)的其他测的其他测量方法量方法第23页/共132页第二十四页,共133页。第24页/共132页第二十五页,共133页。3顺序或名义顺序或名义(mngy)变量的样本亲疏变量的样本亲疏程度测量方法程度测量方法 对于此类变量,可以计算一些有关相似对于此类变量,可以计算一些有关相似性的统计指标来测定样本间的亲疏程度。也性的统计指标来测定样本间的亲疏程度。也可以通过下面可以通过下面(xi mian)(xi mian)两个计算公式来得两个计算公式来得到。到。第25页/共132页第二十六页,共133页。第26页/共132页第二十七页,共133页。第27页/共132页第二十
20、八页,共133页。4样本数据样本数据(shj)与小类、小类与小类之与小类、小类与小类之间的亲疏程度测量方法间的亲疏程度测量方法 SPSS SPSS默认的变量为默认的变量为Var00001Var00001、Var00002Var00002等等,用户也可以根据自己的需要来命名,用户也可以根据自己的需要来命名(mng (mng mng)mng)变量。变量。SPSSSPSS变量的命名变量的命名(mng mng)(mng mng)和一和一般的编程语言一样,有一定的命名般的编程语言一样,有一定的命名(mng mng)(mng mng)规则,具体内容如下。规则,具体内容如下。第28页/共132页第二十九页,
21、共133页。 所谓小类,是在聚类过程中根据样本之间亲疏所谓小类,是在聚类过程中根据样本之间亲疏程度形成的中间类,小类和样本、小类与小类继续程度形成的中间类,小类和样本、小类与小类继续聚合聚合(jh)(jh),最终将所有样本都包括在一个大类中,最终将所有样本都包括在一个大类中。 在在SPSSSPSS聚类运算过程中,需要计算样本与小类聚类运算过程中,需要计算样本与小类、小类与小类之间的亲疏程度。、小类与小类之间的亲疏程度。SPSSSPSS提供了多种计提供了多种计算方法(计算规则)。算方法(计算规则)。 第29页/共132页第三十页,共133页。 (1 1)最短距离法()最短距离法(Nearest
22、NeighborNearest Neighbor) 以当前某个以当前某个(mu )(mu )样本与已经形成小类样本与已经形成小类中的各样本距离的最小值作为当前样本与该小中的各样本距离的最小值作为当前样本与该小类之间的距离。类之间的距离。第30页/共132页第三十一页,共133页。 (2 2)最长距离法()最长距离法(Furthest NeighborFurthest Neighbor) 以当前某个样本以当前某个样本(yngbn)(yngbn)与已经形成小与已经形成小类中的各样本类中的各样本(yngbn)(yngbn)距离的最大值作为当距离的最大值作为当前样本前样本(yngbn)(yngbn)与
23、该小类之间的距离。与该小类之间的距离。第31页/共132页第三十二页,共133页。 (3 3)类间平均链锁法()类间平均链锁法(Between-groups Between-groups LinkageLinkage) 两个小类之间的距离为两个小类内所有两个小类之间的距离为两个小类内所有(suyu)(suyu)样本间的平均距离。样本间的平均距离。第32页/共132页第三十三页,共133页。 (4 4)类内平均)类内平均(pngjn)(pngjn)链锁法(链锁法(Within-Within-groups Linkagegroups Linkage) 与小类间平均与小类间平均(pngjn)(png
24、jn)链锁法类似,这里的链锁法类似,这里的平均平均(pngjn)(pngjn)距离是对所有样本对的距离求平均距离是对所有样本对的距离求平均(pngjn)(pngjn)值,包括小类之间的样本对、小类内的值,包括小类之间的样本对、小类内的样本对。样本对。第33页/共132页第三十四页,共133页。 (5 5)重心法()重心法(Centroid ClusteringCentroid Clustering) 将两小类间的距离定义将两小类间的距离定义(dngy)(dngy)成两小类重成两小类重心间的距离。每一小类的重心就是该类中所有样心间的距离。每一小类的重心就是该类中所有样本在各个变量上的均值代表点。
25、本在各个变量上的均值代表点。第34页/共132页第三十五页,共133页。 (6 6)离差平方和法()离差平方和法(Wards MethodWards Method) 小类合并的方法:在聚类过程中,使小类内各小类合并的方法:在聚类过程中,使小类内各个样本的欧氏距离个样本的欧氏距离(jl)(jl)总平方和增加最小的两小总平方和增加最小的两小类合并成一类。类合并成一类。第35页/共132页第三十六页,共133页。 研究问题研究问题 对一个班同学的数学水平进行聚类。聚对一个班同学的数学水平进行聚类。聚类的依据是第一次数学考试的成绩类的依据是第一次数学考试的成绩(chngj)(chngj)和入学考试的成
26、绩和入学考试的成绩(chngj)(chngj)。数据如表。数据如表8-18-1所示。所示。第36页/共132页第三十七页,共133页。姓姓 名名数数 学学入入 学学 成成 绩绩hxh99.0098.00yaju88.0089.00yu79.0080.00shizg89.0078.00hah75.0078.00john60.0065.00watet79.0087.00jess75.0076.00wish60.0056.00Iiakii100.00100.00第37页/共132页第三十八页,共133页。 实现实现(shxin)(shxin)步骤步骤第38页/共132页第三十九页,共133页。第39
27、页/共132页第四十页,共133页。第40页/共132页第四十一页,共133页。第41页/共132页第四十二页,共133页。第42页/共132页第四十三页,共133页。第43页/共132页第四十四页,共133页。 由于本例中选中的选项较多,这里按照由于本例中选中的选项较多,这里按照各个各个(gg)(gg)结果分别解释。结果分别解释。 (1 1)首先是层次聚类分析的概要结果,)首先是层次聚类分析的概要结果,该结果是该结果是SPSSSPSS输出结果文件中的第一个表格输出结果文件中的第一个表格,如下表所示。,如下表所示。第44页/共132页第四十五页,共133页。 (2 2)输出的结果)输出的结果(
28、ji gu)(ji gu)文件中第二个文件中第二个表格如下表所示。表格如下表所示。第45页/共132页第四十六页,共133页。 (3 3)输出的结果文件)输出的结果文件(wnjin)(wnjin)中第三个表格中第三个表格为层次聚类分析的凝聚状态表,包括:为层次聚类分析的凝聚状态表,包括:第46页/共132页第四十七页,共133页。 (4 4)输出的结果文件)输出的结果文件(wnjin)(wnjin)中第四个表中第四个表格如下表所示。格如下表所示。第47页/共132页第四十八页,共133页。 (5 5)输出的结果文件)输出的结果文件(wnjin)(wnjin)中第五个表中第五个表格如下表所示。格
29、如下表所示。第48页/共132页第四十九页,共133页。 (6 6)输出的结果文件)输出的结果文件(wnjin)(wnjin)中第六部分中第六部分如图如图8-78-7所示。所示。第49页/共132页第五十页,共133页。 (7 7)由于对图)由于对图8-6“Hierarchical Cluster 8-6“Hierarchical Cluster Analysis: Save New Var”Analysis: Save New Var”对话框进行了设置,对话框进行了设置,将聚类成三类时,各个样本的类归属情况保存为将聚类成三类时,各个样本的类归属情况保存为一个变量一个变量(binling)(b
30、inling),因此在,因此在SPSSSPSS数据编辑窗口数据编辑窗口中就新增了一个变量中就新增了一个变量(binling)(binling)的值,如图的值,如图8-88-8所示。所示。第50页/共132页第五十一页,共133页。第51页/共132页第五十二页,共133页。 定义:层次聚类分析中的定义:层次聚类分析中的R R型聚类是对研究对象型聚类是对研究对象的观察变量进行分类,它使具有的观察变量进行分类,它使具有(jyu)(jyu)共同特征的共同特征的变量聚在一起。以便可以从不同类中分别选出具有变量聚在一起。以便可以从不同类中分别选出具有(jyu)(jyu)代表性的变量作分析,从而减少分析变
31、量的代表性的变量作分析,从而减少分析变量的个数。个数。第52页/共132页第五十三页,共133页。 计算公式:计算公式:R R型聚类的计算公式和型聚类的计算公式和Q Q型聚类型聚类的计算公式是类似的,不同的是的计算公式是类似的,不同的是R R型聚类是对变型聚类是对变量间进行距离量间进行距离(jl)(jl)的计算,的计算,Q Q型聚类则是对样型聚类则是对样本间进行距离本间进行距离(jl)(jl)的计算。的计算。第53页/共132页第五十四页,共133页。 研究问题研究问题 对一个对一个(y )(y )班同学的各科成绩进行聚类,班同学的各科成绩进行聚类,分析哪些课程是属于一个分析哪些课程是属于一个
32、(y )(y )类的。聚类的依类的。聚类的依据是据是4 4门功课的考试成绩,数据如表门功课的考试成绩,数据如表8-28-2所示。所示。第54页/共132页第五十五页,共133页。姓姓 名名数数 学学物物 理理语语 文文政政 治治hxh99.0098.0078.0080.00yaju88.0089.0089.0090.00yu79.0080.0095.0097.00shizg89.0078.0081.0082.00hah75.0078.0095.0096.00john60.0065.0085.0088.00watet79.0087.0050.0051.00jess75.0076.0088.008
33、9.00wish60.0056.0089.0090.00Iiakii100.00100.0085.0084.00第55页/共132页第五十六页,共133页。 实现实现(shxin)(shxin)步骤步骤第56页/共132页第五十七页,共133页。第57页/共132页第五十八页,共133页。第58页/共132页第五十九页,共133页。第59页/共132页第六十页,共133页。第60页/共132页第六十一页,共133页。 (1 1)首先是层次)首先是层次R R型聚类分析的结果,该结型聚类分析的结果,该结果是果是SPSSSPSS输出输出(shch)(shch)结果文件中的第一个表格结果文件中的第一个
34、表格。第61页/共132页第六十二页,共133页。 (2 2)输出的结果)输出的结果(ji gu)(ji gu)文件中第二文件中第二个表格如下表所示。个表格如下表所示。第62页/共132页第六十三页,共133页。 (3 3)输出)输出(shch)(shch)的结果文件中第三个表格的结果文件中第三个表格如下表所示。如下表所示。第63页/共132页第六十四页,共133页。 (4 4)输出)输出(shch)(shch)的结果文件中第四个表格的结果文件中第四个表格如下表所示。如下表所示。第64页/共132页第六十五页,共133页。 (5 5)输出的结果文件)输出的结果文件(wnjin)(wnjin)中
35、第五中第五个表格如下表所示。个表格如下表所示。第65页/共132页第六十六页,共133页。 (6 6)输出的结果文件)输出的结果文件(wnjin)(wnjin)中第六部分如中第六部分如下:下:第66页/共132页第六十七页,共133页。 SPSS SPSS层次聚类分析对计算机的要求比较高,层次聚类分析对计算机的要求比较高,在大样本的情况下,可以采用快速在大样本的情况下,可以采用快速(kui s)(kui s)聚类聚类分析的方法。采用快速分析的方法。采用快速(kui s)(kui s)聚类分析,得到聚类分析,得到的结果比较简单易懂,对计算机的性能要求也不的结果比较简单易懂,对计算机的性能要求也不
36、高,因此应用也比较广。高,因此应用也比较广。第67页/共132页第六十八页,共133页。 定义:快速定义:快速(kui s)(kui s)聚类分析是由用户指聚类分析是由用户指定类别数的大样本资料的逐步聚类分析。它先定类别数的大样本资料的逐步聚类分析。它先对数据进行初始分类,然后逐步调整,得到最对数据进行初始分类,然后逐步调整,得到最终分类。快速终分类。快速(kui s)(kui s)聚类分析的实质是聚类分析的实质是K-K-MeanMean聚类。聚类。 第68页/共132页第六十九页,共133页。 和层次聚类分析一致,快速聚类分析也以距离和层次聚类分析一致,快速聚类分析也以距离为样本间亲疏程度的
37、标志。但两者的不同在于:层为样本间亲疏程度的标志。但两者的不同在于:层次聚类可以对不同的聚类类数产生一系列的聚类解次聚类可以对不同的聚类类数产生一系列的聚类解,而快速聚类只能产生固定类数的聚类解,类数需,而快速聚类只能产生固定类数的聚类解,类数需要用户事先要用户事先(shxin)(shxin)指定。指定。第69页/共132页第七十页,共133页。 另外,在快速聚类分析中,用户可以自己另外,在快速聚类分析中,用户可以自己指定初始的类中心点。如果指定初始的类中心点。如果(rgu)(rgu)用户的经验用户的经验比较丰富,则可以指定比较合理的初始类中心比较丰富,则可以指定比较合理的初始类中心点,否则,
38、需要增加迭代的次数,以保证最终点,否则,需要增加迭代的次数,以保证最终聚类结果的准确性。聚类结果的准确性。第70页/共132页第七十一页,共133页。 计算公式如下。计算公式如下。 快速聚类分析计算过程如下。快速聚类分析计算过程如下。 首先需要用户指定聚类成多少类(比如首先需要用户指定聚类成多少类(比如k k类类)。)。 然后然后SPSSSPSS确定确定k k个类的初始类中心点。个类的初始类中心点。SPSSSPSS会根据样本数据的实际会根据样本数据的实际(shj)(shj)情况,选择情况,选择k k个由代个由代表性的样本数据作为初始类中心。初始类中心也可表性的样本数据作为初始类中心。初始类中心
39、也可以由用户自行指定,需要指定以由用户自行指定,需要指定K K组样本数据作为初始组样本数据作为初始类中心点。类中心点。第71页/共132页第七十二页,共133页。 计算所有样本数据计算所有样本数据(shj)(shj)点到点到k k个类中心个类中心点的欧氏距离,点的欧氏距离,SPSSSPSS按照距按照距k k个类中心点距离最短个类中心点距离最短原则,把所有样本分派到各中心点所在的类中,原则,把所有样本分派到各中心点所在的类中,形成一个新的形成一个新的k k类,完成一次迭代过程。其中欧氏类,完成一次迭代过程。其中欧氏距离(距离(Euclidean DistanceEuclidean Distanc
40、e)的计算公式为)的计算公式为第72页/共132页第七十三页,共133页。第73页/共132页第七十四页,共133页。 SPSS SPSS重新重新(chngxn)(chngxn)确定确定k k个类的中心点个类的中心点。SPSSSPSS计算每个类中各个变量的变量值均值,并计算每个类中各个变量的变量值均值,并以均值点作为新的类中心点。以均值点作为新的类中心点。 重复上面的两步计算过程,直到达到指定重复上面的两步计算过程,直到达到指定的迭代次数或终止迭代的判断要求为止。的迭代次数或终止迭代的判断要求为止。第74页/共132页第七十五页,共133页。 研究问题研究问题 为研究不同公司为研究不同公司(n
41、 s)(n s)的运营特点,调的运营特点,调查了查了1515个公司个公司(n s)(n s)的组织文化、组织氛围的组织文化、组织氛围、领导角色和员工发展、领导角色和员工发展4 4方面的内容。现要将这方面的内容。现要将这1515个公司个公司(n s)(n s)按照其各自的特点分成按照其各自的特点分成4 4种种类型,数据如表类型,数据如表8-38-3所示。所示。第75页/共132页第七十六页,共133页。公公 司司组组 织织 文文 化化组组 织织 氛氛 围围领领 导导 角角 色色员员 工工 发发 展展Microsof80.0085.0075.0090.00IBM 85.0085.0090.0090
42、.00Dell 85.0085.0085.0060.00Apple 90.0090.0075.0090.00联想联想 99.0098.0078.0080.00NPP 88.0089.0089.0090.00北京电子北京电子79.0080.0095.0097.00清华紫光清华紫光89.0078.0081.0082.00北大方正北大方正75.0078.0095.0096.00TCL 60.0065.0085.0088.00娃哈哈娃哈哈 79.0087.0050.0051.00Angel 75.0076.0088.0089.00Hussar 60.0056.0089.0090.00世纪飞扬世纪飞扬1
43、00.00100.0085.0084.00Vinda 61.0064.0089.0060.00第76页/共132页第七十七页,共133页。 实现实现(shxin)(shxin)步骤步骤第77页/共132页第七十八页,共133页。第78页/共132页第七十九页,共133页。第79页/共132页第八十页,共133页。第80页/共132页第八十一页,共133页。第81页/共132页第八十二页,共133页。第82页/共132页第八十三页,共133页。 本例中选中的选项较多,这里按照各个本例中选中的选项较多,这里按照各个结果分别解释。结果分别解释。 (1 1)SPSSSPSS输出结果文件中的第一部分输出
44、结果文件中的第一部分(b fen)(b fen)如下表所示。如下表所示。 第83页/共132页第八十四页,共133页。 (2 2)输出的结果文件中第二)输出的结果文件中第二(d r)(d r)部分如部分如下表所示。下表所示。第84页/共132页第八十五页,共133页。 (3 3)输出的结果文件)输出的结果文件(wnjin)(wnjin)中第三部中第三部分是快速聚类分析后的各个类包含样本的情况分是快速聚类分析后的各个类包含样本的情况。 第85页/共132页第八十六页,共133页。 (4 4)输出的结果)输出的结果(ji gu)(ji gu)文件中第四文件中第四部分如下表所示。部分如下表所示。第8
45、6页/共132页第八十七页,共133页。 (5 5)输出的结果文件)输出的结果文件(wnjin)(wnjin)中第五中第五个部分如下表所示。个部分如下表所示。第87页/共132页第八十八页,共133页。 (6 6)输出的结果文件中第六个部分)输出的结果文件中第六个部分(b fen)(b fen)如下表所示。如下表所示。第88页/共132页第八十九页,共133页。 (7 7)输出结果的最后一个)输出结果的最后一个(y )(y )表格表格列出了列出了4 4个类中分别包括的样本数,如下表所个类中分别包括的样本数,如下表所示。示。第89页/共132页第九十页,共133页。 (8 8)在步骤)在步骤(b
46、zhu)5(bzhu)5中曾指定了将样本所属中曾指定了将样本所属类以及样本和类中心点的距离,作为样本的类以及样本和类中心点的距离,作为样本的2 2个新变个新变量保存到量保存到SPSSSPSS的数据编辑窗口中。的数据编辑窗口中。SPSSSPSS运行后,数运行后,数据编辑窗口如图据编辑窗口如图8-218-21所示,其中我们可以看到新增所示,其中我们可以看到新增加了两个变量(图中加深的两列),分别表示样本加了两个变量(图中加深的两列),分别表示样本所属类以及样本和类中心点的距离。所属类以及样本和类中心点的距离。第90页/共132页第九十一页,共133页。第91页/共132页第九十二页,共133页。
47、前面前面3 3节讲述了不同种聚类分析的方法,不论是节讲述了不同种聚类分析的方法,不论是哪种方法,聚类分析都是直接比较哪种方法,聚类分析都是直接比较(bjio)(bjio)各事物各事物之间的性质,将性质相近的归为一类,将性质差别之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。较大的归入不同的类。第92页/共132页第九十三页,共133页。 本节讲述的判别分析,也是一种比较本节讲述的判别分析,也是一种比较(bjio)(bjio)常用的分类分析方法。判别分析先根据常用的分类分析方法。判别分析先根据已知类别的事物的性质,利用某种技术建立函数已知类别的事物的性质,利用某种技术建立函数式,
48、然后对未知类别的新事物进行判断以将之归式,然后对未知类别的新事物进行判断以将之归入已知的类别中。入已知的类别中。第93页/共132页第九十四页,共133页。 有学者在研究中提出,可以利用判别分析有学者在研究中提出,可以利用判别分析来对聚类分析结果的准确性进行检验。聚类分来对聚类分析结果的准确性进行检验。聚类分析分成析分成(fn chn)(fn chn)几类后,即可以作为判别分几类后,即可以作为判别分析的类别输入,进行判断。析的类别输入,进行判断。第94页/共132页第九十五页,共133页。 定义:判别分析先根据已知类别的事物定义:判别分析先根据已知类别的事物(shw)(shw)的性质(自变量)
49、,建立函数式(自的性质(自变量),建立函数式(自变量的线性组合,即判别函数),然后对未变量的线性组合,即判别函数),然后对未知类别的新事物知类别的新事物(shw)(shw)进行判断以将之归入进行判断以将之归入已知的类别中。已知的类别中。第95页/共132页第九十六页,共133页。 判别分析有如下的假定:判别分析有如下的假定: 预测变量服从预测变量服从(fcng)(fcng)正态分布。正态分布。 预测变量之间没有显著的相关。预测变量之间没有显著的相关。 预测变量的平均值和方差不相关。预测变量的平均值和方差不相关。 预测变量应是连续变量,因变量(类别预测变量应是连续变量,因变量(类别或组别)是间断
50、变量。或组别)是间断变量。 两个预测变量之间的相关性在不同类中两个预测变量之间的相关性在不同类中是一样的。是一样的。第96页/共132页第九十七页,共133页。 在分析的各个在分析的各个(gg)(gg)阶段应把握如下的原阶段应把握如下的原则:则: 事前组别(类)的分类标准(作为判事前组别(类)的分类标准(作为判别分析的因变量)要尽可能准确和可靠,否则别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析会影响判别函数的准确性,从而影响判别分析的效果。的效果。 所分析的自变量应是因变量的重要影所分析的自变量应是因变量的重要影响因素,应该挑选既有重要特性又有区别能力响因素
51、,应该挑选既有重要特性又有区别能力的变量,达到以最少变量而有高辨别能力的目的变量,达到以最少变量而有高辨别能力的目标。标。 初始分析的数目不能太少。初始分析的数目不能太少。第97页/共132页第九十八页,共133页。第98页/共132页第九十九页,共133页。第99页/共132页第一百页,共133页。第100页/共132页第一百零一页,共133页。 这些判别函数是各个独立预测变量的线性组这些判别函数是各个独立预测变量的线性组合。程序自动选择第一个判别函数,以尽可能多合。程序自动选择第一个判别函数,以尽可能多地区别各个类,然后再选择和第一个判别函数独地区别各个类,然后再选择和第一个判别函数独立的
52、第二个判别函数,尽可能多地提供立的第二个判别函数,尽可能多地提供(tgng)(tgng)判别能力。程序将按照这种方式,提供判别能力。程序将按照这种方式,提供(tgng)(tgng)剩下的判别函数。判别函数的个数为剩下的判别函数。判别函数的个数为k k。 第101页/共132页第一百零二页,共133页。第102页/共132页第一百零三页,共133页。 研究问题研究问题 调查了调查了1515个公司的组织文化、领导角色和个公司的组织文化、领导角色和员工发展员工发展3 3个方面内容作为个方面内容作为(zuwi)(zuwi)预测变量,预测变量,因变量为公司对员工的吸引力。为符合研究问因变量为公司对员工的
53、吸引力。为符合研究问题,将公司对员工的吸引力根据被测的实际填题,将公司对员工的吸引力根据被测的实际填答情形,划分为高吸引力组(答情形,划分为高吸引力组(group=1group=1)、中吸)、中吸引力组(引力组(group=2group=2)和低吸引力组()和低吸引力组(group=3group=3)。数据如表。数据如表8-48-4所示。所示。第103页/共132页第一百零四页,共133页。公公 司司组组 织织 文文 化化领领 导导 角角 色色员员 工工 发发 展展GroupMicrosoft80.0075.0090.001IBM85.0090.0090.001Dell85.0085.0060
54、.001Apple90.0075.0090.001联想联想99.0078.0080.001NPP88.0089.0090.002北京电子北京电子79.0095.0097.003清华紫光清华紫光89.0081.0082.001北大方正北大方正75.0095.0096.001TCLE60.0085.0088.003世纪成世纪成79.0050.0051.002Angel75.0088.0089.001Hussar160.0089.0090.003世纪飞扬世纪飞扬100.0085.0084.003Vinda61.0089.0060.003第104页/共132页第一百零五页,共133页。 实现实现(sh
55、xin)(shxin)步骤步骤第105页/共132页第一百零六页,共133页。第106页/共132页第一百零七页,共133页。第107页/共132页第一百零八页,共133页。第108页/共132页第一百零九页,共133页。第109页/共132页第一百一十页,共133页。第110页/共132页第一百一十一页,共133页。第111页/共132页第一百一十二页,共133页。 (1 1)SPSSSPSS输出输出(shch)(shch)结果文件中的第结果文件中的第一部分如下表所示。一部分如下表所示。第112页/共132页第一百一十三页,共133页。 (2 2)输出的结果文件中第二)输出的结果文件中第二(
56、d r)(d r)部分如部分如下表所示。下表所示。 第113页/共132页第一百一十四页,共133页。 (3 3)输出)输出(shch)(shch)的结果文件中第三部分如的结果文件中第三部分如下表所示。下表所示。第114页/共132页第一百一十五页,共133页。 (4 4)输出的结果文件中第四部分)输出的结果文件中第四部分(b fen)(b fen)如下表所示。如下表所示。第115页/共132页第一百一十六页,共133页。 (5 5)输出的结果)输出的结果(ji gu)(ji gu)文件中第五文件中第五个部分为组间的协方差矩阵,如下表所示。个部分为组间的协方差矩阵,如下表所示。第116页/共132页第一百一十七页,共133页。 (6 6)输出的结果文件中第六个部分如下)输出的结果文件中第六个部分如下(rxi)(rxi)两个表格所示。两个表格所示。第117页/共132页第一百一十八页,共133页。 (7 7)输出)输出(shch)(shch)的结果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 单位晋升面试题及答案
- 工作状态面试题及答案
- T/CAEPI 35-2021餐饮业废气排放过程(工况)监控数据采集技术指南
- 市政工程监理总结模版
- 技能人才主题班会实施方案
- 三人合伙分红合同范本
- 单位解除定向就业协议书
- 工地进场安全施工协议书
- 嘉兴临时仓库租赁协议书
- 委托加工终止合同范本
- 2025年教育行业工会工作计划
- 小儿静脉输液安全管理
- 梗阻性肥厚型心肌病的临床护理
- 合规管理考试试题及答案
- 施工现场安全作业流程考题
- 焊工初级测试试题及答案
- 福建省福州教育学院附属中学2025年高三冲刺模拟英语试卷含解析
- 青少年足球训练营未来三年计划
- 近五年安徽中考英语真题及答案2024
- 2024年高校辅导员考试题库试题及答案
- 现浇箱梁施工培训课件
评论
0/150
提交评论