聚类分析的SPSS实现课件_第1页
聚类分析的SPSS实现课件_第2页
聚类分析的SPSS实现课件_第3页
聚类分析的SPSS实现课件_第4页
聚类分析的SPSS实现课件_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、聚类分析的SPSS实现课件聚类分析的SPSS实现课件用SPSS作聚类分析以经济效益数据为例,用聚类分析法对各省市作分类 (见spssex-4/全国各省市经济效益数据)以城镇居民消费资料为例,用聚类分析法对各省市作分类 (见spssex-4/城镇居民消费支出资料) 用SPSS作聚类分析以经济效益数据为例,用聚类分析法对各省市SPSS中的聚类分析Spss中的聚类功能常用的有两种:快速聚类(迭代过程): K-Means Cluster系统聚类:Hierarchical ClusterSPSS中的聚类分析Spss中的聚类功能常用的有两种:一、Hierarchical Cluster聚类系统聚类由两种方

2、法:分解法和凝聚法。系统聚类的功能:即可进行样品的聚类,也可进行变量的聚类。系统聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。一、Hierarchical Cluster聚类系统聚类由两系统聚类的中要进行以下的选择:数据的标准化测度方法的选择:距离方法的选择或相似性、关联程度的选择。聚类方法的选择:即以什么方法聚类,spss中提供了7中方法可进行选择。输出图形的选择:树形图或冰柱图。系统聚类的中要进行以下的选择:系统聚类系统聚类见(一)聚类方法见( 二)各种距离和相似系数见(一)聚类方法见( 二)各种距离和相似系数Method聚类方法标准化变换亲疏关系指标Method聚类方法标准化变

3、换亲疏关系指标(一)聚类方法1.Between-groups linkage 类间平均法 两类距离为两类元素两两之间平均平方距离2.Within-groups linkage 类内平均法两类距离为合并后类中可能元素两两之间平均平方距离3.Nearest neighbor 最短距离法 4. Furthest neighbor 最长距离法5.Centroid clustering 重心法 (欧式距离)6.Median clustering 中间距离法 (欧式距离)7.Ward Method 离差平方法 (欧式距离)(一)聚类方法 1.squared euclidean distance 平方欧式距

4、离2. euclidean distance 欧式距离3.cosine 夹角余弦(R型)4.pearson correlation 皮尔逊相关系数(R)5.chebychev 切比雪夫距离(二)各种距离和相似系数(亲疏关系指标) (二)各种距离和相似系数(亲疏关系指标)6.block 绝对值距离7.minkowski 明考斯基8.customized 6.block 绝对值距离聚类分析的SPSS实现课件Statistics聚类进度表相似矩阵样品或变量的分类情况Statistics聚类进度表相似矩阵样品或变量的分类情况聚类分析的SPSS实现课件 凝聚状态表的第一列表示聚类分析的第几步;第二列、第

5、三列表示本步聚类中哪两个样本或小类聚成一类;第四列是相应的样本距离或小类距离;第五列、第六列表明本步聚类中,参与聚类的是样本还是小类。0表示样本,数字n(非0)表示由第n步聚类产生的小类参与本步聚类;第七列表示本步聚类的结果将在下面聚类的第几步中用到。 凝聚状态表的第一列表示聚类分析的第几步聚类分析的SPSS实现课件Plot树状结构图冰柱图冰柱的方向Plot树状结构图冰柱图冰柱的方向Number of clustersCase X7 X5 X4 X3 X6 X8 X2 X11XXXXXXXXXXXXXXX2XXXXXXXXXXXXX X3X XXXXXXXXXXX X4X XXXXX XXXX

6、X X5X XXX X XXXXX X6X X X X XXXXX X7X X X X X XXX XVertical Icicle67Number of clustersCase X5 X4 冰柱图因其样子非常象冬天房顶垂下的冰柱得名,它以图形的方式显示层次聚类分析结果,一般从冰柱图的最后一行开始观察,第一列表示类数。两样品之间的“”表示将其两边的样品(类)联结起来聚成新类。 冰柱图因其样子非常象冬天房顶垂下的冰柱得聚类分析的SPSS实现课件应用举例:4-1应用举例:4-1 首先对表4-1中的原始数据进行标准化变换处理,经过运算使数据标准化得到表4-2,使它的每列数据的平均值为0,方差为1,

7、这样表4-1中5列具有不同量纲、不同数量级的数据不同地区数据求出欧氏距离。就能放在一起比较;其次用表4-2中经过标准化处理后的30个 首先对表4-1中的原始数据进行标准化变换处聚类分析的SPSS实现课件聚类分析的SPSS实现课件表4-1表4-1聚类分析的SPSS实现课件表 4-2表 4-2聚类分析的SPSS实现课件聚类分析的SPSS实现课件K-Means Cluster聚类K-Means Cluster聚类K-Means Cluster原理首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个;其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚类的种子。第三,按照距离这些类

8、中心的距离最小的原则把所有观测量(样品)分派到各类重心所在的类中去。第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心;第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束。K-Means Cluster原理首先,选择n个数值型变量参K-Means Cluster聚类过程由AnalyzeClassify K-Means Cluster将个变量放入Variable ;输入最后聚类的个数;K-Means Cluster聚类过程由AnalyzeC例 饮料数据(spssex/drink.sav )16种饮料的热量、咖啡因、钠及价格四种变

9、量 例 饮料数据(spssex/drink.sav )16种饮 快速聚类 快速聚类选项读写凝聚点人为固定分类数ANOVA表,初始凝聚点等选项读写凝聚点人为固定分类数ANOVA表,快速聚类法的聚类数由用户指定,分类是唯一的。1.分类数:如希望聚成K类2.聚类方法:method: iterate and clussify(聚类分析的 clussify only(聚类分析过程类中心3.聚类中心:centers4.迭代次数:iterate5.保存分类结果:save每一步都重新计算新的类中心点)点始终为初始类中心点,仅作一次迭代)快速聚类法的聚类数由用户指定,分类是唯一的。每一步都重新计算Initial

10、 Cluster Center:快速聚类的初始类中心点(本例由系统自行指定四个类的初始类中心点)指定聚成四类Initial Cluster Center:快速聚类的初始Iteration History:快速聚类的迭代步骤 在迭代过程中,完成第一次迭代后形成的四个新类中心点距初始类中心点的欧氏距离分别为5.065、12.532、12.275、25.901。第四次迭代后形成的四个新类中心点几乎与上次确定的中心点没有差别。经过四次迭代,快速聚类完成。Iteration History:快速聚类的迭代步骤快速聚类的最终类中心点快速聚类的最终类中心点Number of Cases in each Cl

11、uster:快速聚类的最终结果快速聚类的类成员情况各样本距其所在的类中心的欧氏距离各类中的成员数Number of Cases in 快速聚类的类成员情况各判别分析的SPSS实现判别分析的SPSS提供的建立判别函数的方法有:1.全模型法:把所有的变量放入判别函数中2.逐步判别法判别分析的步骤对于分为m类的研究对象,建立m个线性判别函数,对测试的样本代入判别函数,得出判别得分,从而确定该样本属于哪一类。聚类分析的SPSS实现课件Discriminant Discriminant Discriminant对话框 Discriminant对话框 Grouping Variable:已知的观测量所属类

12、别的变量(分类变量)Independents:观测量,即参与判别分析的变量。Use Stepwise method :当不认为所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。因此根据对判别贡献的大小进行选择。Enter independent together :当所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。选择该项将不加选择地使用所有自变量进行判别分析,建立全模型。不需要进一步进行选择。 Grouping Variable:已知的观测量所属类别的变选择分类变量及其范围 在主对话框中左面的矩形框中选择表明已知的观测量所属类别的变量(一定是离散变量,按上面一个箭头按钮,使

13、该变量名移到箭头按钮右面,“Grouping Variable”下面的矩形框此时矩形框下面的“Define range”按钮加亮,按该按钮,屏幕显示一个小对话框,供指定该分类变量的数值范围。定义分类变量范围的小对话框如下图 所示。 在Minimum:后面的矩形框中输入该分类变量的最小值;在Muximurn:后面的矩形框中输入该分类变量的最大值。 选择分类变量及其范围 在主对话框中左面的矩形框中选择分类变量范围对话框 2分类变量范围对话框 2指定判别分析的自变量 在主对话框的左面的变量表中选择表明观测量特征的变量,按下面一个箭头按钮,把选中的变量移到“Independents:”下面的矩形框中,

14、作为参与判别分析的变量。指定判别分析的自变量 Indepents对话框数据变量输入框 Indepents对话框数据变量输入框数据判别分析 完成前面四步骤的操作即可使用各种系统默认值对工作数据集的数据进行判别分析了。可以使用的方法有两种: (1)直接运行:在主对话框中按(用鼠标单击)Ok按钮 (2)生成SPSS命令程序后再运行:在主对话框中按Paste按钮,激活Syntax窗,在该窗中按Run按钮执行该语句窗中的程序。 无论哪种方法均可在output窗中显示出分析结果。 完全使用系统默认值进行判别分析,其结果有时不能令人满意,因此根据以下步骤指定选择项是很有必要的。 数据判别分析选择观测量 如果

15、希望使用一部分观测量进行判别函数的推导,而且有一个变量的某个值可以作为某些观测量的标识,则用Select功能进行选择。操作方法是,单击“Select”按钮展开小选择框,在“Vaiable:”后面矩形框中输入该变量的变量名,在“Value:”后面输入标识参与分析的观测量所具有的该变量值。一般均使用数据文件中的所有合法观测量。此步骤可以省略。 选择观测量Select功能选择Select功能选择选择分析方法 在主对话框中自变量矩形框下面有两个选择项,被选中的方法前面的圆圈中加有黑点。这两个选择项是选择判别分析方法的。(1)Enter independent together 当你认为所有自变量都能对

16、观测量特性提供丰富的信息时,使用该选择项。选择该项将不加选择地使用所有自变量进行判别分析,建立全模型。不需要进一步进行选择。 选择分析方法(2)Use Stepwise method 当你不认为所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。因此根据对判别贡献的大小进行选择。当鼠标单击该项时,Method按钮加亮。可以进一步判别分析方法。 单击“Method”按钮,展开“Stepwise method”对话框(子对话框)如下图所示。 (2)Use Stepwise method Stepwise method对话框 Stepwise method对话框 选择进行逐步判别分析的方法 选

17、择判别分析方法在Method组的矩形框中进行。可供选择的判别分析方法有: Wilkslambda 使Wilk的统计量最小化法。Unexplained variance 使各类不可解释的方差和最小化法。Mahalanobisdistance 使最近两类间的 Mahalanobis距离最大化法。 选择进行逐步判别分析的方法 Smallest F ratio。使任何两类间的最小的F值最大化法。 Rao V 使 RaoV统计量最大化。可以对一个要加入到模型中的变量的V值指定一个最小增量。选择此种方法后,应该在该项下面的V to dntce后的矩形框中输这个增量的指定值。 Smallest F rati

18、o。使任何两类间的最小的 选择逐步判别停止的判据 选择逐步判别停止的判据在criteria组的矩形框中进行。可供选择的判据有: Use F value:使用F值,是系统默认的判据,默认值是:Entry:3.84;removal:2.71。即当被加入的变量F值=3.84时才把该变量加入到模型中,否则变量不能进入模型;或者,当要从模型中移出的变量F值=2.71时,该变量才被移出模型,否则模型中的变量不会被移出。应该使Entry值(加入变量的F值)removal值(移出变量的F值) 选择逐步判别停止的判据Use probability of F:使用F值的概率。加入变量的F值概率的默认值是0.05(

19、5);移出变量的q值概率是0.10(10)。removal值(移出变量的正值概率)Entry值(加入变量的F值概率)。 Use probability of F:使用F值的概率。加显示内容的选择 对于逐步选择变量的过程和最后结果的显示可以通过Method对话框最下面的Display矩形框中的三项进行选择: Resul at each step要求在逐步选择变量过程中的每一步之后显示每个变量的统计量。 Summary仅要求显示加入或移出模型的变量的综计量。即选择变量的小结。 F for Pairwise distances要求显示两两类之间的两两 F值矩阵。 当以上三项都给予了确定的选择后,单击

20、continue按钮,返回主对话框。 显示内容的选择指定输出的统计量单击“statistics”按钮,展开相应的子对话框,如下图所示。可以选择的输出统计量分为以下三类:(1)描述统计量 在Descriptives组的矩形框中可以选择对原始数据的描述统计量的输出: Means选择此项可以输出各类中各自变量的均值MEAN、标准差Std Dev和各自变量总样本的均值和标准差。 Univariate ANOVA对各类中同一自变量均值都相等的假设进行检验,输出单变量的方差分析结果。 Boxs M对每类的协方差矩阵是从同一总体中采样得来的假设进行检验,输出检验结果。 指定输出的统计量StatisticsS

21、tatistics(2)判别函数系数 在Fuction coefficients组的矩形框中选择判别函数系数的输出形式: Fishers可以直接用于对新样本进行判别分类的费雪系数。 Unstandardized未经标准化处理的判别系数。可用于计算判别分数。 (2)判别函数系数(3)自变量的系数矩阵 在Matrices组的矩形框中选择要求给出的矩阵: within-groups correlation matrix类内相关矩阵 within-groups covariance matrix类内协方差矩阵 Separate-groups covariance matrices对每类输出一个类间协方

22、差矩阵 Total covariance matrix总样本的协方差矩阵 以上三项都给予了确定的选择后,单击continue按钮,返回主对话框。 (3)自变量的系数矩阵指定分类参数和判别结果 在主对话框中单击“classify”按钮,展开相应的子对话框,如下图所示。 (1)在Prior Probabilities组的矩形框中选择先验概率,两者选其一。 All groups equal各类先验概率相等。若分为m类,则各类先验概率均为1m。 computer from group sizes由各类的样本量计算决定在各类的先验概率与其样本比。 指定分类参数和判别结果 Classifiction对话框

23、 Classifiction对话框(2)选择分类使用的协方差矩阵 在Use covariance Matrix组的矩形框中选择分析使用的协方差矩阵。两者选其一。 Within-groups指定使用组内协方差矩阵。 Seperate-groups指定使用组间协方差矩阵。(2)选择分类使用的协方差矩阵 (3)选择要求输出的统计图 在Plots组的矩形框中选择,可以并列选择。 combined-groups 所有类放在一张散点图中。便于比较。此选择项生成一张散点图。 Seperate-groups对每一类生成一张散点图。共分为几类就生成几张散点图。 Territoreal map 如果对一个观测量只

24、能计算出一个判别分数,则利用观测量的判别做作图,如果有两个以上判别分数,则用头两个判别分数作图。此种统计图力图把一张图的平面划分出与类数相同的区域。每一类占据一个区。 (3)选择要求输出的统计图(4)选择生成到输出窗中的分类结果 在 Displsy组的矩形框中选择输出项: Results for each case要求输出每个观测量的分类结果。 Summary table要求输出分类的小结,给出错分率。(4)选择生成到输出窗中的分类结果 在 Displsy组的矩(5)缺失值处理方式 在classification子对话框的最下面有一个选择项,用以选择对缺失值的处理方法。 Replace mis

25、sing value with mean用该变量的均值代替缺失值。该选择项前面的小矩形框中出现x时表示选定所示的处理方法。 以上五项都给予了确定的选择后,单击continue按钮,返回主对话框。 (5)缺失值处理方式 指定生成并保存在数据文件中的新变量 Descriminant过程可以在数据文件中建立新变量,通过Save New Vaiables子对话框进行选择。 在主对话框中单击“Save”按钮,展开“Save New Vaiables”子对话框。如下图所示。 指定生成并保存在数据文件中的新变量 Save对话框 Save对话框 在工作数据文件中建立以下三个新变量,可以选择。 Predicte

26、d group membership要求建立一个新变量,表明预测的类成员。指定此项后,每行一次Descriminant过程,就建立一个表明使用判别函数预测的各观测量属于哪一类的新变量。第一次运行建立新变量的变量名为dis-1,如果在工作数据文件中不把前一次建立的新变删除,第n次运行Descriminant过程建立的新变量默认的变量名为dis-n。 在工作数据文件中建立以下三个新变量,可以选择。 Descriminant score要求建立表明判别分数的新变量。每次运行 Descriminant过程都给出组表明判别分数的新变量。建立几个典则判别函数就有几个判别分数变量。参与分析的观测量共分为m类

27、,则建立ml个典则判别函数,指定该选择项,就可以生成ml个表明判别数的新变量。例如,原始数据观测量共分为3类,建立两个典则判别函数。第一次运行判别过程建立的新变量名为dis1_1,dis2_1,第二次运行判别过程建立的新变量名为dis1_2,dis2_2依此类推。分别表示代入第一和第二个判别函数所得到的判别分数。 Descriminant score要求建立表 Probabilities of group membership要求建立新变量表明观测量属于某一类的概率。有m类,对一个观测量就会给出m个概率值,因此建立m个新变量。例如,原始和预测分类数是:指定该选择项,在第一次运行判别过程后,给出

28、的表明分类概率的新变量名为dis1_2,dis2_2,dis3_2. 选择了新变量类型后,按continue Probabilities of group memb运行带有选择项的判别分析过程 运行Descriminant过程有两种方法: (1)在主对话框中按Ok按钮,直接运行Descriminant过程。 (2)在主对话框中按Paste按钮,将以上操作结果转换成Descriminant过程的命令程序,显示在Syntax窗中。 在Syntax窗中可以按照Descriminant命令语句格式进一步修改粘贴则窗中的各子命令语句。然后按Run按钮,将窗中的程序语句提交给系统执行。 运行带有选择项的判

29、别分析过程逐步判别分析 (1)逐步判别分析方法与判据的选择 逐步判别在操作步骤方面只有在选择方法一点上与前面所叙述的方法有所区别,即在Discriminant过程主对话框中应该选择Use stepwise method。当单击该选择项时,其前面的圆圈中出现黑点,同时Method按钮加亮表示可以进一步选择分析方法或判据了。 逐步判别分析 单击Method按钮,展开stepwise method对话框。在对话框中显示出系统默认的逐步区别方法是Milks Lambra。其判据是:进入模型的F值为3.84;从模型中剔除变量的F值为2.71。不熟悉统计分析的用户可以不再进一步选择,直接使用系统默认的分析

30、方法和判据. 单击Method按钮,展开stepwise 逐步判别方法的选择Milks Lambra使Milks统计量最小。是系统默认的方法。Unexplained variance使各类不可解释的方差和最小。Mahalanobis distance使最近的两组间的马哈拉诺比斯距离最小。smallest F ratio。使任何两组间的最小的 F值最大。 Raos V使 Rao的 V统计量最大。在选择并指定使用此种方法后,该项下面的文字加亮,可以在V to enter毫米的矩形框中输入一个变量进入模型的 V值的最小增量。 逐步判别方法的选择关于判据的选择方法 可以从两者指定判据的方法中选择一种,

31、并在每种方法的两个矩形框中输入判据的具体数值。 Use F value用F值作判据。在该项下面的两个矩形框中输人: Entry:后面的矩形框中输入进入模型的F值。只有变量的F值大于这个指定值时,变量进入模型。 Remove:在后面的矩形框中输入把变量移出模型的F值。当变量的F值小于该值时,变量从模型中剔除。 应该注意,Entry值必须大于Remove值,否则,模型中将不会有变量。 关于判据的选择方法显示内容的选择 在Stepwise Method对话框的最下面一行可以选择要求显示在输出窗中的内容。对于逐测分析可以选择以下输出: Results at each step给出每一步选择变量工作完成

32、后各变量的统计量。给出哪些统计量要看使用什么判据。使用F值作判据则给出各变量的F值;使用F值的概率作判据则给出量的F值的概率。 Summery仅对被加入或移出模型的变量给出统计量。 F for pairwise distances显示 F比值矩阵。对每两类显示一对F比值。 显示内容的选择 (2)逐步判别分析操作步骤 我们采用Milks Lambra方法进行逐步判别分析。使用F值作为判据统计量。当F=30时变量进入模型;当F=5时,变量从模型中移出。 (2)逐步判别分析操作步骤操作步骤如下: 第一、从主菜单的Statistics,经classify到Discriminant Analysis逐一选择各菜单的菜单直到展开Discriminant Analysis对话框。 第二、Independents:slen、swidPlen、Pwid;Group variables:spno(1,3)选择变量slen、swidPlen、Pwid作为判别分析的自变量;spno作为分类变量。 操作步骤如下: 第三、按Method按钮,展

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论