SPSS聚类分析1.ppt

上传人：a*** IP属地：河南上传时间：2020-02-25 格式：PPT 页数：132 大小：2.39MB 积分：24 举报 版权申诉

已阅读5页，还剩127页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

SPSS16实用教程第8章聚类分析与判别分析本章介绍统计学中经常使用的分类统计分析方法聚类分析与判别分析主要内容有层次聚类分析快速聚类分析和判别分析其中层次聚类分析根据聚类的对象不同分成Q型聚类和R型聚类 8 1聚类分析与判别分析的基本概念统计学研究这类问题的常用分类统计方法主要有聚类分析 clusteranalysis 与判别分析 discriminantanalysis 其中聚类分析是统计学中研究这种物以类聚问题的一种有效方法它属于统计分析的范畴聚类分析的实质是建立一种分类方法它能够将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类这里所说的类就是一个具有相似性的个体的集合不同类之间具有明显的区别聚类分析是一种探索性的分析在分类的过程中人们不必事先给出一个分类的标准聚类分析能够从样本数据出发自动进行分类聚类分析所使用方法的不同常常会得到不同的结论不同研究者对于同一组数据进行聚类分析所得到的聚类数未必一致因此我们说聚类分析是一种探索性的分析方法对个案的聚类分析类似于判别分析都是将一些观察个案进行分类聚类分析时个案所属的群组特点还未知也就是说在聚类分析之前研究者还不知道独立观察组可以分成多少个类类的特点也无所得知变量的聚类分析类似于因素分析两者都可用于辨别变量的相关组别不同在于因素分析在合并变量的时候是同时考虑所有变量之间的关系而变量的聚类分析则采用层次式的判别方式根据个别变量之间的亲疏程度逐次进行聚类聚类分析的方法主要有两种一种是快速聚类分析方法 K MeansClusterAnaly sis 另一种是层次聚类分析方法 HierarchicalClusterAnalysis 如果观察值的个数多或文件非常庞大通常观察值在200个以上则宜采用快速聚类分析方法因为观察值数目巨大层次聚类分析的两种判别图形会过于分散不易解释判别分析是一种有效的对个案进行分类分析的方法和聚类分析不同的是判别分析时组别的特征已知如银行为了对贷款进行管理需要预测哪些类型的客户可能不会按时归还贷款已知过去几年中 900个客户的贷款归还信誉度据此可以将客户分成两组可靠客户和不可靠客户再通过收集客户的一些资料如年龄工资收入教育程度存款等将这些资料作为自变量通过判别分析建立判别函数那么如果有150个新的客户提交贷款请求就可以利用创建好的判别函数对新的客户进行分析从而判断新的客户是属于可靠客户类还是不可靠客户类 8 2层次聚类分析中的Q型聚类层次聚类分析是根据观察值或变量之间的亲疏程度将最相似的对象结合在一起以逐次聚合的方式 AgglomerativeClustering 它将观察值分类直到最后所有样本都聚成一类层次聚类分析有两种形式一种是对样本个案进行分类称为Q型聚类它使具有共同特点的样本聚齐在一起以便对不同类的样本进行分析另一种是对研究对象的观察变量进行分类称为R型聚类它使具有共同特征的变量聚在一起以便从不同类中分别选出具有代表性的变量作分析从而减少分析变量的个数本节讲述Q型聚类的原理和SPSS的实现过程下一节将讲述R型聚类的实现过程定义层次聚类分析中的Q型聚类它使具有共同特点的样本聚齐在一起以便对不同类的样本进行分析 8 2 1统计学上的定义和计算公式层次聚类分析中测量样本之间的亲疏程度是关键聚类的时候会涉及到两种类型亲疏程度的计算一种是样本数据之间的亲疏程度一种是样本数据与小类小类与小类之间的亲疏程度下面讲述这两种类型亲疏程度的计算方法和公式计算公式如下样本数据之间的亲疏程度主要通过样本之间的距离样本间的相关系数来度量 SPSS根据变量数据类型的不同采用不同的测定亲疏程度的方法样本若有k个变量则可以将样本看成是一个k维的空间的一个点样本和样本之间的距离就是k维空间点和点之间的距离这反映了样本之间的亲疏程度聚类时距离相近的样本属于一个类距离远的样本属于不同类 1 连续变量的样本距离测量方法 1 欧氏距离 EuclideanDistance 两个样本之间的欧氏距离是样本各个变量值之差的平方和的平方根计算公式为 2 欧氏距离平方 SquaredEuclideanDistance 两个样本之间的欧氏距离平方是各样本每个变量值之差的平方和计算公式为 3 Chebychev距离两个样本之间的Chebychev距离是各样本所有变量值之差绝对值中的最大值计算公式为 4 Block距离两个样本之间的Block距离是各样本所有变量值之差绝对值的总和计算公式为 5 Minkowski距离两个样本之间的Minkowski距离是各样本所有变量值之差绝对值的p次方的总和再求p次方根计算公式为 6 Customized距离用户自定义距离两个样本之间的Customized距离是各样本所有变量值之差绝对值的p次方的总和再求q次方根计算公式为连续变量亲疏程度的度量除了上面的各种距离外还可以计算其他统计指标如Pearson相关系数 Sosine相似度等 2 连续变量的样本亲疏程度的其他测量方法 3 顺序或名义变量的样本亲疏程度测量方法对于此类变量可以计算一些有关相似性的统计指标来测定样本间的亲疏程度也可以通过下面两个计算公式来得到 4 样本数据与小类小类与小类之间的亲疏程度测量方法 SPSS默认的变量为Var00001 Var00002等用户也可以根据自己的需要来命名变量 SPSS变量的命名和一般的编程语言一样有一定的命名规则具体内容如下所谓小类是在聚类过程中根据样本之间亲疏程度形成的中间类小类和样本小类与小类继续聚合最终将所有样本都包括在一个大类中在SPSS聚类运算过程中需要计算样本与小类小类与小类之间的亲疏程度 SPSS提供了多种计算方法计算规则 1 最短距离法 NearestNeighbor 以当前某个样本与已经形成小类中的各样本距离的最小值作为当前样本与该小类之间的距离 2 最长距离法 FurthestNeighbor 以当前某个样本与已经形成小类中的各样本距离的最大值作为当前样本与该小类之间的距离 3 类间平均链锁法 Between groupsLinkage 两个小类之间的距离为两个小类内所有样本间的平均距离 4 类内平均链锁法 Within groupsLinkage 与小类间平均链锁法类似这里的平均距离是对所有样本对的距离求平均值包括小类之间的样本对小类内的样本对 5 重心法 CentroidClustering 将两小类间的距离定义成两小类重心间的距离每一小类的重心就是该类中所有样本在各个变量上的均值代表点 6 离差平方和法 Ward sMethod 小类合并的方法在聚类过程中使小类内各个样本的欧氏距离总平方和增加最小的两小类合并成一类研究问题对一个班同学的数学水平进行聚类聚类的依据是第一次数学考试的成绩和入学考试的成绩数据如表8 1所示 8 2 2SPSS中实现过程表8 1学生的数学成绩实现步骤图8 1在菜单中选择 HierarchicalCluster 命令图8 2 HierarchicalClusterAnalysis 对话框一图8 3 HierarchicalClusterAnalysis Method 对话框一图8 4 HierarchicalClusterAnalysis Plots 对话框一图8 5 HierarchicalClusterAnalysis Statistics 对话框一图8 6 HierarchicalClusterAnalysis SaveNewVar 对话框由于本例中选中的选项较多这里按照各个结果分别解释 1 首先是层次聚类分析的概要结果该结果是SPSS输出结果文件中的第一个表格如下表所示 8 2 3结果和讨论 2 输出的结果文件中第二个表格如下表所示 3 输出的结果文件中第三个表格为层次聚类分析的凝聚状态表包括 4 输出的结果文件中第四个表格如下表所示 5 输出的结果文件中第五个表格如下表所示 6 输出的结果文件中第六部分如图8 7所示 7 由于对图8 6 HierarchicalClusterAnalysis SaveNewVar 对话框进行了设置将聚类成三类时各个样本的类归属情况保存为一个变量因此在SPSS数据编辑窗口中就新增了一个变量的值如图8 8所示图8 8层次聚类分析结果保存 8 3层次聚类分析中的R型聚类 8 3 1统计学上的定义和计算公式定义层次聚类分析中的R型聚类是对研究对象的观察变量进行分类它使具有共同特征的变量聚在一起以便可以从不同类中分别选出具有代表性的变量作分析从而减少分析变量的个数计算公式 R型聚类的计算公式和Q型聚类的计算公式是类似的不同的是R型聚类是对变量间进行距离的计算 Q型聚类则是对样本间进行距离的计算研究问题对一个班同学的各科成绩进行聚类分析哪些课程是属于一个类的聚类的依据是4门功课的考试成绩数据如表8 2所示 8 3 2SPSS中实现过程表8 2学生的四门课程的成绩实现步骤图8 9在菜单中选择 HierarchicalCluster 命令图8 10 HierarchicalClusterAnalysis 对话框二图8 11 HierarchicalClusterAnalysis Method 对话框二图8 12 HierarchicalClusterAnalysis Plots 对话框二图8 13 HierarchicalClusterAnalysis Statistics 对话框二 1 首先是层次R型聚类分析的结果该结果是SPSS输出结果文件中的第一个表格 8 3 3结果和讨论 2 输出的结果文件中第二个表格如下表所示 3 输出的结果文件中第三个表格如下表所示 4 输出的结果文件中第四个表格如下表所示 5 输出的结果文件中第五个表格如下表所示 6 输出的结果文件中第六部分如下 8 4快速聚类分析 SPSS层次聚类分析对计算机的要求比较高在大样本的情况下可以采用快速聚类分析的方法采用快速聚类分析得到的结果比较简单易懂对计算机的性能要求也不高因此应用也比较广定义快速聚类分析是由用户指定类别数的大样本资料的逐步聚类分析它先对数据进行初始分类然后逐步调整得到最终分类快速聚类分析的实质是K Mean聚类 8 4 1统计学上的定义和计算公式和层次聚类分析一致快速聚类分析也以距离为样本间亲疏程度的标志但两者的不同在于层次聚类可以对不同的聚类类数产生一系列的聚类解而快速聚类只能产生固定类数的聚类解类数需要用户事先指定另外在快速聚类分析中用户可以自己指定初始的类中心点如果用户的经验比较丰富则可以指定比较合理的初始类中心点否则需要增加迭代的次数以保证最终聚类结果的准确性计算公式如下快速聚类分析计算过程如下首先需要用户指定聚类成多少类比如k类然后SPSS确定k个类的初始类中心点 SPSS会根据样本数据的实际情况选择k个由代表性的样本数据作为初始类中心初始类中心也可以由用户自行指定需要指定K组样本数据作为初始类中心点计算所有样本数据点到k个类中心点的欧氏距离 SPSS按照距k个类中心点距离最短原则把所有样本分派到各中心点所在的类中形成一个新的k类完成一次迭代过程其中欧氏距离 EuclideanDistance 的计算公式为 SPSS重新确定k个类的中心点 SPSS计算每个类中各个变量的变量值均值并以均值点作为新的类中心点重复上面的两步计算过程直到达到指定的迭代次数或终止迭代的判断要求为止研究问题为研究不同公司的运营特点调查了15个公司的组织文化组织氛围领导角色和员工发展4方面的内容现要将这15个公司按照其各自的特点分成4种类型数据如表8 3所示 8 4 2SPSS中实现过程表8 3不同公司的特点实现步骤图8 15在菜单中选择 K MeansCluster 命令图8 16 K MeansClusterAnalysis 对话框图8 17 K MeansClusterAnalysis Options 对话框图8 18 K MeansClusterAnalysis Iterate 对话框图8 19 K MeansCluster SaveNewVariable 对话框图8 20指定初始类中心点本例中选中的选项较多这里按照各个结果分别解释 1 SPSS输出结果文件中的第一部分如下表所示 8 4 3结果和讨论 2 输出的结果文件中第二部分如下表所示 3 输出的结果文件中第三部分是快速聚类分析后的各个类包含样本的情况 4 输出的结果文件中第四部分如下表所示 5 输出的结果文件中第五个部分如下表所示 6 输出的结果文件中第六个部分如下表所示 7 输出结果的最后一个表格列出了4个类中分别包括的样本数如下表所示 8 在步骤5中曾指定了将样本所属类以及样本和类中心点的距离作为样本的2个新变量保存到SPSS的数据编辑窗口中 SPSS运行后数据编辑窗口如图8 21所示其中我们可以看到新增加了两个变量图中加深的两列分别表示样本所属类以及样本和类中心点的距离 8 5判别分析前面3节讲述了不同种聚类分析的方法不论是哪种方法聚类分析都是直接比较各事物之间的性质将性质相近的归为一类将性质差别较大的归入不同的类本节讲述的判别分析也是一种比较常用的分类分析方法判别分析先根据已知类别的事物的性质利用某种技术建立函数式然后对未知类别的新事物进行判断以将之归入已知的类别中有学者在研究中提出可以利用判别分析来对聚类分析结果的准确性进行检验聚类分析分成几类后即可以作为判别分析的类别输入进行判断定义判别分析先根据已知类别的事物的性质自变量建立函数式自变量的线性组合即判别函数然后对未知类别的新事物进行判断以将之归入已知的类别中 8 5 1统计学上的定义和计算公式判别分析有如下的假定预测变量服从正态分布预测变量之间没有显著的相关预测变量的平均值和方差不相关预测变量应是连续变量因变量类别或组别是间断变量两个预测变量之间的相关性在不同类中是一样的在分析的各个阶段应把握如下的原则事前组别类的分类标准作为判别分析的因变量要尽可能准确和可靠否则会影响判别函数的准确性从而影响判别分析的效果所分析的自变量应是因变量的重要影响因素应该挑选既有重要特性又有区别能力的变量达到以最少变量而有高辨别能力的目标初始分析的数目不能太少这些判别函数是各个独立预测变量的线性组合程序自动选择第一个判别函数以尽可能多地区别各个类然后再选择和第一个判别函数独立的第二个判别函数尽可能多地提供判别能力程序将按照这种方式提供剩下的判别函数判别函数的个数为k 图8 22判别分析的示意图研究问题调查了15个公司的组织文化领导角色和员工发展3个方面内容作为预测变量因变量为公司对员工的吸引力为符合研究问题将公司对员工的吸引力根据被测的实际填答情形划分为高吸引力组 group 1 中吸引力组 group 2 和低吸引力组 group 3 数据如表8 4所示 8 5 2SPSS中实现过程表8 4不同类的不同公司特点实现步骤图8 23在菜单中选择 Discriminant 命令图8 24 DiscriminantAnalysis 对话框图8 25 DiscriminantAnalysis Define 对话框图8 26 DiscriminantAnalysis StepwiseMethod 对话框图8 27 DiscriminantAnalysis Statistics 对话框图8 28 DiscriminantAnalysis Classification 对话框图8 29 DiscriminantAnalysis Save 对话框 1 SPSS输出结果文件中的第一部分如下表所示 8 5 3结果和讨论 2 输出的结果文件中第二部分如下表所示

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

SPSS聚类分析1.ppt

文档简介

温馨提示

最新文档

评论

SPSS聚类分析1.ppt

文档简介

温馨提示

最新文档

评论

相关文档