版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章聚类分析“物以类聚,人以群分”,科学研究在揭示对象特点及其相互作用的过程中,不惜花费时间和精力进行对象分类,以揭示其中相同和不相同的特征。在心理学研究中,经常遇到的分类包括两种情况:一是对研究样本或个案的分类,即根据每个个案的一系列观测指标,将那些在这些观测量方面表现相近的个案归为一类,将那些在这些观测量方面的表现很不相同的个案归为不同类,类似于判别分析;二是对观测量的分类,即将一系列的观测量归类合并为性质明显不同的少数几个方面,类似于因素分析。但是聚类分析不同于因素分析:因素分析是根据所有变量间的相关关系提取公共因子;聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小类合并,如此分层依次进行;聚类分析也不同于判别分析:判别分析是要先知道各种类,然后判断某个案是否属于某一类。我们这里主要是要介绍聚类分析方法及其SPSS的实现过程。一、聚类分析的根本原理聚类分析是一种数值分类方法〔即完全是根据数据关系〕。要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。所谓完备的指标体系,是说入选的指标是充分的,其它任何新增变量对区分事物差异无显著性奉献。如果所选指标不完备,那么导致分类偏差。比方要对家庭教养方式进行分类,就要有描述家庭教育方式的一系列变量,这些变量能够充分地反映不同家庭对子女的教养方式。简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确、测量越可靠,得到的分类结果越是能描述事物各类间的本质区别。聚类分析完全是根据数据情况来进行的。就一个由n个个案、k个变量组成的数据文件来说,当对个案进行聚类分析时,相当于对k维坐标系中的n个点进行分组,所依据的是它们的距离;当对变量进行聚类分析时,相当于对n维坐标系中的k个点进行分组,所依据的也是点距。所以距离或相似性程度是聚类分析的根底。点距如何计算呢?拿连续测量的变量来说,可以用欧氏距离平方计算:即各变量差值的平方和。1.聚类分析的前期准备工作聚类分析是以完备的数据文件为根底的,这一数据文件除观测变量比较完备之外,一般还要求各个观测变量的量纲一致,即各变量取值的数量级一致,否那么各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。所以,聚类分析前要检查各变量的量纲是否一致,不一致那么需进行转换,如将各变量均作标准化转换就可保证量纲一致。2.聚类分析的主要方法二、Q聚类分析的SPSS过程第一步:数据文件的准备。Q聚类分析是根据一系列观测变量的测量值对个案进行分类,分类的依据是个案之间的“距离”。聚类之前的数据文件包括:n个个案的k个观测值。此外还需要一个个案的标识变量。第二步:点击“Analyze”菜单项选择中“Classify”的“HierarchicalClusterAnalysis”,翻开对话框。将参与聚类分析的观测变量置入“Variable(s)”下的方框中,将个案标识变量的变量名置入“LabelCasesBy”下的方框中,同时在Cluster之下选择Cases。然后选中“Statistics”和“Plots”。第三步:点击“Method”翻开聚类分析的距离计算方法设置对话框,以实现对小类间距离、样本间距离计算方法的设置,同时对量纲不一致情况下的变量观测值进行转换:(1)小类间距离计算:默认方式是类间平均链锁法〔Between-Groupslinkage),这种方法最充分地使用了数据资料;(2)样本间距离计算:观测变量为连续变量,默认方法:欧氏距离平方;观测变量为顺序或名义变量,默认方法:卡方测量方法;观测变量为二项选择变量,默认方法:二元欧氏距离平方。(3)如果观测变量的量纲不一致,还需设置对不同量纲变量进标准化处理。默认状态是“none”,需要时可以选择“Z-scores”,这是使用最广泛、最直观的转换方法。在进行量纲转换时,要选择“Bycases”说明是属于Q聚类分析中的量纲转换。第四步:指定图形输出。层次聚类分析的图形结果有两种形式〔1〕树形图〔Dendrogram〕,它可以展现聚类分析的每一次合并过程,SPSS首先将各类之间的距离重新转换到0~25之间,然后表现在图上。此图可以粗略地表现聚类的过程;〔2〕冰柱图〔Icicle〕,包括纵向冰柱图〔Vertical〕和横向冰柱图(Horizontal)。冰柱图用X符号来表示聚类过程,其选择包括:全部、局部、无。指定SPSS分析图形的输出单击Hierarchicalclusteranalysis对话框中的“Plots”〔绘图〕,进入“Hierarchicalclusteranalysis:Plots”〔层次聚类分析绘图〕对话框。SPSS层次聚类有2种绘图形式,一种是输出的系统树状图〔Dendrogram〕,一种是冰柱图〔Icicle〕。选中Dendrogram项,即可输出树状图,其以树根分枝形式表现聚类分析的具体聚合过程。选中Icicle中的“Allclusters”项,可输出冰柱图,也是系统默认的输出项;选择“Specifiedrangeofcluster”〔指定聚类范围〕项,并在“Start”框中输入从第几类开始显示,在“Stop”框中输入到第几类结束,在“By”后指定中间聚合的类数,那么可以指定显示聚类中某一阶段的冰柱图;如果选择“None”项,那么不输出冰柱图。选择冰柱图项后,在“Orientation”〔方向〕框中还可选择冰柱图的显示方向,选项“Vertical”〔纵项〕项输出的是纵向排列的冰柱图,选择“Horizontal”〔横向〕表示是横向输出。本例选择Dendrogram项和Vertical项。单击Continue按钮返回Hierarchicalclusteranalysis对话框。第五步:显示凝聚状态表。点击层次聚类分析对话框中的“statistics”可以翻开设置凝聚状态对话框。〔1〕选中“Agglomerationschedule”,可以输出聚类分析详细过程,即每一阶段完成的是哪些个案或小类间的聚集;〔2〕选中“Proximitymatrix”,可以输出各个案的距离矩阵;〔3〕设置个案归属结果显示状态:选中none,不显示个案归属情况;选中Singlesolution,那么显示聚集成指定的n类时个案归属情况;选中Rangeofsolutions,那么显示聚集成n1到n2范围内的各种情况下的个案归属情况。第六步:设定保存层次聚类分析的结果。点击层次聚类分析对话框中的“save”可以翻开设置保存分类结果的对话框。在“Clustermembership”下边:选中None,不保存聚类结果到数据编辑窗口;选中Singlesolution,那么保存聚集成指定的n类时个案归属结果;选中Rangeofsolutions,那么显示聚集成n1到n2范围内的各种情况下的个案归属结果。OK!实例分析:根据20名被试在不同色光刺激下选择反响时间的反响模式,对其进行类型划分。实验数据如下表所示:IDREDGREENBLUEYELLOW1410389450490235636039140634124224804654320350400420538039042546063904564554337412450440455835638340041094053904904501038841042641011378410426409123003504004201341242049052314420430451480153683903894031639040042050917405380510489183903904284761940038050045520420400486505SPSS过程演示三、R聚类分析的SPSS过程R层次聚类分析对研究对象的观察变量进行分类,它使得具有共同特征的变量聚集在一起,以便选择其中具有代表性的变量,实现用较少变量刻画研究对象的目的。R聚类分析的过程与Q聚类分析的过程是一致的,只是在翻开“HierarchicalClusterAnalysis”的对话框中选“Variables”的聚类。在变量间距离的计算方法上选“PearsonCorrelation”,其它操作与Q聚类相同。实例分析:根据学生考试分数对课程进行分类四、快速聚类分析快速聚类分析是由研究者指定类别数的大样本资料逐步聚类分析。它先对数据进行初始分类,然后逐步调整,得到最终分类。快速聚类分析一般是对个案来进行的。对于变量分类来说,当变量较少时可以使用层次聚类分析中的R聚类分析;当变量数比较多时那么可以使用因素分析。快速聚类分析也是以个案的距离为根底的,与层次聚类分析不同的是:快速聚类分析要指定分类的类别数。快速聚类分析的逻辑程序是:1.用户指定分类类别数k〔无经验时可以进行屡次探索性分析〕2.SPSS程序自动确定各类中心点〔有经验用户也可以自己定义〕3.计算所有个案数据点到k个类中心点的欧氏距离4.根据距离最近原那么将个案归类,即距离哪个类中心点最近归为哪个类第一步:数据文件的准备。快速聚类分析的数据文件往往比较大,主要是包括的个案数较多,而且可以包括一个个案的标识变量。当数据文件中数据量纲不一致时,那么需要对数据进行标准化转换或其它转换。第二步:点击“Analyze”菜单项选择中“Classify”的“K-MeansCluster”翻开快速聚类分析对话框,将参与聚类分析的观测变量置入“Variable(s)”下的方框中,将个案标识变量的变量名置入“LabelCasesBy”下的方框中,指定聚类的类别数,同时在“Method”之下选择默认的“IterateandClassify”,这样,程序可以自动确定类中心点。快速聚类分析的主要步骤是:第三步:点击“Options”翻开统计参数显示对话框和缺省值处理方式对话框。在“Statistics”之下有三方面的显示要求:Initialclustercenters:显示有关初始类中心点的数据;Anovatable:对快速聚类分析产生的类作单因素方差分析,并输出各个变量的方差分析表;Clusterinformationforeachcase:输出个案的分类信息及距所属类中心点的距离。其它操作以默认方式进行实例分析:为反映员工心理因素方面的差异性,某研究者调研了一工厂36名员工的6项心理因素,如下表所示。请根据这一分数对员工进行分类,并答复:员工分成几类比较理想?Z1Z2Z3Z4Z5Z6Z1Z2Z3Z4Z5Z6666462505856536653595545555059595351615558615861504749454646596460525456555950545269556072605567555948564750565268405155625468464651595161565256606056535251605362554763525269585762525157455559565557394446565757525955505068464556685871685361585460595251605361605651535255576564645674505957525653576351675360535351566552516247565667675652506359535548534649435048635760665156535765526759564658504552604071575658475057495048544544494246SPSS过程演示练习题1.为研究不同公司的运营特点,调查了15个公司的组织文化、组织气氛、领导角色和员工开展4个方面的内容。请将这15个公司按照其各自的特点划分成4种类型。数据如下表所示。不同公司的特点公司组织文化组织氛围领导角色员工发展MICROS
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 灰尘测量仪产品供应链分析
- 危险品运输行业市场调研分析报告
- 栽种树木土地承包合同
- 小旅馆行业营销策略方案
- 书写工具用墨水产品供应链分析
- 广告空间出租行业相关项目经营管理报告
- 多媒体艺术行业经营分析报告
- 医用激素产品供应链分析
- 电信用自动交换机细分市场深度研究报告
- 化学品的回收利用行业经营分析报告
- 市政府质量奖组织概述
- 临时用地复耕方案
- 二年级上数学老师家长会ppt.ppt
- 办理营业执照委托书
- 危险货物道路运输安全卡4
- 船舶电气安装理论图纸相结合PPT课件
- 道路交通标志与标线PPT课件
- 幕墙打胶工艺
- 新冀教版九年级英语上册第26课课件
- 编写标准必备文件 国家标准 地方标准 行业标准 企业标准 格式模板大全
- 《钻木取火》PPT
评论
0/150
提交评论