版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章聚类分析的原理及操作“物以类聚,人以群分”,科学研究在揭示对象特点及其相互作用的过程中,不惜花费时间和精力进行对象分类,以揭示其中相同和不相同的特征。在心理学研究中,经常遇到的分类包括两种情况:一是对研究样本或个案的分类,即根据每个个案的一系列观测指标,将那些在这些观测量方面表现相近的个案归为一类,将那些在这些观测量方面的表现很不相同的个案归为不同类;二是对观测量的分类,即将一系列的观测量归类合并为性质明显不同的少数几个方面。一、聚类分析的基本原理
进行聚类分析,要先建立由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。所谓完备的指标体系,是说入选的指标是充分的,其他任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备,则导致分类偏差。比如要对家庭教养方式进行分类,就要有描述家庭教育方式的一系列变量,这些变量能够充分地反映不同家庭对子女的教养方式。简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确、测量越可靠,得到的分类结果越是能描述事物各类间的本质区别。
距离或相似性程度是聚类分析的基础。点距如何计算呢?拿连续测量的变量来说,可以用欧氏距离平方计算:即各变量差值的平方和。1.聚类分析的前期准备工作
聚类分析是以完备的数据文件为基础的,一般还要求各个观测变量的量纲一致,即各变量取值的数量级一致。所以,聚类分析前要检查各变量的量纲是否一致,不一致则需进行转换,如将各变量均作标准化转换就可保证量纲一致。2.聚类分析的主要方法聚类分析层次聚类分析快算聚类分析:Q聚类分析:R聚类分析:使用有共同特征的样本聚齐在一起,以便对不同类的样本进行分析。对研究对象的观察变量进行分类,它使具有共同变化特征的变量(相关性高)聚集在一起。用户指定类别数的大样本资料的逐步聚类分析,其实质是K-Mean聚类,它先对数据进行初始分类,然后逐步调整,得到最终分类。3.聚类分析图形表示(p174)例如,根据某一观测指标体系对6个个案进行聚类分析,已经知道指标体系中的变量均为连续变化的数据,所以采用欧氏距离测量个体与个体之间,小类与小类之间的距离,最先计算出来的个案间距离矩阵如表1。表1G(2)G(3)G(4)G(5)G(6)G(1)25378G(2)4569G(3)779G(4)34G(5)6凝聚状态表依据距离最近原则,表1中个案1与个案2首先聚合在一起形成小类G(1,2),再以该小类,其他四个个体见距离计算距离矩阵,小类间或小类与个体间距离采用平均连锁法计算距离。如表2所示表2G(3)G(4)G(5)G(6)G(1,2)5578G(3)779G(4)4G(5)6根据表2所示,个案4与个案5聚合在一起形成小类G(4,5)。再以两个小类、两个个案计算距离矩阵,如表3表3G(3)G(4,5)G(6)G(1,2)567G(3)89G(4,5)5表4G(4,5,6)G(1,2,3)7根据表3所示,个案3与小类G(1,2)聚合在一起形成小类G(1,2,3),个案6与小类G(4,5)聚合在一起形成小类G(4,5,6),再计算小类间的距离,如表所示。凝聚状态表表格形式(p175)聚合阶段相互聚合的小类形成小类后再参与聚合的下一阶段类1类211232454323544655130上述过程可以用一个表格加以呈现:第一阶段,个案1和个案2凝聚成一个小类;第二阶段,个案4和5凝聚成一个小类;第三阶段,个案3和第一阶段形成的小类凝聚成一个小类;第四阶段,个案6与第二阶段形成的小类凝聚;第五阶段,第三步和第四步凝聚成的两个小类凝聚成一个大类。利用树形图表示(p175)123456个案类利用冰柱图表示(p175)类数个案12345612345个案1和2归一类个案4,5,6归一类树状图和冰柱图表示聚类的过程十分的直观。二、Q聚类分析的SPSS过程第一步:数据文件的准备。Q聚类分析是根据一系列观测变量的测量值对个案进行分类,分类的依据是个案之间的“距离”。聚类之前的数据文件包括:n个个案的k个观测值。第二步:点击“Analyze”菜单选中“Classify”的“HierarchicalClusterAnalysis”,打开对话框。将参与聚类分析的观测变量置入“Variable(s)”下的方框中,同时在Cluster之下选择Cases。然后选中“Statistics”和“Plots”。第三步:点击“Method”打开聚类分析的距离计算方法设置对话框,以实现对小类间距离、样本间距离计算方法的设置,同时对量纲不一致情况下的变量观测值进行转换:(1)小类间距离计算:默认方式是类间平均链锁法(Between-Groupslinkage),这种方法最充分地使用了数据资料;(2)样本间距离计算:
观测变量为连续变量,默认方法:欧氏距离平方;观测变量为顺序或名义变量,默认方法:卡方测量方法;观测变量为二项选择变量,默认方法:二元欧氏距离平方。(3)如果观测变量的量纲不一致,还需设置对不同量纲变量进标准化处理。默认状态是“none”,需要时可以选择“Z-scores”,这是使用最广泛、最直观的转换方法。在进行量纲转换时,要选择“Bycases”表明是属于Q聚类分析中的量纲转换。第四步:指定图形输出。层次聚类分析的图形结果有两种形式(1)树形图(Dendrogram),它可以展现聚类分析的每一次合并过程,SPSS首先将各类之间的距离重新转换到0~25之间,然后表现在图上。此图可以粗略地表现聚类的过程;(2)冰柱图(Icicle),包括纵向冰柱图(Vertical)和横向冰柱图(Horizontal)。冰柱图用X符号来表示聚类过程,其选择包括:全部、部分、无。第五步:显示凝聚状态表。点击层次聚类分析对话框中的“statistics”可以打开设置凝聚状态对话框。(1)选中“Agglomerationschedule”,可以输出聚类分析详细过程,即每一阶段完成的是哪些个案或小类间的聚集;(2)选中“Proximitymatrix”,可以输出各个案的距离矩阵;(3)设置个案归属结果显示状态:
选中none,不显示个案归属情况;选中Singlesolution,则显示聚集成指定的n类时个案归属情况;选中Rangeofsolutions,则显示聚集成n1到n2范围内的各种情况下的个案归属情况。第六步:设定保存层次聚类分析的结果。点击层次聚类分析对话框中的“save”可以打开设置保存分类结果的对话框。在“Clustermembership”下边:
选中None,不保存聚类结果到数据编辑窗口;选中Singlesolution,则保存聚集成指定的n类时个案归属结果;选中Rangeofsolutions,则显示聚集成n1到n2范围内的各种情况下的个案归属结果。
OK!
实例分析:根据20名被试在不同色光刺激下选择反应时间的反应模式,对其进行类型划分。实验数据如下表所示:IDREDGREENBLUEYELLOW1410389450490235636039140634124224804654320350400420538039042546063904564554337412450440455835638340041094053904904501038841042641011378410426409123003504004201341242049052314420430451480153683903894031639040042050917405380510489183903904284761940038050045520420400486505SPSS过程演示三、R聚类分析的SPSS过程
R层次聚类分析对研究对象的观察变量进行分类,它使得具有共同特征的变量聚集在一起,以便选择其中具有代表性的变量,实现用较少变量刻画研究对象的目的。
R聚类分析的过程与Q聚类分析的过程是一致的,只是在打开“HierarchicalClusterAnalysis”的对话框中选“Variables”的聚类。在变量间距离的计算方法上选“PearsonCorrelation”,其他操作与Q聚类相同。实例分析:根据学生考试分数对课程进行分类四、快速聚类分析
快速聚类分析是由研究者指定类别数的大样本资料逐步聚类分析。它先对数据进行初始分类,然后逐步调整,得到最终分类。快速聚类分析一般是对个案来进行的。快速聚类分析也是以个案的距离为基础的,与层次聚类分析不同的是:快速聚类分析先要指定分类的类别数,其逻辑程序是:1.用户指定分类类别数k(无经验时可以进行多次探索性分析)2.SPSS程序自动确定各类中心点(有经验用户也可以自己定义)3.计算所有个案数据点到k个类中心点的欧氏距离4.根据距离最近原则将个案归类,即距离哪个类中心点最近归为哪个类5.据初步分类计算各类中心点坐标再计算距离重新归类。6.不断重复调整,直到各个个案真正进入到最近类为止。第一步:数据文件的准备。快速聚类分析的数据文件往往比较大,主要是包括的个案数较多,而且可以包括一个个案的标识变量。当数据文件中数据量纲不一致时,则需要对数据进行标准化转换或其他转换。第二步:点击“Analyze”菜单选中“Classify”的“K-MeansCluster”打开快速聚类分析对话框,将参与聚类分析的观测变量置入“Variable(s)”下的方框中,指定类别数,同时在“Method”之下选择默认的“IterateandClassify”,这样,程序可以自动确定类中心点。快速聚类分析的主要步骤是:第三步:点击“Options”打开统计参数显示对话框和缺省值处理方式对话框。在“Statistics”之下有三方面的显示要求:
Initialclustercenters:显示有关初始类中心点的数据;
Anovatable:对快速聚类分析产生的类作单因素方差分析,并输出各个变量的方差分析表;
Clusterinformationforeachcase:输出个案的分类信息及距所属类中心点的距离。其他操作以默认方式进行
实例分析:为反映员工心理因素方面的差异性,某研究者调研了一工厂36名员工的6项心理因素,如下表所示。请根据这一分数对员工进行分类,并回答:员工分成几类比较理想?Z1Z2Z3Z4Z5Z6Z1Z2Z3Z4Z5Z6666462505856536653595545555059595351615558615861504749454646596460525456555950545269556072605567555948564750565268405155625468464651595161565256606056535251605362554763525269585762525157455559565557394446565757525955505068464556685871685361585460595251605361605651535255576564645674505957525653576351675360535351566552516247565667675652506359535548534649435048635760665156535765526759564658504552604071575658475057495048544544494246SPSS过程演示练习题1.为研究不同公司的运营特点,调查了15个公司的组织文化、组织氛围、领导角色和员工发展4个方面的内容。请将这15个公司按照其各自的特点划分成4种类型。数据如下表所示。不同公司的特点公司组织文化组织氛围领
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度渔业科技研发与养鱼生产合作合同3篇
- 二零二五年度养殖场养殖环境监测与改善人员劳动合同3篇
- 二零二五年度农村村委会村庄防灾减灾设施建设合同
- 二零二五年度全新酒店转租协议合同:酒店客房租赁权变更协议3篇
- 二零二五年度农用拖拉机耕地与农业现代化服务合同
- 二零二五年度养猪业饲料采购与供应合同3篇
- 二零二五年度城市老旧小区改造合作协议合同范文3篇
- 2025农村回迁房买卖合同(含土地使用年限)
- 2024年中国电话机罩市场调查研究报告
- 2025年度数据中心防火门紧急更换与安全防护合同2篇
- 腰椎感染护理查房
- 2023-2024学年全国小学三年级上语文人教版期末考卷(含答案解析)
- 2024秋期国家开放大学专科《法律咨询与调解》一平台在线形考(形考任务1至4)试题及答案
- 七年级全册语文古诗词
- 销售业务拓展外包协议模板2024版版
- 2024软件维护合同范本
- 2022-2023学年北京市海淀区七年级上学期期末语文试卷(含答案解析)
- 汽车尾气排放治理作业指导书
- 人教版初中美术八年级上册 第一单元 第1课 造型的表现力 教案
- 云南省师范大学附属中学2025届高二生物第一学期期末联考试题含解析
- 人教部编版初中八年级生物上册知识梳理
评论
0/150
提交评论