第九章SPSS的聚类分析_第1页
第九章SPSS的聚类分析_第2页
第九章SPSS的聚类分析_第3页
第九章SPSS的聚类分析_第4页
第九章SPSS的聚类分析_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 SPSS的聚类分析聚类分析概述 概念:聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法. 例如:细分市场、消费行为划分 聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.聚类分析概述编号编号 购物环境购物环境 服务质量服务质量 A 73 68 B 66 69 C 84 82 D 91 88 E 94 90 两类两类:(A B) (C D E) 三类三类:(A B) (C) (D E)l依据平均得分依据平均得分的差距的差距, ,差距较差距较小的为一类小的为一

2、类. .l分类过程中分类过程中, ,没有事先指定没有事先指定分类的标准分类的标准. .完完全根据样本数全根据样本数据客观产生分据客观产生分类结果类结果. . 亲疏远程度的衡量指标亲疏远程度的衡量指标相似性相似性: :数据间相似程度的度量数据间相似程度的度量距离距离: : 数据间差异程度的度量数据间差异程度的度量. .距离越近距离越近, ,越越“亲密亲密”, ,聚成一类聚成一类; ;距离越远距离越远, ,越越“疏疏远远”, ,分别属于不同的类分别属于不同的类 定距型个体间的距离:定距型个体间的距离: 把每个个案数据看成是把每个个案数据看成是n n维空间上的点维空间上的点, ,在点和点之间定义某种

3、距离在点和点之间定义某种距离. .一般适用于定距数一般适用于定距数据据 欧氏距离欧氏距离( (EUCLID)EUCLID) 平方欧氏距离平方欧氏距离( (SEUCLIDSEUCLID) )kiiiyxyxEUCLID12)(),(聚类分析概述个体距离矩阵l定距型个体间的距离聚类分析概述Proximity Matrix.0008.06217.80426.90730.4148.062.00025.45634.65538.21017.80425.456.0009.22012.80626.90734.6559.220.0003.60630.41438.21012.8063.606.000Case1:A

4、商厦2:B商厦3:C商厦4:D商厦5:E商厦1:A商厦2:B商厦3:C商厦4:D商厦5:E商厦 Euclidean DistanceThis is a dissimilarity matrixl品质型个体间的距离姓名 授课方式 上机时间 选某门课程张三 1 1 1 李四 1 1 0王五 0 0 1聚类分析概述 品质型个体间的距离品质型个体间的距离简单匹配简单匹配( (simple matching)simple matching)系数系数: :适用二值变量。适用二值变量。dcbacbjid),(个体j个体i 1 01 a b0 c d a为个体i与个体j在所有变量上同时取1的个数;d为同时取0

5、的个数特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。聚类分析概述l品质型个体间的距离l简单匹配(simple matching)系数:适用二值变量。姓名 授课方式 上机时间 选某门课程张三 1 1 1 李四 1 1 0王五 0 0 1(张三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(张三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3张三距李四近聚类分析概述 品质型个体间的距离品质型个体间的距离根据临床表现研究病人是否有类似的病根据临床表现研究病人是否有类似的病姓名 性别 发烧

6、咳嗽 检查1 检查2 检查3 检查4张三 男 1 0 1 0 0 0李四 女 1 0 1 0 1 0王五 男 1 1 0 0 0 0. 聚类分析概述 品质型个体间的距离品质型个体间的距离雅科比(雅科比(JaccardJaccard)系数系数: :适用二值变量适用二值变量cbacbjiJ),(个体j个体i 1 01 a b0 c d a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时不拥有某特征的情况;取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化聚类分析概述l品质型个体间的距离l雅科比(Jaccard)系数:适用二值变量姓名 授课方式

7、 上机时间 选某门课程张三 1 (0) 1(0) 1(0) 李四 1 (0) 1(0) 0(1)王五 0 (1) 0(1) 1(0)(张三,李四) 1: a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(张三,李四) 2: a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3 (相同) (张三,李四) 1: a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3(张三,李四) 2: a=0 b=0 c=1 d=2 J(x,y)=1/1=1 (不相同) 品质型个体间的距离品质型个体间的距离JaccardJaccard系数举例系数举例: :根据临床

8、表现研究病人是否有类似的病根据临床表现研究病人是否有类似的病姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4张三 男 1 0 1 0 0 0李四 女 1 0 1 0 1 0王五 男 1 1 0 0 0 0. 33. 010210),(李四张三d67. 010111),(王五张三d75. 021121),(王五李四d结论:张三和李四最有可能得类似的病;李四和王五不太有可能聚类分析概述l品质型个体间的距离卡方距离:计数变量姓名选修课门数(期望频数)专业课门数(期望频数)得优门数(期望频数)合计张三9(8.5)6(6)4(4.5)19李四8(8.5)6(6)5(4.5)19合计17129381

9、2. 4)5 . 4)5 . 45(6)66(5 . 8)5 . 88()5 . 4)5 . 44(6)66(5 . 8)5 . 89(222222 说明说明 聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。例如例如: : 样本的欧氏距离 元 万元(1,2) 26500081.623(1,3) 218000193.700(2,3) 47000254.897样 本 号 社科活动人员 数 (人 )研究与发展年投 入 经 费 (元 )研 究 与 发 展课 题 数 (项 )1410438000019233617300002134902

10、200008聚类分析概述聚类分析概述l说明l聚类分析中的变量选择问题变量应和聚类分析的目标密切相关(如;学校科研能力的评价。如:科研经费 项目 获奖 人数 办学性质)聚类结果仅是所选定变量所具数据特点的反应.变量之间不应具有高度相关性,否则相当于给这些变量进行了加权l聚类分析包括:个案聚类和变量聚类两种。l聚类分析包括:分层聚类和快速聚类分层聚类 思路:聚类过程具有一定的层次性 以合并(凝聚)的方式聚类(SPSS采用)首先,每个个体自成一类其次,将最“亲密”的个体聚成一小类然后,将最“亲密”的小类或个体再聚成一类重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一

11、大类)为止可见,随着聚类的进行,类内的“亲密”性在逐渐减低分层聚类 思路思路 以分解的方式聚类以分解的方式聚类首先首先, ,所有个体都属于一类所有个体都属于一类其次其次, ,将大类中最将大类中最“疏远疏远”的小类或个体分离出去的小类或个体分离出去然后然后, ,分别将小类中最分别将小类中最“疏远疏远”的小类或个体再分离出去的小类或个体再分离出去重复上述过程重复上述过程, ,即:把类分解成越来越小的小类,直到所有的个体自成一类为止即:把类分解成越来越小的小类,直到所有的个体自成一类为止可见可见, ,随着聚类的进行随着聚类的进行, ,类内的亲密性在逐渐增强类内的亲密性在逐渐增强分层聚类 “亲疏亲疏”

12、程度的衡量对象程度的衡量对象个体间距离个体间距离个体和小类间、小类和小类间的距离个体和小类间、小类和小类间的距离分层聚类 个体和小类、类和类间的距离个体和小类、类和类间的距离最短距离法最短距离法( (nearest neighbor):nearest neighbor): 两类间的距离定义为两类中距离最近的两个个案之间的距离两类间的距离定义为两类中距离最近的两个个案之间的距离最长距离法最长距离法( (furthest neighbor)furthest neighbor): 两类间的距离定义为两类中距离最远的两个个案之间的距离两类间的距离定义为两类中距离最远的两个个案之间的距离平均链锁法平均链

13、锁法( (within-groups linkage)within-groups linkage) 两类之间的距离定义为两类个案之间距离的平均值。包括:两类之间的距离定义为两类个案之间距离的平均值。包括: 组间平均链锁法组间平均链锁法( (between-groups linkage):between-groups linkage):只考虑两类间个案的距离只考虑两类间个案的距离 组内平均链锁法(组内平均链锁法(With-groups linage)With-groups linage):考虑所有个案间的距离考虑所有个案间的距离分层聚类 基本操作步骤基本操作步骤1.1.基本操作基本操作A.A.菜

14、单选项菜单选项: : analyze-classify-hierachical clusteranalyze-classify-hierachical clusterB.B.选择参与聚类分析的变量入选择参与聚类分析的变量入variablesvariables框框C.C.选择一字符型变量作为个案的标记变量选择一字符型变量作为个案的标记变量( (label cases)label cases)D.D.选择个案聚类还是变量聚类选择个案聚类还是变量聚类分层聚类 基本操作步骤基本操作步骤2. 2. 选择距离计算方法(选择距离计算方法(methodmethod选项)选项) cluster method:c

15、luster method:计算类间距离的方法计算类间距离的方法 measure:measure:计算样本距离的方法计算样本距离的方法 transform values:transform values:对数据进行标准化处理对数据进行标准化处理by variable:by variable:以以变量为单位标准化,适于个案聚类变量为单位标准化,适于个案聚类 by case:by case:对个案为单位标准化,适于变量聚类对个案为单位标准化,适于变量聚类分层聚类 进一步的工作进一步的工作1.1.数据输出(数据输出(statisticsstatistics选项)选项) agglomeration s

16、chedule:agglomeration schedule:凝聚状态表(默认)凝聚状态表(默认) distance matrix:distance matrix:样本的距离矩阵样本的距离矩阵 cluster membership:cluster membership:类成员类成员none:none:不输出类成员(默认)不输出类成员(默认)single solutionsingle solution:聚成聚成n n类时各样本的归属类时各样本的归属range of solutions:range of solutions:聚成聚成mnmn类时各样本的归属类时各样本的归属( (mnmnclassi

17、fy-k means clusteranalyze-classify-k means clusterB.B.选定参加快速聚类分析的变量到选定参加快速聚类分析的变量到variablesvariables框框C.C.确定快速聚类的类数确定快速聚类的类数( (number of clusters).number of clusters).类数应小类数应小于个案总数于个案总数D.D.选择聚类方法选择聚类方法( (method)method):默认默认iterate and classifyiterate and classify,即:即:在聚类的每一步都重新计算新的类中心在聚类的每一步都重新计算新的类

18、中心E.E.确定聚类终止条件(确定聚类终止条件(iterate)iterate)K-means快速聚类( (四四) )其他其他1. 1. 保存快速聚类的结果保存快速聚类的结果( (save)save)cluster membership:cluster membership:将各个案所属类的类号保存到将各个案所属类的类号保存到qcl_qcl_1 1变量中变量中distance from cluster center:distance from cluster center:将各样本距所属类中心将各样本距所属类中心的距离保存到的距离保存到qcl_2qcl_2变量中变量中. .K-means快速聚类( (四四) )其他其他2.2.输出选项输出选项( (option)option)initial cluster centers:initial cluster centers:输出输出初始类中心点初始类中心点ANOVA table:ANOVA table:输出各类的方差分析表输出各类的方差分析表cluster information for each case:cluster information for each case:输出每个样本的分类输出每个样本的分类结果和距离结果和距离K-means快速聚类( (四四) )其他其他3. 3. us

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论