第10讲_聚类分析_第1页
第10讲_聚类分析_第2页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第10讲_聚类分析 spss统计分析从基础到实践 10.1 聚类分析简介 spss统计分析从基础到实践 引例:争论如何将一副一般纸牌中四种花色的a ,k,q,j共16张牌进行分类。 (1)给出一些分组状况。 如:单张套;同花套;黑红套;同字套等。(2)有意义的分组依靠于“相像”的定义。 spss统计分析从基础到实践 (3)在聚类分析的大多数实际应用中,讨论者 清晰了解如何区分“好”的分组与“坏”的 分组。可否列出全部可能的分组,然后从中 选择“最优”分组,以供将来讨论? 分组状况: 16张牌分为一组有一种方法; 16张牌分为两组有32767种方法; 16张牌分为三组有7141686种方法 由于

2、时间的限制,要从全部可能的分组中 找出最优分组是不行能的。 可行的方案:建立算法,利用它们找到好的 ,但未必是最好的分组。 spss统计分析从基础到实践 聚类分析是对纪录(或变量)进行分类的方法 实质: 根据距离的远近将数据分成若干个类别,以 使得类别内数据的差异尽可能的小,类别间 差异尽可能的大。 两个要点: (1)建立定量指标,描述对象之间的差异。 通过距离或相像性的方式来描述。 (2)建立将对象分类的算法。 一、相像性量度 spss统计分析从基础到实践 1、依据聚类的对象选择相像性量度 对记录(cases)聚类时,记录之间的接近 程度常用某种距离表示; 对变量(variables)聚类时

3、,依据变量间 的相关系数或类似的联系量度来分组。2、依据变量的特点选择相像性量度 依据变量的性质(离散型、连续型、二值 型),测量值的尺度(名义尺度、挨次尺度、 标度尺度),以及讨论课题的学问来选择相 似性量度。 3、常用的距离量度 spss统计分析从基础到实践 i、连续变量的距离量度 spss统计分析从基础到实践 ii、频数表资料的距离量度 spss统计分析从基础到实践 iii、二值型变量的距离量度 spss统计分析从基础到实践 其中a,b,c,d的含义如下 spss统计分析从基础到实践 例1:假定五个人具有以下特征:个人 身高(英寸) 体重(磅) 眼球颜色 头发颜色 优势手 性别 1 2

4、3 4 5 68 73 67 64 76 140 185 165 120 210 绿 棕 蓝 棕 棕 金 黑 金 黑 黑 右 右 右 右 左 女 男 男 女 男 spss统计分析从基础到实践 定义6个二值变量来表示6 个特征:xheight 1 0 1 0 1 0 身高 72 英寸 身高 72 英寸 棕色眼睛 其他 右手优势 左手优势 xhaircol 1 xsex 0 xweight 1 0 1 0 女性 男性 体重 150 磅 身高 150 磅 金色头发 其他 xeyecol xhand 数据录入见文件:p527li1.sav。 试求出5个人之间的相像系数和距离。 spss 统计分析从基础

5、到实践 spss操作命令:执行【analyze】/【correlate】/【distances】命令 compute distances: between cases 计算记录间的距离或相像系数 (1)measure: similarities 计算相像系数矩阵 measures 复选框:binary 二值变量 选 simple matching 相像系数的计算方法 simple matching法计算公式为: 某两人之间的相像系数=(a+d)/(a+b+c+d) 其中a,b,c,d含义如下: spss统计分析从基础到实践 (2)measure: dissimilarities计算距离矩阵 m

6、easures 复选框:binary 二值变量 选 euclidean distance 距离的计算方法 euclidean distance法计算公式为: 某两人之间的距离= b c (b,c含义见上表) spss统计分析从基础到实践 spss输出结果为: (1)相像系数矩阵proximity matrix simple matching measure 1 1 2 3 4 5 1.000 .167 .667 .667 .000 2 .167 1.000 .500 .500 .833 3 .667 .500 1.000 .333 .333 4 .667 .500 .333 1.000 .33

7、3 5 .000 .833 .333 .333 1.000 this is a sim ilarity matrix 依据相像系数的大小,可以断言其次人与第 五人最相像,而第一人与第五人最不相像。 依据相像性数字将这五人分成相对接近的两 组,则可得出(1,3,4)和(2,5)。 spss统计分析从基础到实践 (2)距离矩阵:proximity matrix euclidean d istance 1 1 2 3 4 5 .000 2.236 1.414 1.414 2.449 2 2.236 .000 1.732 1.732 1.000 3 1.414 1.732 .000 2.000 2.0

8、00 4 1.414 1.732 2.000 .000 2.000 5 2.449 1.000 2.000 2.000 .000 this is a dissim ilarity matrix spss统计分析从基础到实践 二、聚类算法 i、分层聚类法 spss: hierarchical cluster analysisii、重新定位聚类法(非分层聚类法) 流行的非分层聚类法k均值法 spss: k-means cluster analysis iii、智能聚类法 spss: twostep cluster analysis 10.2 分层(系统)聚类法 spss统计分析从基础到实践 一、分

9、层聚类法的类别及其原理 1、聚集分层法: 从单个元素开头,即在开头时有多少个元 素就有多少个类别;将那些最相像的元素首先 分类,然后将类与类依据它们之间的相像性进 行合并;最终随着相像性不断下降,全部的类 融合为一个大类。 spss统计分析从基础到实践 2、分割分层法: 由全部元素组成的一个类开头,将它分割 成两个子类,使一个子类的元素“远离”另 一个子类的元素;然后将这两个类进一步分 割成不相像的类;这一过程始终进行到每个 元素单独成为一类时为止。 这两类方法的运算原理实际上是相同的,仅 仅是方向相反而已。spss中供应的是聚集分 层法。 spss统计分析从基础到实践 二、聚集分层算法的步骤

10、 1、从n个类(每类只含一个元素)和n*n对称 距离(或相像性)矩阵d开头;2、将距离最近的两类合并为一个类别,从而n 类成为n-1个类别,计算新 产生的类别与其他 各个类别之间的距离或相像度,形成新的距 离(或相像性)矩阵; 3、重复步骤2,直到全部的元素在一个类别时 为止。 spss统计分析从基础到实践 三、两个类别间距离的定义方法 1、最短距离法(nearest neighbor): 用两个类别中各个元素间最短的距离来表示 两个类别间的距离。 2、最长距离法(furthest neighbor): 用两个类别中各个元素间最长的那个距离来 表示两个类别间的距离。3、重心法(centroid clustering): 用两个类别的重心间的距离来表示两个类别 间的距离。 spss统计分析从基础到实践 4、组间平均距离法(between-groups linkage): 用两个类别间各个元素两两间的距离的平均 来表示两个类别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论