版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章聚类分析要点4.1
聚类分析的基本思想
推荐阅读
4.4
应用实例及SPSS实现
4.2聚类统计量
4.3系统聚类法2007.8安徽财经大学统计与应用数学学院返回第4章聚类分析
学习目的和要求:
通过本章的学习,使学生了解聚类分析及其适用的范围和对象、聚类分析的目的。了解聚类分析中常用的距离和相似系数以及它们各自的特点及适用范围。掌握系统聚类法及其应用。运用SPSS进行计算处理。(Cluster
Analysis)2007.8安徽财经大学统计与应用数学学院4.1
聚类分析的基本思想返回4.1.1
引例4.1.2
聚类分析的对象类型4.1.3
聚类分析的基本思想4.1.4
聚类的方法2007.8安徽财经大学统计与应用数学学院4.1
聚类分析的基本思想返回4.1.1
引例4.1.3
聚类分析的基本思想4.1.4
聚类的方法引例——聚类分析的含义聚类分析方法的产生4.1.2聚类分析的对象类型2007.8安徽财经大学统计与应用数学学院
俗话说:“物以类聚,人以群分”,在社会、经济、管理、气象、地质、人口、考古等众多领域,都存在着大量的分类研究问题。
如:对我国31个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省、市、自治区去分析,而较好的做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对31个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。
4.1.1
引例引例——聚类分析的含义2007.8安徽财经大学统计与应用数学学院
4.1.1
引例引例——聚类分析的含义
在成熟股市中,一个股民若想成功,必须学会板块分析,习惯理性操作,树立板块投资理念。股市中的板块(板块是指具有共同特征的股票群)可以行业和产业、地域、时间、特殊题材等多种角度来划分,而在每一板块中又有几十种甚至上百种股票。面对众多股票及每个公司的众多财务数据,怎样才能客观、全面、准确地分析并选出各板块及板块内的绩优龙头股和潜力股呢?2007.8安徽财经大学统计与应用数学学院
4.1.1
引例引例——聚类分析的含义
以高科技板块中的31个上市公司为例,选取这31个上市公司XX年的每股收益、每股净资产、股东权益率、净资产收益率、净利润率等五个反映上市公司综合盈利能力的指标,聚类分析能综合这多项财务指标来反映上市公司的盈利能力和水平,找出最具实力的板块潜力股、龙头股。2007.8安徽财经大学统计与应用数学学院不同地区城镇居民收入和消费状况的分类研究;对某城市按大气污染的轻重分成几类区域;对某年级学生按学习成绩的好差分成几等;在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类……区域经济及社会发展水平的分析及全国区域经济综合评价2007.8安徽财经大学统计与应用数学学院
当有一个分类指标时,分类比较容易。但是当有多个指标,要进行分类就不是很容易了。由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。
4.1.1
引例引例——聚类分析的含义2007.8安徽财经大学统计与应用数学学院
聚类分析是一种分类技术,又称群分析、点群分析、簇群分析,它是根据“物以类聚”的道理,对事物(样品或指标)进行分类的一种多元统计方法。
4.1.1
引例引例——聚类分析的含义这种方法的特点是只根据事物本身的特征分类,即将事物性质相近的归为一类,性质的差异较大的归在不同的类。所谓“类”,通俗地说就是相似元素的集合。分类,是将一个观测对象指定到某一类(组)。2007.8安徽财经大学统计与应用数学学院
传统的分类方法起源很早,在古老的分类学中,人们主要靠经验和专业知识进行定性的分析,许多分类往往带有主观性和任意性,不能揭示客观事物的内在本质差别和联系。
4.1.1
引例聚类分析方法的产生2007.8安徽财经大学统计与应用数学学院随着人类科学技术的发展,对分类的要求越来越高,仅凭经验和专业知识难以确切的进行分类,特别是对于多因素、多指标的分类问题。数学工具引用到分类学中,形成数值分类学,后来又将多元分析的技术引入到数值分类学,逐步形成聚类分析这一数值分类方法。
4.1.1
引例聚类分析方法的产生2007.8安徽财经大学统计与应用数学学院4.1
聚类分析的基本思想返回4.1.1
引例4.1.3
聚类分析的基本思想4.1.4
聚类的方法R型聚类Q型聚类4.1.2聚类分析的对象类型2007.8安徽财经大学统计与应用数学学院
4.1.2聚类分析的对象类型R型聚类
以分类对象为标准,可以将变量(指标)分类——R型聚类分析。
如城镇居民消费水平通常用八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类等。
在生产活动中不乏有变量聚类的实例,如:衣服型号就是根据人体各部分尺寸数据找出最有代表性的指标如身长、胸围和裤长、腰围作为上衣和裤子的代表性指标。变量聚类使批量生产成为可能。
R型聚类是对变量进行分类处理。一般来说,可以反映研究对象特点的变量有许多,由于对客观事物的认识有限,往往难以找出彼此独立且有代表性的变量,影响对问题进一步的认识和研究,因此往往需要先进行变量聚类,找出相互独立又有代表性的变量,而又不丢失大部分信息。2007.8安徽财经大学统计与应用数学学院更多的应用是将样品(个体)分类——Q型聚类分析。
如解剖学上依据骨骼的形状和大小等,不仅可以区别样品是人还是猿,还可以区别性别、年龄等。
4.1.2聚类分析的对象类型Q型聚类
Q型聚类是对样品进行分类,即对观测进行分类。根据观测有关变量的特征,将特征相似的样品归为一类。它是聚类分析中用的最多的一种。2007.8安徽财经大学统计与应用数学学院
这两种聚类在数学上是对称的,没有什么不同。本章主要讨论Q型聚类分析问题。
4.1.2聚类分析的对象类型2007.8安徽财经大学统计与应用数学学院4.1
聚类分析的基本思想返回4.1.1
引例4.1.3
聚类分析的基本思想4.1.4
聚类的方法聚类分析的基本思想4.1.2聚类分析的对象类型2007.8安徽财经大学统计与应用数学学院
4.1.3聚类分析的基本思想聚类分析的基本思想
我们所研究的样品或指标(变量)之间存在着程度不同的相似性(亲疏关系),于是:
(1)根据一批样品的多个观测指标,具体找出一些能够度量样品或变量(指标)之间相似程度的统计量;
(2)以这些统计量为划分类型的依据,建立一种分类方法,将一批样品或变量(指标),按照它们在性质上的亲疏、相似程度进行分类。2007.8安徽财经大学统计与应用数学学院
与多元分析的其它方法比,聚类分析方法较为粗糙,理论上还不够完善,但应用方便、广泛,与回归分析、判别分析一起被称为多元分析的三大方法。受到人们的青睐。
4.1.3聚类分析的基本思想2007.8安徽财经大学统计与应用数学学院4.1
聚类分析的基本思想返回4.1.1
引例4.1.3
聚类分析的基本思想4.1.4
聚类的方法聚类的方法4.1.2聚类分析的对象类型2007.8安徽财经大学统计与应用数学学院
1、系统聚类法(谱系聚类):先将n个元素(样品或变量)看成n类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到n-1类,再从中找出最接近的2类加以合并变成了n-2类,如此下去,最后所有的元素全聚在一类之中。
2、动态聚类法(调优法):开始将n个元素粗糙地分成若干类,然后用某种最优准则(如分类函数尽可能小的原则)对已分类别进行调整,直到分类合理为止。
3、有序样品的聚类:n个样品按某种因素(时间或年龄或地层深度等)排成次序,要求必须是次序相邻的样品才能聚在一类。
4、分解法:其程序与系统聚类相反。首先所有的元素均在一类,然后用某种最优准则将它分成2类,再用同样准则将这2类各自试图分裂为2类,从中选1个使目标函数较好者,这样由2类变成了3类。如此下去,一直分裂到每类中只有1个元素为止,有时即使是同一种聚类方法,因聚类形式(即距离的定义方法)不同而有不同的停止规则。
其他还有加入法、图论聚类、模糊聚类等。
4.1.4聚类的方法聚类的方法2007.8安徽财经大学统计与应用数学学院4.2
聚类统计量返回4.2.1
聚类分析的数据格式4.2.3
数据的变换处理4.2.4
聚类统计量4.2.2变量测量尺度的类型2007.8安徽财经大学统计与应用数学学院4.2
聚类统计量返回4.2.1
聚类分析的数据格式4.2.3
数据的变换处理4.2.4
聚类统计量聚类分析的数据格式4.2.2变量测量尺度的类型2007.8安徽财经大学统计与应用数学学院
n个样品p项指标形成的原始数据资料矩阵中,每一行表示一个样品,每一列表示一个变量,Xij表示第i个样品的第j个变量的值
。因此,两个样品的相似性可用矩阵中两行的相似程度来刻划;两个变量的相似性可用矩阵中两列的相似程度来刻划。
4.2.1聚类分析的数据格式聚类分析的数据格式2007.8安徽财经大学统计与应用数学学院设有n个样品单位,每个样品测得p项指标(变量),原始资料阵为:
4.2.1聚类分析的数据格式聚类分析的数据格式2007.8安徽财经大学统计与应用数学学院个指标的观测数据。第i个样品Xi为矩阵X的第i行所描述,所以任何两个样品Xk与XL之间的相似性,可以通过矩阵X中的第K行与第L行的相似程度来刻划;任何两个变量xk与xL之间的相似性,可以通过第K列与第L列的相似程度来刻划。其中为第i个样品的第j2007.8安徽财经大学统计与应用数学学院4.2
聚类统计量返回4.2.1
聚类分析的数据格式4.2.3
数据的变换处理4.2.4
聚类统计量间隔尺度4.2.2变量测量尺度的类型有序尺度名义尺度2007.8安徽财经大学统计与应用数学学院
为了将样本进行分类,就需要研究样品之间的关系;而为了将变量进行分类,就需要研究变量之间的关系。但无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。通常,变量按照测量它们的尺度不同,可以分为三类。
4.2.2变量测量尺度的类型变量测量尺度的类型2007.8安徽财经大学统计与应用数学学院
4.2.2变量测量尺度的类型间隔尺度
间隔尺度(定距尺度、定量变量)——变量用连续的(实值)量表示。由测量、计数或统计所得到的量,如长度、重量、经济统计数字、抽样调查数据等;2007.8安徽财经大学统计与应用数学学院
4.2.2变量测量尺度的类型有序尺度
有序尺度(定序变量、定性变量)——用该变量度量时没有明确的数量表示,只有次序(等级)关系,如产品质量,分为一等品、二等品等。2007.8安徽财经大学统计与应用数学学院
4.2.2变量测量尺度的类型名义尺度
名义尺度(定类变量、定性变量)——具有该种特性的变量在度量时既没有数量表示,也没有次序关系,而只有性质上的差异(用一些类表示),如性别、职业等。2007.8安徽财经大学统计与应用数学学院
4.2.2变量测量尺度的类型不同类型的变量,在定义距离和相似系数时,其方法有很大差异。
在实际应用中,研究比较多的是间隔尺度,本章主要讨论具有间隔尺度变量的样品聚类分析方法。2007.8安徽财经大学统计与应用数学学院4.2
聚类统计量返回4.2.1
聚类分析的数据格式4.2.3
数据的变换处理4.2.4
聚类统计量数据的变换处理4.2.2变量测量尺度的类型常用的变换方法2007.8安徽财经大学统计与应用数学学院
4.2.3数据的变换处理数据的变换处理
设有n个样品,每个样品有p项指标(变量),得观测数据Xij(i=1,2,……,n,j=1,2,……,p),所考察的p个不同变量,一般都有不同的量纲,不同的取值范围(数量级单位)。
为了使不同量纲、不同取值范围的数据能放在一起进行比较,通常需要对数据进行变换处理,即将原始数据矩阵中的每个元素,按照某种特定的运算把它变为一个新值而且数值的变化不依赖于原始数据集合中其它数据的新值。2007.8安徽财经大学统计与应用数学学院
4.2.3数据的变换处理常用的变换方法(1)中心化变换:一种标准化处理方法,先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,变换后数据的均值为0,而协差阵不变。设原始观测数据矩阵为:2007.8安徽财经大学统计与应用数学学院
4.2.3数据的变换处理常用的变换方法(2)标准化变换:主要是对变量的属性进行变换处理。首先对列进行中心化,然后用标准差进行标准化。变换后每个变量的样本均值为0,标准差为1,且变换后的数据与变量的量纲无关。在抽样样本改变时,它仍保持相对稳定性。2007.8安徽财经大学统计与应用数学学院
(3)极差规格化变换:规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差,就得到规格化数据。即有:
4.2.3数据的变换处理常用的变换方法2007.8安徽财经大学统计与应用数学学院
经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;并且变换后的数据都不再具有量纲,便于不同的变量之间的比较。
4.2.3数据的变换处理常用的变换方法2007.8安徽财经大学统计与应用数学学院
(4)对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。即:
4.2.3数据的变换处理常用的变换方法2007.8安徽财经大学统计与应用数学学院某年我国部分省市经济效益情况用以上几种方法对其无量纲化。指标实际值北京天津上海江苏广东产品销售率(%)资金利税率(%)成本利润率(%)劳动生产率(元/人)流动资金周转次数(次)净资产率(%)96.0114.909.51148301.6828.4095.729.213.35100041.7926.4898.4213.887.55155451.8025.5693.4310.753.9997082.2122.3095.1610.255.03145901.8725.01
实例2007.8安徽财经大学统计与应用数学学院4.2
聚类统计量返回4.2.1
聚类分析的数据格式4.2.3
数据的变换处理4.2.4
聚类统计量事物之间相似性测度4.2.2变量测量尺度的类型距离相似系数2007.8安徽财经大学统计与应用数学学院
4.2.4聚类统计量事物之间相似性测度
聚类分析用于系统类群相似性的研究,其实质上是寻找一种能客观反映事物(样品或变量)之间亲疏(相近或相似)关系的统计量,然后根据这种统计量把事物(样品或变量)分成若干类。
描述样品(或变量)间相近(亲疏)、相似程度的统计量很多,目前用得最多的聚类统计量是距离和相似系数,距离系数一般用于对样品分类,而相似系数一般用于对变量聚类。2007.8安徽财经大学统计与应用数学学院
4.2.4聚类统计量距离假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,此时自然想用距离来度量样品之间接近的程度——即两个样品间接近程度用P维空间中两点的距离来度量。
——在聚类过程中,距离较近的点倾向于归为一类,距离较远的点应归属不同的类。——样品间相近性(亲疏程度)的测度
2007.8安徽财经大学统计与应用数学学院首先我们看样本数据:
4.2.4聚类统计量距离2007.8安徽财经大学统计与应用数学学院
4.2.4聚类统计量距离
1、定义距离的准则
定义距离要求满足第i个和第j个样品之间的距离如下四个条件(距离可以自己定义,只要满足距离的条件)(样品i和样品j的各指标相同)(对称性)(三角不等式)2007.8安徽财经大学统计与应用数学学院
4.2.4聚类统计量距离2、常用距离的算法
通常我们定义的距离一般是指欧氏(欧几米德)距离(直线距离),几何平面上的点P=(x1,x2)到原点O=(0,0)的欧氏距离,依勾股定理2007.8安徽财经大学统计与应用数学学院
Rp
中两点X=(x1,x2,…,xp)和Y=(y1,y2,…,yp)之间的欧氏距离为:
4.2.4聚类统计量距离2、常用距离的算法2007.8安徽财经大学统计与应用数学学院
4.2.4聚类统计量距离2、常用距离的算法常用距离——明氏距离(Minkowski距离):(通用的距离测度公式)2007.8安徽财经大学统计与应用数学学院(最直观的距离)
4.2.4聚类统计量距离2、常用距离的算法当q=2时:欧氏(Euclidean)距离当q=1时:绝对值距离2007.8安徽财经大学统计与应用数学学院
4.2.4聚类统计量距离2、常用距离的算法当q=∞时:切比雪夫(Chebychev)距离2007.8安徽财经大学统计与应用数学学院
4.2.4聚类统计量距离2、常用距离的算法欧氏距离是人们较为熟悉的也是使用最多的距离。但欧氏距离存在不足之处,主要表面在两个方面:一方面距离与各变量的量纲有关,且距离的大小与各指标的观测单位有关(即没有考虑各变量方差的不同,变差大的变量在距离中的作用(贡献)就会大),具有一定的人为性;另方面,没有考虑指标之间的相关性。2007.8安徽财经大学统计与应用数学学院
例如:对体重和身高进行测量,采用不同单位,其距离测量的结果不同。2007.8安徽财经大学统计与应用数学学院当长度为cm时:当长度为mm时:2007.8安徽财经大学统计与应用数学学院通常改进办法有两个:(1)当各指标的测量值相差悬殊时,先对数据标准化,用标准化后的数据计算距离。标准化后的数据,每个变量的样本均值为0,标准差为1,与变量的量纲无关;常用的聚类分析软件中都有这项功能,可以自动完成。2007.8安徽财经大学统计与应用数学学院(2)为克服变量之间的相关性影响,可以采用马氏距离。下面用一个一维的例子说明欧氏距离与马氏距离在概率上的差异。
设有两个正态总体,
2007.8安徽财经大学统计与应用数学学院
现给定一个样品位于A处,试问A处的样品离哪一个总体较近。2007.8安徽财经大学统计与应用数学学院从图上看,若按欧氏距离来度量,A点离的中心要比离的中心“近一些”,但是从概率论的角度来看,A点位于右侧约处,而位于左侧约处,用标准差来度量,那么A点离要比离“近一些”。显然,后一种度量更为合理.它是用坐标差平方除以方差(或乘以方差的倒数),从而化为无量纲数,推广到多维就要乘以协方差阵是马氏距离的概念。2007.8安徽财经大学统计与应用数学学院
4.2.4聚类统计量距离2、常用距离的算法马氏距离是由印度统计学家马哈拉诺比斯于1936年引入的,故称为马氏距离。这一距离在多元统计分析中起着十分重要的作用。2007.8安徽财经大学统计与应用数学学院设,考虑点X到G1、G2的相对距离:2007.8安徽财经大学统计与应用数学学院2007.8安徽财经大学统计与应用数学学院其中如果存在,则两个样品之间的马氏距离为2007.8安徽财经大学统计与应用数学学院马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,消除了各个观测指标不同量纲的影响。2007.8安徽财经大学统计与应用数学学院马氏距离虽然考虑了观测变量之间的相关性,并且也不受观测变量量纲不同的影响,但是在聚类分析之前,如果用全部数据计算的均值向量和协方差矩阵来计算马氏距离,效果并不是很好。比较合理的办法是用各个类的样本来计算各自的协方差矩阵,同一类样本的马氏距离应当用这一类的协方差短阵来计算。然而,类的形成要依赖于样品之间的距离,反过来样品间合理的马氏距离又依赖于类,这就形成了一个恶性循环。因此,在实际聚类分析处理中,马氏距离也不是理想的距离。2007.8安徽财经大学统计与应用数学学院
4.2.4聚类统计量距离2、常用距离的算法兰氏(Canberra)距离此距离仅适用于一切的情况,这个距离有助于克服各指标之间量纲的影响,但没有考虑指标之间的相关性。2007.8安徽财经大学统计与应用数学学院
以上几种距离的定义均要求变量是间隔尺度的,如果使用的变量是有序尺度或名义尺度的,则有相应的一些定义距离的方法。欧氏距离是聚类分析中用得最广泛的距离。
4.2.4聚类统计量距离2007.8安徽财经大学统计与应用数学学院
4.2.4聚类统计量距离两两样品的距离都算出来后,形成距离阵D,其中:
,D是一个实对称阵,只须计算上(或下)三角形部分,根据D可对n个点进行分类,距离近的点归为一类,距离远的点归为不同的类。距离矩阵:2007.8安徽财经大学统计与应用数学学院
4.2.4聚类统计量相似系数2007.8安徽财经大学统计与应用数学学院
4.2.4聚类统计量相似系数在对变量进行分类时,常常采用相似系数来度量变量之间的相似性,变量之间的关系越是密切,其相似系数越接近于1(或-1);反之,它们的关系越是疏远,其相似系数越接近于0。
——在聚类过程中,比较相似的变量倾向于归为一类,不怎么相似的变量归属不同的类。———变量间相似性的测度2007.8安徽财经大学统计与应用数学学院
4.2.4聚类统计量相似系数
变量Xi
与
Xj的相似系数用Cij来表示。对于间隔尺度,最常用的相似系数有两种:夹角余弦和相关系数。2007.8安徽财经大学统计与应用数学学院
1、夹角余弦:
变量Xi的n次观测值(X1i,X2i……,Xni)看成n维空间的向量,则Xi和
Xj夹角aij的余弦称为两向量的相似系数(它是P维空间中变量Xi的观测向量与变量Xj的观测向量之间夹角的余弦函数)。
4.2.4聚类统计量相似系数2007.8安徽财经大学统计与应用数学学院
夹角余弦—cosine
尽管图中AB和CD长度不一样,但形状相似。当长度不是主要矛盾时,就可利用夹角余弦这样的相似系数。将任何两个样品与看成p维空间的两个向量,这两个向量的夹角余弦用表示。则:
4.2.4聚类统计量相似系数2007.8安徽财经大学统计与应用数学学院在上式中,显然有:-1≤cosθij≤1。夹角余弦—cosine2007.8安徽财经大学统计与应用数学学院
H,其中是一个实对称阵,所以只须计算上三角形部分或下三角形部分,根据H可对n个样品进行分类,把比较相似的样品归为一类,不怎么相似的样品归为不同的类。把所有两两样品的相似系数都算出,可排成相似系数矩阵
4.2.4聚类统计量相似系数夹角余弦—cosine2007.8安徽财经大学统计与应用数学学院
4.2.4聚类统计量相似系数
2、相关系数:这是前面已经有过的大家最熟悉的统计量,它是将数据标准化后的夹角余弦。相关系数常用rij表示。通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义。
2007.8安徽财经大学统计与应用数学学院把两两样品的相关系数都计算出来,可形成样品相关系数矩阵。其中,可根据R可对n个样品进行分类。
4.2.4聚类统计量相似系数2007.8安徽财经大学统计与应用数学学院4.3
系统聚类法返回4.3.1
系统聚类的基本思想4.3.3
系统聚类法的性质4.4.4系统聚类法的步骤4.3.2系统聚类分析的方法2007.8安徽财经大学统计与应用数学学院4.3
系统聚类法返回4.3.1
系统聚类的基本思想4.3.3
系统聚类法的性质4.4.4系统聚类法的步骤系统聚类分析的基本思想4.3.2系统聚类分析的方法2007.8安徽财经大学统计与应用数学学院
4.3.1
系统聚类法的基本思想系统聚类分析的基本思想系统聚类法(也称分层聚类)是诸聚类分析方法中使用最多的一种,它是将类由多变到少的一种方法。2007.8安徽财经大学统计与应用数学学院考虑n个样品的聚类问题,系统聚类方法的基本思想是:开始将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离(这时类间的距离与样品间的距离是等价的),然后将距离最近的两类合并成一个新类,并计算新类与其它类的类间距离;再按最小距离准则并类,这样每次减少一类,直到所有的样品合并成一类为止。
4.3.1
系统聚类法的基本思想系统聚类分析的基本思想2007.8安徽财经大学统计与应用数学学院4.3
系统聚类法返回4.3.1
系统聚类的基本思想4.3.3
系统聚类法的性质4.4.4系统聚类法的步骤类的距离4.3.2系统聚类分析的方法常用种系统聚类方法2007.8安徽财经大学统计与应用数学学院
4.3.2
系统聚类分析的方法类间距离
根据问题和数据的实际情况,样品之间的距离可从上节介绍过的几种聚类统计量中选取最合适的一种。类与类之间的距离,主要是解决以谁来代表全类,也有多种不同的规定代表的方法,由此产生不同的类间距离和不同的系统聚类过程。以下用表示样品与之间距离,用表示类与之间的距离。2007.8安徽财经大学统计与应用数学学院
4.3.2
系统聚类分析的方法常用系统聚类方法(一)最短距离法(singlelinkage,nearestneighbor)样品间:欧氏距离类类间:两类间两两样品距离最短。即下图中样品A1和B2之间的距离.
2007.8安徽财经大学统计与应用数学学院类间距离B1B3B2A1A2最短距离(singlelinkage)它的聚类算法是把两个类之间的距离定义为一个类的所有样品与另一个类的所有样品之间距离的最小者。
2007.8安徽财经大学统计与应用数学学院
定义类Gi与Gj之间的距离为两类最近样品的距离,即
将GK和GL合并成一个新类,记为GM,则任一类GJ
与GM的距离是2007.8安徽财经大学统计与应用数学学院
(1)规定样品之间的距离,计算n个样品的距离矩阵D(0),它是一个对称矩阵,开始每个样品自成一类,显然这时。(2)选择D(0)中非对角线的最小元素,设为DKL,则将GK和GL合并成一个新类,记为GM,即GM={GK,GL}。
4.3.2
系统聚类分析的方法常用系统聚类方法(一)最短距离法聚类步骤:2007.8安徽财经大学统计与应用数学学院
(4)对D(1)重复上述对D(0)的两步得D(2),如此下去直至(3)计算新类与任一类之间的距离为DJM=min{DJK,DJL}将对应GM,所得矩阵记作D(1).D(0)中K、L行,K、L列用上式并成一个新行新列,新行新列
如果某一步D(m)中最小的元素不止一个,则对应这些最小元素的类可以同时合并。所有元素合并成一类为止。2007.8安徽财经大学统计与应用数学学院最短距离法——NearestNeighbor
G1G2G3G4G5G1G2G3G4G50102.5
1.5
06
5
3.50
8
7
5.520G6G3G4G5G6G3G4G50
1.5053.5073.53.50(4-1)2007.8安徽财经大学统计与应用数学学院例4.4.1
为了研究辽宁等5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分。原始数据见(spssex-4/ex401
),指标名称见表4—1
。
实例
4.3.2
系统聚类分析的方法常用系统聚类方法(一)最短距离法2007.8安徽财经大学统计与应用数学学院表4-1某年5省区城镇居民月平均消费数据X1
人均粮食支出(元/人)X2
人均副食支出(元/人)X3
人均烟、酒、茶支出(元/人)X4
人均其它副食支出(元/人)X5
人均衣着支出(元/人)X6人均日用品支出(元/人)X7人均燃料支出(元/人)X8人均非商品支出(元/人)2007.8安徽财经大学统计与应用数学学院x2x37.907.6810.0639.7727.9828.648.498.2010.52辽宁浙江河南甘肃青海9.429.1650.3727.9311.359.01x1x4x5x6x7x812.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.108.392.042.751.551.821.9613.2914.879.7611.3510.81G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={青海}2007.8安徽财经大学统计与应用数学学院
12345011.6713.8013.1212.80024.6324.0623.5402.203.5102.210
现在将表4-1中的每个省区看成一个样品,先计算5省区之间的欧氏距离,用D0表示相应的矩阵(由于矩阵对称,只写出下三角部分)。
辽宁1
浙江2D0=河南3
甘肃4
青海5河南与甘肃的距离最近,先将二者(3和4)合为一类G6={G3,G4}2007.8安徽财经大学统计与应用数学学院=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.212007.8安徽财经大学统计与应用数学学院
距离矩阵D0
中各元素数值的大小,就反映了5省区间消费水平的接近程度。例如甘肃省与河南省之间的欧氏距离最小,为2.20,反映了这两个省区城镇居民的消费水平最接近。
实例
4.3.2
系统聚类分析的方法常用系统聚类方法(一)最短距离法2007.8安徽财经大学统计与应用数学学院例4.4.1开始有五类:G1={辽宁1},G2={浙江2},
G3={河南3},G4={甘肃4},
G5={青海5}
由公式(4-1),这时Dk(i,j)=dij
(i,j=1,…,5
)
即这五类之间的距离等于5个样品之间的距离。为了记号简单,下面用D(i,j)代Dk(i,j),D0中最小的元素是D(4,3)=2.20,故将类G3和类G4合并成一新类G6={3,4},然后计算G6与G1、G2、G5之间的距离。利用D(6,i)=min{D(3,i),D(4,i)}(i=1,2,5)其最近相邻的距离是:2007.8安徽财经大学统计与应用数学学院d(3,4)1=min{d31,d41}=min{13.80,13.12}=13.12d(3,4)2=min{d32,d42}=min{24.63,24.06}=24.06d(3,4)5=min{d35,d45}=min{3.51,2.21}=2.21
在距离矩阵D0中消去了3、4所对应的行和列,并加上{3,4}这一新类对应的一行一列,得到新距离矩阵2007.8安徽财经大学统计与应用数学学院D1=G6G1G2G5G6G1G2G5013.1224.062.21011.6712.80023.540河南、甘肃与青海并为一新类G7={G6,G5}={G3,G4,G6}2007.8安徽财经大学统计与应用数学学院
在D1中发现类间最小距离是d65=2.21,合并类G6和G5,得新类G7={6,5}={3,4,5},再利用D(7,i)=min{D(5,i),D(6,i)}(i=1,2)计算得d7,1=min{d51,d61}=min{12.80,13.12}=12.80d7,2=min{d52,d62}=min{23.54,24.06}=23.54故得新的距离矩阵2007.8安徽财经大学统计与应用数学学院D2=G7G1G2G7G1G2012.8023.54011.670
类间的最小距离是d12=11.67,合并类G1和G2得新类G8={1,2}。此时,有两个不同的类G7={3,4,5}和G8={1,2},它们的最近距离是:d78=min{d71,d72}=min{12.80,23.54}=12.80G8={G1,G2}2007.8安徽财经大学统计与应用数学学院D3=G7G8G7G8012.800
从而,类G7={3,4,5}和类G8={1,2}合并成一个含全部5个样品{1,2,3,4,5}的类,其最短距离是12.80。
如果把上述谱系聚类过程作图表示,即成谱系图,从图上可以清楚地看到各个类在不同距离水平上聚集和归并的过程。2007.8安徽财经大学统计与应用数学学院
河南3甘肃4青海5辽宁1浙江20151015距离最短距离法谱系图2007.8安徽财经大学统计与应用数学学院
在距离为2.20这个水平上首先合并样品{3,4};然后,更新距离矩阵后又在距离为2.21这个水平上合并类G5和
G6={3,4},变成新类G7={3,4,5};在距离为11.67这个水平上又合并G1和G2,得新类G8={1,2};最后在距离为12.80这个水平上又把类G7={3,4,5}和
G8={1,2}合并,形成一个大类的聚类系统。
2007.8安徽财经大学统计与应用数学学院
实例
4.3.2
系统聚类分析的方法常用系统聚类方法(一)最短距离法
最后,决定类的个数与类。如果在谱系图距离为12处切一刀,即得到两类,它们分别是{河南,甘肃,青海}与{辽宁,浙江}。2007.8安徽财经大学统计与应用数学学院
4.3.2
系统聚类分析的方法常用系统聚类方法(二)最长距离法(completelinkage,furthestneighbor)样品间:欧氏距离类类间:两类间样品两两距离最长。即下图中样品A2和B3之间的距离
2007.8安徽财经大学统计与应用数学学院最长距离(completelinkage)类间距离B1B3A1A2B2
最长距离法的聚类算法是把两个类之间的距离定义为一个类的所有样品与另一个类的所有样品之间的距离最大者,但并类的标准仍采用它与其它类的最小距离。
2007.8安徽财经大学统计与应用数学学院
最长距离法——FurthestNeighborG1G2G3G4G5G1G2G3G4G501
02.5
1.506
53.50
8
75.520G6G3G4G5G6G3G4G50
2.5
06
3.508
3.53.50
2007.8安徽财经大学统计与应用数学学院对例4.4.1的数据以最长距离法聚类。
实例2007.8安徽财经大学统计与应用数学学院
1234510211.670313.8024.630413.1224.062.200512.8023.543.512.210
河南与甘肃的距离最近,先将二者(3和4)合为一类G6={G2,G4}
d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.21D1=2007.8安徽财经大学统计与应用数学学院
612560
113.800224.6311.67053.5112.8023.540河南、甘肃与青海并为一新类G7={G6,G5}={G3,G4,G6}D2=d61=d(3,4)1=max{d13,d14}=13.80d62=d(3,4)2=max{d23,d24}=24.63d65=d(3,4)5=max{d35,d45}=3.512007.8安徽财经大学统计与应用数学学院d71=d(3,4,5)1=max{d13,d14,d15}=13.80d72=d(3,4,5)2=max{d23,d24,d25}=24.63
71270113.800224.6311.670d78=max{d71,d72}=24.6378D4=70824.630G8={G1,G2}D3=2007.8安徽财经大学统计与应用数学学院
4.3.2
系统聚类分析的方法常用系统聚类方法(三)中间距离法(medianmethod)样品间:类类间:类间距离既不采用两类之间最近的距离,也不采用有两类之间最远的距离,而是采用介于两者之间的距离。2007.8安徽财经大学统计与应用数学学院中间距离法。如果在某一步将类Gp与类Cq合并为Gr,任一类Gk和Gr的距离公式为:当时.由初等几何知Dkr是上面三角形的中线。2007.8安徽财经大学统计与应用数学学院如果用最短距离法,则如果用最长距离法,则如果取夹在这两边的中线作为则的平方,为了上机计算上的方便,可将表由于距离公式中的量都是距离而得表中的元素,都用相应元素的平方代替2007.8安徽财经大学统计与应用数学学院
4.3.2
系统聚类分析的方法常用系统聚类方法(四)重心法(centroidmethod)样品间:欧氏距离类类间:两类重心(即该类样品的均值)之间的距离2007.8安徽财经大学统计与应用数学学院重心法类的重心之间的距离2007.8安徽财经大学统计与应用数学学院类与类之间的距离定义为它们的重心(均值)之间的(平方)欧氏距离。设GK和GL的重心分别为xk和xL,则GK与GL之间的平方距离为
4.3.2
系统聚类分析的方法常用系统聚类方法(四)重心法(centroidmethod)2007.8安徽财经大学统计与应用数学学院
设某一步将GK和GL合并成GM,它们的重心分别是Xk、XL、Xm,它们各有nk、nL、nm(nm=nk+nL)个样品,显然,新类GM与任一类GJ(重心为xJ)的平方距离是这就是重心法的距离递推公式。2007.8安徽财经大学统计与应用数学学院
重心法的归类步骤与以上三种方法基本上一样,所不同的是每合并一次类,就要重新计算新类的重心及各类与新类的距离。
重心法在处理异常值方面比其它系统聚类法更稳健,有很好的代表性。
4.3.2
系统聚类分析的方法常用系统聚类方法(四)重心法(centroidmethod)2007.8安徽财经大学统计与应用数学学院
4.3.2
系统聚类分析的方法常用系统聚类方法(五)类平均法(平均联结法)(averagelinkagebetweengroup)样品间:欧氏距离类类间:两类之间的距离平方为这两类元素两两之间距离平方的平均。2007.8安徽财经大学统计与应用数学学院SPSS作为默认方法,该法利用了所有样品的信息,被认为是较好的系统聚类法。类间所有样品点的平均距离。2007.8安徽财经大学统计与应用数学学院
设聚类到某一步将和合并为,则任一类与的距离为类与类之间的平方距离定义为这两类元素两两样品之间距离平方的平均,即2007.8安徽财经大学统计与应用数学学院平均联结法有两种形式,一种是组间联结法,另一种是组内联结法。组间联结法在计算距离时,只考虑两类之间样品之间的距离的平均,组内联结法在计算距离时把两组所有样品之间的距离都考虑在内。
4.3.2
系统聚类分析的方法常用系统聚类方法(五)类平均法(平均联结法)(averagelinkagebetweengroup)2007.8安徽财经大学统计与应用数学学院类间距离B1B3B2A1A2平均距离(average)2007.8安徽财经大学统计与应用数学学院2007.8安徽财经大学统计与应用数学学院
4.3.2
系统聚类分析的方法常用系统聚类方法(六)Ward最小方差法
(Ward’minimumvariancemethod
)样品间:欧氏距离类类间:2007.8安徽财经大学统计与应用数学学院Ward最小方差法
由沃德提出,其思想来源于方差分析。如果类分得正确,同类样品的离差平方和应当较小,类与类之间的离差平方和应较大。ClusterKClusterLClusterM设将n个样品分成k类:G1,G2,…,Gk,用表示中的第i个样品(注意是p维向量),nt表示Gt中的样品个数,是Gt的重心,则Gt中样品的离差平方和为:k个类的类内离差平方和为Ward最小方差法2007.8安徽财经大学统计与应用数学学院
Ward法的基本思想是,先将n个样品各自成一类,此时总离差平方和W=0,然后每次将其中某两类合并为一类,因每缩小一类离差平方和就要增大,每次选择使w增加最小的两类进行合并(因为如果分类正确,同类样品的离差平方和应当较小)直到所有的样品归为一类为止。
4.3.2
系统聚类分析的方法常用系统聚类方法(六)Ward最小方差法2007.8安徽财经大学统计与应用数学学院某年全国28个省区经济效益指标(略)
系统聚类法实例地区按经济效益分类:2007.8安徽财经大学统计与应用数学学院类间平均法2007.8安徽财经大学统计与应用数学学院类内平均法2007.8安徽财经大学统计与应用数学学院最短距离法2007.8安徽财经大学统计与应用数学学院最长距离法2007.8安徽财经大学统计与应用数学学院重心法2007.8安徽财经大学统计与应用数学学院中间距离法2007.8安徽财经大学统计与应用数学学院离差平方法2007.8安徽财经大学统计与应用数学学院各种系统聚类方法的统一
上面介绍的几种系统聚类法,并类的原则和步骤基本一致,所不同的是类与类之间的距离有不同的定义,依此所给出的新类与任一类的距离公式不同。其实可以把这几种方法统一起来,有利于在计算机上灵活地选择更有意义的谱系图(有利于计算机程序的编制)。
Lance和Williams于1967年将其统一为:各种系统聚类法公式的参数
用各种系统聚类法并类的结果都是一致的,只是并类的距离不同。然而在一般情况下,用不同的方法聚类的结果是不会完全一致的。自然会问哪一种方法好呢?这就需要提出一个标准作为衡量的依据,但至今还没有一个合适的标准。各种方法的比较目前仍是值得研究的一个课题。
在实际应用中,一般采用以下两种处理方法:一种办法是根据分类问题本身的专业知识结合实际需要来选择分类方法,并确定分类个数。另一种办法是多用几种分类方法去作,把结果中的共性取出来,如果用几种方法的某些结果都一样,则说明这样的聚类确实反映了事物的本质,而将有争议的样品暂放一边或用其它办法如判别分析去归类。2007.8安徽财经大学统计与应用数学学院4.3
系统聚类法返回4.3.1
系统聚类的基本思想4.3.3
系统聚类法的性质4.3.4系统聚类法的步骤单调性4.3.2系统聚类分析的方法空间的浓缩与扩张2007.8安徽财经大学统计与应用数学学院
4.3.3
系统聚类法的性质单调性
令Di是系统聚类法中第i次并类时的距离,如例1中,用最短距离法时,有D1=2.20,D2=2.21,D3=11.67,D4=12.80,且有D1<D2<D3<D4。如果一种系统聚类法能满足D1<D2<D3<…,则称它具有单调性。这种单调性符合系统聚类法的思想,先合并较相似的类,后合并较疏远的类。
最短(长)距离法、(可变)类平均法和离差平方和法都具有单调性,但中间距离法和重心法不具有单调性。2007.8安徽财经大学统计与应用数学学院
4.3.3
系统聚类法的性质空间的浓缩与扩张
设有两种系统聚类法,它们在第i步的距离矩阵分别为Ai和Bi,i=0.1……n-1,若Ai>Bi(aij>bij,对一切i,j),则称第一种方法比第二种方法使空间扩张,或第二种方法比第一种方法使空间浓缩。不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法比较适中。2007.8安徽财经大学统计与应用数学学院4.3
系统聚类法返回4.3.1
系统聚类的基本思想4.3.3
系统聚类法的性质4.3.4系统聚类法的步骤系统聚类法的步骤4.3.2系统聚类分析的方法2007.8安徽财经大学统计与应用数学学院
4.3.4
系统聚类法的步骤系统聚类法的步骤(0)数据变换------为了便于比较、计算上的方便或改变数据的结构;选择度量样品间距离的定义(如欧氏距离)及度量类间距离的定义(如最短距离法,参见“系统聚类分析的方法”)。2007.8安徽财经大学统计与应用数学学院
4.3.4
系统聚类法的步骤系统聚类法的步骤(1)计算n个样品两两间的距离dij,得样品间的距离矩阵D(0);
(2)一开始(第一步:i=1)n个样品各自构成一类,类的个数k=n个类,Gi={X(i)}}(i=1,….n)。此时类间的距离就是样品间的距离(即D(1)=
D(0));2007.8安徽财经大学统计与应用数学学院
4.3.4
系统聚类法的步骤系统聚类法的步骤
(3)合并距离最近的两类为一新类;
(4)计算新类与当前其它各类的距离,得新的距离矩阵D(i),若合并后类的总个数k大于1,重复(3)和(4)步,直到类的个数为1时止;
2007.8安徽财经大学统计与应用数学学院
(5)画谱系聚类图;(6)决定类的个数及各类的成员。
4.3.4
系统聚类法的步骤系统聚类法的步骤2007.8安徽财经大学统计与应用数学学院系统聚类法的步骤可选择适当的距离,计算距离把每个样品看成一类,构造n个类合并最近的两类为一新类计算新类与当前各类的距离判断画聚类图根据实际情况,确定类和类的个数仅有一个类不是仅有一个类采用系统聚类法2007.8安徽财经大学统计与应用数学学院
实例例4.4.3:为了更深入了解我国人口的文化程度状况,现利用全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标:(1)大学以上文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人口占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ)、分别用来反映较高、中等、较低文化程度人口的状况。2007.8安徽财经大学统计与应用数学学院全国人口普查文化程度人口比例(%)地区序
号DXBZCZBZWMBZ北
京19.3030.558.70天
津24.6729.388.92河
北30.9624.6915.21山
西41.3829.2411.30内
蒙51.4825.4715.39辽
宁62.6032.328.81吉
林72.1526.3110.49黑龙江82.1428.4610.87上
海96.5331.5911.04江
苏101.4726.4317.23浙
江111.1723.7417.46安
徽120.8819.9724.43福
建131.2316.8715.63江
西140.9918.8416.22数据来源:《中国计划生育全书》第886页。2007.8安徽财经大学统计与应用数学学院地区序
号DXBZCZBZWMBZ山
东150.9825.1816.87河
南160.8526.5516.15河
北171.5723.1615.79湖
南181.1422.5712.10广
东191.3423.0410.45广
西200.7919.1410.61海
南211.2422.5313.97四
川220.9621.6516.24贵
州230.7814.6524.27云
南240.8113.8525.44西
藏250.573.8544.43陕
西261.6724.3617.62甘
肃271.1016.8527.93青
海281.4917.7627.70宁
夏291.6120.2722.06新
疆301.8520.6612.75续上表:2007.8安徽财经大学统计与应用数学学院计算样品之间的相似系数,使用最长距离法、重心法和Ward法,将上机计算结果按样品号画出聚类图如下:
实例2007.8安徽财经大学统计与应用数学学院2007.8安徽财经大学统计与应用数学学院根据聚类图把30个样品分为四类能更好地反映我国实际情况。第一类:北京、天津、山西、辽宁、吉林、黑龙江、上海。其中大多是东部经济、文化较发达的地区。第二类:安徽、宁夏、青海、甘肃、云南、贵州。其中大多是西部经济、文化发展较慢的地区。第三类:西藏。经济、文化较落后的地区。第四类:其它省、直辖市、自治区。经济、文化在全国处于中等水平。
实例2007.8安徽财经大学统计与应用数学学院4.4
应用实例及SPSS实现返回4.4.1
应用实例及SPSS实现2007.8安徽财经大学统计与应用数学学院4.4
应用实例及SPSS实现返回4.4.1
应用实例及SPSS实现应用实例SPSS的实现2007.8安徽财经大学统计与应用数学学院应用实例2007.8安徽财经大学统计与应用数学学院
SPSS的实现2007.8安徽财经大学统计与应用数学学院其显示聚类每一步的合并过程、被合并两项间的距离、合并后的类水平,据此可以跟踪合并过程和观察接近程度。但需注意,选择不同的聚类方法、测度方法和标准化法,聚类的过程和结果不同。2007.8安徽财经大学统计与应用数学学院
SPSS的实现2007.8安徽财经大学统计与应用数学学院冰柱图从“×”最少处开始逐个增加依次分类。此图可以清楚地看到所有项最后聚为一类的全过程。树形图可以反映聚类的全过程。应用时,一般用直尺竖直放在图面上左右平移,在合并的竖线之间间隔最大距离的区间停止,则为最佳的分类方案。这时与直尺相交的每根横线就是一类,横线左端所包括的各项就是该类的成员。这样处理,各类的特点比较突出而容易定义。
SPSS的实现2007.8安徽财经大学统计与应用数学学院七种聚类方法2007.8安徽财经大学统计与应用数学学院聚类方法:1.Between-groupslinkage
组间平均法(SPSS系统默认)2.Within-groupslinkage
组内平均法3.Nearestneighbor
最短距离法4.Furthestneighbor
最长距离法5.Centroidclustering
重心法(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论