版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用统计学课件基本思想聚类分析的基本思想:对所研究的样品或指标(变量)之间存在着程度不同的相似性(或亲疏关系)。于是根据一批样品的多个指标,具体找出一些能够度量样品或指标之间的相似程度的统计量。以
这些统计量为分类的依据,把一些相似程度较大的样品(或指标)聚合为一类。并把另一些彼此之间相似程度较大的样品(或指标)聚合为另一类。从而按相似程度的大小,把关系密切的样品聚合到一个小的分类单位,关系疏远的样品聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕。把不同的类型一一划分出来,形成一个由小到大的分类系统。再把整个分类系统画成一张分群图(又称谱系图),用它把所有样品(或指标)间的亲疏关系表示出来。聚类分析和判别分析的区别应该指出,聚类分析和判别分析都是研究事物分类的基本方法,但二者有着重要的区别。聚类分析把分类对象按一定规则划分成若干类型,这些类型不是事先给定的。而判别分析则事先已知类型的划分.通常每一类都有一个训练样本,据此得出判别函数或判别准则,从而对新样品的归属作出判别。与多元分析的其它方法相比,聚类分析的方法很粗糙,理论也尚不完善。但由于它的应用取得很大成功,和回归分析和判别分析一起被称为多元分析的三大实用方法。本章重点介绍一些常用的分类统计量和目前较为广泛使用的谱系聚类方法。最后,简要介绍一种模糊聚类法。§4.1
分类统计量聚类分析不仅可以对样品进行分类,也可以对指标(变量)进行个样品,每个样品有
个指标。,
可根据
间的某种分类。设有对观察值相似性,对个样品进行分类。例如某班有
个学生,
可根据每个学生的各科考试成绩把学生分为优、良、中和差四类。另一方面,也可对指标进行分类。即根据某种相似性,把这个指标进行分类。例如在服装设计中,往往要测量很多的指标(变量),如身高,上体长,臂长,肩宽,胸围等。对这些指标,大致可分为两大类。一类反映人的高矮,另一类反映人的胖瘦。分类统计量对样品进行分类的方法称为Q
型聚类法。由于每个样品可看成是
p
维空间的一个点,n
个样品就组成p
维空间中的n
个点。这时,自然可以用距离来度量样品之间的相似性。而对指标(变量)进行分类的方法,称为R
型聚类法。指标(变量)间的某种相似性,常用“相似系数”来描述。下面介绍几种常用的距离和相似系数。4.1.1样品间的“相似性”度量—距离设每个样品有p
个指标,观察值记为(4.1.1)每个样品可看成是p
维空间的一个点。于是,可用各点之间的距离来衡量各样品点之间的接近程度。,一般应满足如下的三个条件:时当且仅当
;样品
和
之间的距离,且;(ⅲ);有时所用的距离不满足(ⅲ),但在广义的角度上仍称为距离。常用的距离有如下几种:1.明考斯基(Minkowski)距离(明氏距离)(4.1.2)明氏距离有如下三种特殊形式。2.绝对距离(m=1)(4.1.3)3.欧氏距离(m=2)(4.1.4)4.切比雪夫(Chebychev)距离(m=∞)(4.1.5)数据的标准化方法当各指标的观察值相差很大时,则不应直接采用明氏距离。这时应对每个指标的数据进行标准化,然后对标准化数据计算距离。令(4.1.6)(4.1.7)(4.1.8)分别表示第个指标的样本均值、样本方差和样本极差。标准化方法或极差标准化(4.1.9)(4.1.10)当考虑这些指标(变量)之间的相关性时,可采用方差加权距离或马氏距离。数据的标准化方法有标准差标准化5.方差加权距离(4.1.11)其中为第
个指标的方差。6.马氏(Mahalanobis)距离其中
为
维向量当
和
未知时,
可用的估计,
而用
作为的估计,记作为,则(4.1.12)的协方差矩阵。其中例4.1.1欧洲各国的语言有许多相似之处,有的十分相近。为了研究这些语言之间的历史关系,对数字1,2,…,10的单词作比较,表4.1.1列出了英语(E),挪威语(N),丹麦语(Da),荷兰语(Du),德语(G),法语(Fr),西班牙语(S),意大利语(I),波兰语(P),匈牙利语(H)和芬兰语(Fi)11种语言的单词1,2,…,10的拼写方法,希望计算这11种语言之间的距离。表4.1.111种欧洲语言的数词选择适用的距离在聚类分析中通常要结合实际问题来选择适用的距离,有时应根据实际问题定义新的距离,下面的例子说明了这一点。显然,本例无法直接用上述公式来计算距离。但可以发现前三种文字(英、挪、丹)很相似,特别是每个单词的第一个字母。于是可以用10个数词中第一个字母不同的个数来定义两种语言之间的距离。例如英语和挪威语中只有1和8的第一个字母不同,则它们之间的距离为2。这11种语言两两之间的距离列于表4.1.2。表4.1.211种欧洲语言之间的距离4.1.2
变量间的“关联性”度量—相似系数的关系越密切。用)。常用的相越接近1,
说明指标(变量)
与表示
的
个观察值(似系数有以下几种:聚类分析方法不仅可以样品进行分类,同时也可对指标(变量)进行分类。在对指标(变量)进行分类时,用相似系数来度量指标(变量)之间的相似程度。第个指标(变量)与第个指标来表示,一般应满足(变量)之间的相似系数用如下的三个条件:(ⅰ).(ⅱ).(ⅲ).1.夹角余弦(4.1.13)与这是n
维空间中指标(变量)的观察向量的观察向量之间的夹角余弦。2.相关系数指标(变量)
与的相关系数为(4.1.14)可以表示
与
线性相关的程度,这是把数据标准化后的夹角余弦。当指标(变量)为定性(例如性别,职业,等级)时,也可以定义样品间的“距离”和指标(变量)之间的“相似系数”。§4.2
谱系聚类法谱系聚类法是广泛采用的一种聚类方法,许多统计软件(例如SAS,SPSS)中都有专门的程序。谱系聚类法的基本思想是逐步把距离最近的类合并在一起。具体做法是先把每个样品(指标)作为一类,即有类n
。选择距离最近的两类合并成一个新类,每次合并至少要减少一类。如此重复,直至所有样品(指标)都并成一类为止。谱系聚类法的合并过程中要涉及两个类之间的距离,而类与类之间的距离有许多种不同定义,而不同的定义则产生不同的谱系聚类法。本节首先引进三种类与类之间的距离,然后详细介绍谱系聚类法。4.2.1
类与类之间的距离先讨论样品聚类的方法。用i,j
表示样品。用
表示
与之间的距离,用与
表示两个类,
所包含的样品数分别为
与
。
与之间的距离用
表示。下面给出三种最常用的类与类之间距离的定义。1.最短距离(4.2.1)与之间的距离为与中最近的两个样品的距即定义离。类与类之间的最短距离有如下的递推公式。设
由与合并而成,
则
与其它类
的最短距离为(4.2.2)2.最长距离与之间的距离为与(4.2.3)中最远的两个样品的距即定义离。类与类之间的最长距离有如下的递推公式。设
由
与合并而成,
则
到
的最长距离为(4.2.4)3.类平均距离(4.2.5)中所有两两样品之间距由
与
合并而成,
则即定义
与
之间的距离为
与离的平均数。类平均距离的递推公式如下,设到
的类平均距离为类平均距离(4.2.6)其中
为
中的样品数,
为
中的样品数,
。上述类与类之间的距离,
不但适用对样品的聚类,
同时也适用对指标(变量)的聚类。这时可以用指标之间的相似系数
代替。为了方便,两类之间的相似系数也统称为两类间的距离。4.2.2谱系聚类法根据样品之间的距离(或指标间的相似系数),以及类与类之间的距离,就可进行谱系聚类,基本步骤归纳如下:1.n
个样品各成一类,计算两两之间的距离(或相似系数),得距离矩阵(或相似系数矩)。n
阶矩阵D
对称,矩阵D的对角线上的元素全为零(相似系数矩阵的对角线元素全为1)。这时,
记
。2.选择
中的最小元素(相似系数矩阵则选最大元素),
设为中划去,
则将
与
合并成一个新类与
所在的行与列,
再加入新类的行与列,
得到一个新的距离矩阵
。。在所对应是一个n
-1阶对称矩阵。如果最小元素不止一个,可同时合并。每合并两类,距离矩谱系聚类法阵降低一阶。对重复步骤2得对称矩阵,依次类推,直到所有样品(指标)合并成一类为止。在合并时记下两类合并时的样品(或变量)的编号,以及合并两类时的距离(或相似系数)的大小(称为水平),并绘成聚类的谱系图。然后根据实际情况或要求,选定相应的临界水平,从而确定分类的个数。对给定的,采用不同的类与类之间距离定义,通常就会得到不同的聚类结果。对于上述三种类与类距离的谱系聚类法,分别称为最短距离法,最长距离法和类平均法。下面通过具体例子说明这三种谱系聚类方法。例4.2.1为研究辽宁、浙江、河南、甘肃、青海5省份1991年城镇居民生活消费的分布规律,需要用调查资料对5个省分类,指标(变量)及数据如表4.2.1。表4.2.1
1991年5省城镇居民月均消费数据(单位:元/人)例其中:人均粮食支出,:人均副食支出,:人均烟、酒、茶支出,:人均其它副食支出,:人均衣着商品支出:人均食用品支出:人均燃料支出:人均非商品支出把每个省看作一个样品,以1,2,3,4,5分别表示辽宁、浙江、河南、甘肃、青海5个省.
计算两两之间的欧氏距离
,例如例于是得距离矩阵如下:各元素数值的大小反映了城镇居民两两之间的消费水平的相似性。由于甘肃省与河南省之间的欧氏距离最小(为2.20),表明这两个省份城镇居民的消费水平最接近。1.最短距离法对例4.2.1,采用最短距离法的聚类过程如下:(ⅰ)把每个省看作一个样品,即.这时,
中的最小元素为因而在水平
2.20
上合并
和
成..利用递推公式(4.2.2),计算
与
之间的最短距离最短距离法与其余各类划去
中
所在的行与列,
加入新类的距离作为新行与新列,
得
如下最短距离法,于是在水平2.21上。
计算
与
的最短距(ⅱ)
中的最短距离为把
和
合并成新类离为和所在的行与列,并加上划去
中的相应行与列得最短距离法(ⅲ),因而在水平11.67上中的最短距离为合并
和
成新类。得于是,这时所有的5个省聚(ⅳ)
最后,
在水平12.80上合并
和为一类。谱系图本例首先在水平2.20上合并样品3和样品4成新类。。然后在接着又在2.21水平上合并水平11.67上合并
和和
成新类成新类
。最后在水平12.80上合并
和
成一个大类。把上述聚合过程及合并时的水平用图表示出来,称为谱系图(或聚类图)。(见图4.2.1)阈值在聚类分析中,最后应分成几类,即类的个数问题,至今尚未有令人满意的方法。一种常用方法是根据谱系图选择一个合适的阈值T
,当类间距离大于T
时就不再并类。例如对图4.2.1,取T
=12时,相当于在距离12处切一刀,则5个样品分成两类,即辽宁和浙江为一类,河南、甘肃和青海为一类。而取T
=2.5时可分为三类,即河南、甘肃和青海为一类,辽宁与浙江各自为一类。2.最长距离法对例4.2.1,采用最长距离法的聚类过程如下:(ⅰ)
首先在水平
2.20
上合并
和
成新类。最长距离法(ⅱ)计算
与之间的最长距离得如下最长距离法(ⅲ)根据
,最小。于是在3.51水平上把。根据递推公式(4.2.4),
与和
合并成新类的最长距离为于是得最长距离法和
合并成新类(ⅳ)根据 ,
在11.67水平上合并,
把。按递推公式(4.2.4)得从而(ⅴ)最后,在水平24.63上合并
和
,即所有的样品聚为一类。同样可画出最长距离法的谱系图(图4.22)。对于例4.2.1,最长距离法与最短距离法的分类结果相同,但最长距离法各类合并时的水平与最短距离法有所变化。3.类平均法采用类平均法对例4.2.1作聚类分析。(ⅰ)在水平2.20上合并
和
成新类。类平均法(ⅱ)计算
与之间的类平均距离。根据(4.2.6)式类平均法得类平均法(ⅲ)根据
,和
为新类最小。应在2.86水平上合并。并利用递推公式(4.2.6)得从而得类平均法和
为新类。(ⅳ)由 ,
在11.67水平上合并再由(4.2.6)式得于是和
成一类。(ⅴ)最后在水平18.66上合并
类平均法的谱系图见图4.2.3。不同聚类方法的聚类结果一般是不同的对于例4.2.1,三种谱系聚类法的聚类结果相同。一般来说,不同聚类方法的聚类结果是不同的,甚至会有较大的差异。SPSS判别分析的主要步骤(1)输入数据(2)依次单击Analyze→Classify→Hierarchical
cluster(3)聚类分析主对话框(4)在Hierarchical
Cluster
Analysis对话框中输入分析变量和标识变量①
把
移到
Variable
框中作为分折变量。②而把省份名称移到Label
Cases
by框中作为标识变量。③Cluster选项:选择Cases项(SPSS默认项),即选择对样品进行聚类。而选择Variables则是对变量(指标)进行聚类。④Display选项:选择Statistics和Plots项(SPSS默认项)。(5)Statistics选项单击〖Statistics〗,打开Statistics对话框,选择输出的结果。①Agglomeration
schedule选项:选择该项可以列出系统聚类过程中每一步被合并的这两个类、被合并类的类间距离以及最终的聚类结果。②Proximity
Matrix选项:选择该项可以给出类与类之间的距离矩阵。Statistics对话框(6)Plots选项系统聚类过程可产生两种图形:Dendrogram(树形图)和Icicle(冰柱图)。①Dendrogram选项:选择该项给出系统聚类过程中每一步被合并的这两个类以及类间距离。②Icicle选项:All
cluster:给出聚类过程中每一步的信息。Specified
range
of
cluster:只给出选定聚类数范围内的信息。None:不输出冰柱图。③Orientation选项:Vertical:显示纵向冰柱图。Horizontal:显示横向冰柱图。Plots对话框(7)Measure选项在Method对话框中,分别给出了距离(连续)变量、离散变量和二值变量的样品间距离选项。其中距离(连续)变量的样品间距离,选择Interval选项.主要有①Euclidean
Distance选项:欧氏距离②Squared
Euclidean
Distance选项:平方欧氏距离③Minkowsk选项:明氏距离④Block选项:绝对距离⑤Chebychev选项:切比雪夫距离⑥Cosine选项:夹角余弦(8)Cluster
Method选项在Method对话框中,给出了类间距离选项,主要有①Nearest
neighbor:最短距离②Furthest
neighbor:最长距离③Between-groups
linkage:类平均距离Method对话框(9)欧氏距离矩阵(10)聚类的凝聚过程表(11)冰柱图(12)树形图例4.2.2(续例4.1.1)根据例4.1.1给出的11种欧洲语言的距离矩阵,分别采用最短距离法,最长距离法和类平均法进行聚类。根据距离矩阵,
挪威语(N)和丹麦语(Da),以及法语(Fr)与意大利语(I)和西班牙语(S)与意大利(I)之间的距离(均为1)最小,
即对于各种聚类方法,都首先在水平1上合并(即挪威语和丹麦语)为一个新类。但由于法语与西班牙语之间的距离为2,即因此不能把
(即法语,
西班牙语和意大利语)合并为一类,
而只能合并
与 ,
或
与
为一个新类。这里选择合并
与为一个新类,然后再按不同的聚类方法作聚类分析,得聚类谱系图(见图4.2.4,
图4.2.5和图4.2.6)。最短距离法采用最短距离法的聚类过程为:首先在水平1上合并挪威语(N)和丹麦语(Da)为新类,以及合并法语(Fr)与意大利语(I)为新类。然后在水平2上把英语(E)并入挪威语—丹麦语的类中,
西班牙语(S)并入法语—意大利语的类中。而在水平5上合并荷兰语(Du)与德语(G)为新类,同时把波兰语(P)并入法语—意大利语—西班牙语的类中。在水平7上,合并英语—挪威语—丹麦语和法语—意大利语—西班牙语—波兰语。在水平8上,合并匈牙利语和芬兰语。
(ⅵ)最后,合成一类。最长距离法采用最长距离法的聚类过程为:与最短距离法相同,在水平1上合并挪威语(N)和丹麦语
(Da),以及法语(Fr)与意大利语(I)为新类。然后在水平2上把英语
(E)并入挪威语—丹麦语的类中,把西班牙语(S)并入法语—意大利语的类中。并仍在水平5上把波兰语(P)并入法语—意大利语—西班牙语的类中。与最短距离法不同的是在水平6上把德语(G)并入英语—挪威语—丹麦语的类中,在水平7上把荷兰语(Du)与英语—挪威语—丹麦语—德语类和法语—意大利语—西班牙语—波兰语合并成一类。并在最后由两类合并成一个大类,而最短距离法由三类合并成一大类。采用类平均法的聚类结果与最长距离法较为相近。二点说明由于不同聚类法所采用的类与类之间距离的定义不同,一般会得到不同的聚类结果。对于一个具体问题,可采用几种不同的距离(或相似系数)及聚类方法进行聚类。如果各种方法的聚类方法结果大致相同,则认为聚类结果是可信的。当样品只有二个或三个指标时,可通过观察数据的散点图来选择聚类方法。根据经验,最短距离法适用条形,甚至是S形的类,而其他方法适用椭球形的类。例4.2.3(续例2.1.4)利用1975年1月至1976年12月纽约证卷交易所的5种股票(Allied
Chemical,du
Pont,Union
Carbide,Exxon和Texaco)的周反弹率的连续100周观察数据,已求得样本相关矩阵。试对这5种股票作聚类分析。为了方便,用1,2,3,4和5代表这5种股票的周反弹率(即5个变量),5个变量的样本相关矩阵为1.最短距离法:(ⅰ)根据 ,
由于最大,从而在相似水平0.60把。按递推公式(4.2.2),
得
与其它类之和
合并成新类间的相似系数为求得如下最短距离法(ⅱ)
中的最大相似系数为 ,
于是在相似水平0.52上
把
和
合并成新类,
并计算与其它类之间的相似系数为可得如下(ⅲ)最短距离法(ⅲ)由于中的和的相似系数0.51为最大,从而在0.51水平上合并和成新类。并计算和的相似系数为于是得为(ⅴ)最后,在相似水平0.32上,把所有5种股票合并成一类。最短距离法的谱系图如图4.2.7。2.最长距离法(ⅰ)首先在相似系数0.60水平上合并和
成新类。。然后在
0.58
水平上合并
和
成新类再在
0.52
水平上合并
和
成新类。(ⅳ)最后在0.46水平上合并成一个大类。最长距离法的谱系图如图4.2.8。.3.类平均法(ⅰ)在
0.60水平上合并
和
成新类。然后在
0.55
水平上合并
和接着在
0.52
水平上合并
和成新类成新类。。(ⅳ)最后在0.39水平上合并成一个大类。类平均法的谱系图见图4.2.9。三种方法的聚类结果基本一致,根据图4.2.7,
4.2.8
和
4.2.9,取阈值
T=0.5时,
5种股票分成两类。
为一类,
为另一类。实际上,
1,2,3为化工股票,
而4,5为石油股票。§4.3
模糊聚类法在日常生活中有许多概念不是很严格的,而是模糊的。例如“年老”就是一个模糊概念,不大好用一个具体数字来划分年老的界限。又例如说一个人很“漂亮”,这也是一个模糊概念,不仅很难给出一个严格的数量界限,而且看法也会因人而异。为了处理现实生活和科学研究中的这些模糊概念,就产生了模糊集理论(1965年由
L.A.Zadeh首先提出)。把模糊集理论应用于聚类分析,就产生了模糊聚类法。本节介绍一种基本的模糊聚类法。4.3.1模糊聚类的基本概念1.特征函数称为集合例如,集合的特征函数。为某地区在某年度完成国家利税的企业全体。这时,
对该地区任一企业 ,
可以用特征函数描述它是否完成国家利税,即对于一个集合 ,空间中的任一元素 ,
要么 ,
要么,两者必居其一且仅居其一。这一特点可以用一个函数来表示(4.3.1)2.隶属函数与模糊集如需要进一步知道某企业完成国家利税的程度大小时,仅用特征函数就不够了。模糊集理论把特征函数的概念推广到闭区间
,即用
0
~
1
之间的一个数来度量这种程度的大小,
这个数称为隶属度。当用函数表示隶属度的变化规律时,
称为隶属函数,记为
。即对于每一个元素 ,
有
内的一个数
与之对应。即若在E
上定义了一个隶属函数,则称E
称为模糊集。例如某企业完成国家利税的90%,则可以说这个企业完成国家利税的隶属度是0.9。3.模糊矩阵及其褶积,
则称
为模糊矩当矩阵
的元素
取值满足阵。设为两个模糊矩阵,,其元素为则称矩阵C
为模糊矩阵A
与B
的褶积。记为其中显然,两个模糊矩阵的褶积仍为模糊矩阵。(4.3.2)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年开店联盟:合伙人合同
- 2024年信息技术综合服务详细协议
- 2024年度跨境电子商务合作协议
- 2024年度建筑行业安全生产信用体系建设合同
- 04年东展厅改造项目知识产权保护合同
- 2024年动力设备安装协议
- 2024年废旧物资处理与购买协议
- 2024年度光电子器件研发与产业化合同
- 2024年度市场营销战略合作合同
- 2024年工地围挡废旧材料回收合同
- 高一日语开班宣讲课件
- 商标法题库1(答案)
- TMF自智网络白皮书4.0
- 电视剧《国家孩子》观影分享会PPT三千孤儿入内蒙一段流淌着民族大爱的共和国往事PPT课件(带内容)
- 所水力除焦设备介绍
- 改革开放英语介绍-课件
- pet考试历届真题和答案
- 《企业员工薪酬激励问题研究10000字(论文)》
- 大学英语三级B真题2023年06月
- GB/T 7909-2017造纸木片
- GB/T 25217.6-2019冲击地压测定、监测与防治方法第6部分:钻屑监测方法
评论
0/150
提交评论