数据处理与统计软件-聚类分析及matlab实现_第1页
数据处理与统计软件-聚类分析及matlab实现_第2页
数据处理与统计软件-聚类分析及matlab实现_第3页
数据处理与统计软件-聚类分析及matlab实现_第4页
数据处理与统计软件-聚类分析及matlab实现_第5页
免费预览已结束,剩余57页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析( 实§1样品(变量)相近性度§2谱系聚类法 实§3快速聚类(k均值聚类)统计方法,是依据研究对象的的特征进行分类聚类分析把分类对象按一定规则分成若干个类,这些类非事先给定的,而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中趋向于不相似。其职能是建立一种能按照样品或变量的相似程度进行分类的方法。§1样品(变量)间在生产实际中经常遇到给产品等级进行分类的问题,如一等品、二等品等,在生物学中,要根据生物的特征进行分类;在考古时要对古生物化石进行科学分类;在球类比赛中经常要对各球队进行分组如何确定队,这些问题就是聚类分析问题。随着科学技术的发展,我们利用已知数据首先提取数据特征,然后借助计算机依据这些特征进行分类,聚类的依据在于各类别之间的接近程度如何计量,通常采取距离与相似系数进行衡量。设有n个样品的p元观测数据组成一个数据矩X n 其中每一行表示一个样品,每一列表示一个指标,xij表示第i个样品关于第j项指标的观测值,聚类分析的基本思想就是在样品之间定义距离,在指标之间定义相似系数,样品之间距离表明样品之间的相似度,指标之间的相似系数刻画指标之间的相似度。将样品(或变量)按相似度的大小逐一归类,关系密切的到同一类,关系疏远的到不同的类,聚类分析通常有:实现设有n个样品的p元观测数据

(xi1,

,,

)T,

1,2,,这时,每个样品可看成p元空间的一个点,每两个点之间的离记

d(xi,xj

满足条件d(xi,xj

0且d(xixj

xd(xi,xj

d(xj

xid(xi,xj)

d(xi,xk)

d(xk

,xj欧氏距

d(x,

)[(x

p k1p

绝对距

d(xi,xj

pkpp

x

明氏距

d(x,x)[|

k距

d(xi,xj

1k

xik

xjkp

方 距

d(x,

)[(x

/s2]1/ k1将原数据标准化以后的欧氏距马氏距离d(x,x) (xx)T1(xx 兰氏距

d(xi,xj)

ppkp

xikxik

xjkxjk距离(Jffreys&d(xi

,xj

[(pkp

x

)2]1/例1为了研究辽宁、浙江、 、 、青海5省1991年城镇居民生活消费规律,需要利用 资料对五个省进行分类指标变量共8个,意义如下:X1人均粮食支出,X2人均副食支出X3人均烟酒茶支出,X4人均其他副食支出,X5人均衣着商品支出,X6人均日用品支出,X7:人均 支出,X8人均非商品支出。表 1991年五省城镇居民生 消费(元/人辽浙青试计 之间的欧氏、绝对、明氏距离计 之间的欧氏、绝对、明氏距解d1=pdist(a)此时计算出各行之间的欧氏距离,Dsquareform(d1),%注意此时d1必须是一个行向量,结果若想得到三角阵,则有命令S=S 0000000000d2=pdist(a,'cityblock');S2=S2000000000000000d3=pdist(a,'minkowski',3);S3=例2.13个国家1990,1995,2000可持续发展能力如序国1澳大利2巴34中5法6德78意大9俄罗南英采用不同的距离,得到结果如下类欧氏距离(最短距离12澳大利亚、、英、德、意、、3巴西、、南4类欧氏距离(ward距离1澳大利亚、中、意、2、英、德、法3巴西、、南4类马氏距离(ward距离12澳大利亚、、英、德、意、南非、俄、3巴西、、4变量间的相似度量——相似系当对p个指标变量进行聚类时,用相 |

1,当且仅当

k,k 相似系数中最常用的是相关系数与夹角余弦夹角余两变量的夹角余弦定相关系两变量的相关系数定例3.计算例1中各指标之间的相关系数与夹角余解2.04R=corrcoef(a);%指标之间的相关系数a1=normc(a);%将a的各列化为单位向量 %计算a中各列之间的夹角余弦J§2系统聚类分系统聚类法(谱系聚类法)用最为广泛的法,它的基本原理是:首先将n个样品或指标各自看成一类,然后根据样品(或指标)的亲疏程度,将亲近程度最高的两类进行合并。然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直至将所有的样品(或指标)合并为一类。§2§2系统聚类分计算n构成n1,转5,否则转§2系统聚类分系统聚类分析用到 函 计算Cophenetic根据linkageR⒈不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。⒉根据变量的分类结果以及它们之间的关系,可以选择主要变量进行Q型聚类分析或回归分析。R2为选择标准)Q⒈可以综合利用多个变量的信息对样本进行分析⒉分类结果直观,聚类谱系图清楚地表现数值分类结果⒊聚类分析所得到的结果比传统分类方法更细致、全面、合理。我们主要讨论Q型聚类分析,Q型聚类常用的统计量是距离2聚类方2聚类方前面,我们介绍了两个向量之间的距离,下面我们介绍两个类别之间的距离:设dj表示两个样品x,xj之间的距离,p,q分别表示两个类别,各自含有n,nq个样品.最短距

即用两类中样品之间的距离最短者作为两类间距最长距

iGp,jGq即用两类中样品之间的距离最长者作为两类间距最短距离(Nearest 最长最长距离(FurthestNeighbor• •••••x2,y2•••••••di/99 最短距AF最长距 D中间距中间距类平均距

dnnpqnn

ijiGp距离重心距

d(xp,xq)(x px)((x px)(x xTqpq

分别是Gp,Gq的重心,这是用两类的重之间的欧氏距离作为两类间的离差平方和距离

np

(x

)T

xnpqnp

pq 显然,离差平方和距离与重心距离的平方成正pq 类间距离的递推公最短距

,Dqk最长距

,Dqk类平均距

Drk

np

nDpknr

Dqk重心距

npDnrkDnr

DnpkDnr

np DDnnqk pqDDnn 证明

D(x D(x

)T(x

xr)

xT

2xT

xT

krrkkkr将xT krrkkkr

xT

xT

nnrn nnrn

代入 npnT

2

将上式中加上再减

npxTx

xT

,合并同类项ppD2np(xTpp

2xT

xT

qqn)nq(xT 2xT Txqqnnnr

nnrnn1[n2xT

nxT

2xT

]np

xT

xTn n

上式第二行合并同类D npDnrknr

DnpkDnr

np DDnnqk pqDDnn D npDnrknr

DnpkDnr

2DnqkDnr

DpqDpq谱系聚类的步骤如下选择样本间计算n个样本两两之间的距离,得到距离矩Dd构造n合并符合类间距离定义要求的两类为一个新类计算新类与当前各类的距离。若类的个数为1,则转到步骤6,否则回到步骤4;画出聚类图系统聚类法的聚类原则决定于样品间的距离以及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法。以下用dj表示样品(i)和(j)之间的距离,当样品间的亲疏关系采用相似系数j时, 21 以下用D(p,q)表示类Gp和Gq之间的距离n个样品开始作为n个类,计算两两之间的距离或相似系数,得到实对称矩阵d11

d

d1n 0 0

2ndd

d

dnn从0的非主对角线上找最小(距离)或最大元素(相似系数),设该元素是pq,则将Gp,Gq合并成一个新类=(Gp,Gq),在0中去掉Gp,Gq所在的两行、两列,并加上新类与其余各类之间的距离(或相似系数),得到n-1阶矩阵1。在合并过程中要记下合并样品的及两类合例4.从例1算得的样品间的欧氏距离矩阵出发,用下(1)最短距离,(2)最长距解:我们用1,2,3,4,5分别表示辽宁、浙江、河南、 和青海,将距离矩阵记为00

看成一类,即Gi={i}i=1,…,5,G1,G2,G5之间的最短距离,得

min{d31,d41}min{d32,d42}min{d35,d45}

将计算结果作为第一列,从D0中去掉第3、4行与34列,剩余元素作为其余各列得到0 0D1

13.12 24.06 11.67

12.80

23.54

0从1可以看出6与5的距离最小,因此在2.21的水平上将6与5合成一类7,即G7={,4,5计算7与1,2之间的最短距离,得

min{D61,D51}

min{D62,D52}

将计算结果作为第一列,从1中划掉3,4与所在的行与列,剩余元素作为其他列得 3,4,}

0

0

0从2可以看出G1,G2最接近,在1.67的水平上合并成一类8,至此只剩下G7,G8两类,他们之间的距离为:12.8,故在此水平上将合成一类,包含了全部的五个省份。最后,我们作出谱系图1最短距离聚类图 辽宁浙江34青海将每一个省区视为一个样品,先计算5个省区之间的欧式距离,用0表示距离矩阵(对称阵,故给出下三角阵 10 10

D0

25

因此将3.4合并为一类,为类6,替代了3、4两 G6

G2

0

0合并类6和类5,得到新类得到新矩

G2 D2

0 0合并类1和类2,得到新类d(7,8)

0最后合并为一个大类。这就是按最短距离定义类间距离的系统聚类方法。最长距离法类似!于是得到如下谱系聚类图谱系聚类 实现输入数据矩阵,注意行与列的实际意义计算各样品之间的距离(行间距离 %注意计算A中各行之间的绝对距离:d %r要填上具方 距离:d=马氏距离:d注意:以上命令输出的结果是一个行向量,如果要得到距离矩阵,可以用命令:D=若得到三角阵,可以D=(3)选择不同的类间距离进行聚最短距离:z1= %此处及以下的d都最长距离:z2=linkage(d,'complete')中间距离:z3=linkage(d,'centroid')重心距离:z4=linkage(d,'average')离差平方和:z5=linkage(d,'ward')注意:此时输出的结果是一个n-1行3列的矩阵,每一行表示在某水平上合并为一类的序号;(4) 注意若样本少于30,可以(5)T=cluster(z,k)注意k是分类数目,z是(3)中的结Find(T==k0)找出属于第k0例5.将例1利 软件进行聚解欧氏距离:d1=pdist(b);%b中每行之间%五种类间距离聚类其中z1输出结z1%在2.2033的水平,G3,G4合成一类为%在2.2159的水平,G6,G5合成一类为%在11.6726的水平,G1,G2合成一类为%在12.7983的水平,G7,G8合成作谱系聚类图:H=图2.最短距离聚类输出分类结

类 以上是样品之间是欧氏距离,类间距离是最短距离聚类的结果,实际上,对样品之间的每一种距离,可以由五种不同的类间距离进行聚类。那么哪一种最好呢?为此我们可以计算复合相关系数,若该系数越接近于1则该聚类越理想。在 中计算复合相关系数 令如下:其中,z是用某种类间距离linkage后的结果d是样品之间的结果为 由于0.8623最大,故认为若样品之间采用欧氏距离,则类间距离以中间距离最好,如果我们要找到最理想的分类方法,可以对每一种样品之间的距离,都计算上述的复合相关系数,这就可以找到最理想的样品距离与对应的类间距离。a=[28,18,11,21,26,20,16,14,24,29,23, 23,29,23,22,23,29,28,18, 22,26,22,22,24,24,对a的各列进行聚类,如何计算复合相关ford1=linkage(d(i,:));r1(i)=cophenet(d1,d(i,:));fori=1:5ford3=linkage(d(i,:),'average');r3(i)=cophenet(d3,d(i,:));fori=1:5fori=1:5§3§3快速聚类法(动态聚类,K均值聚类快速聚类法又称为动态聚类法或K均值聚类法,该方法首先将样品进行粗糙分类,然后依据样品间的距离按一定规则进行调整,直至不能调整为止.该方法适用于样品数量较大的数据集的聚类分析,但是需要事先给定聚类数目,此数目对最终聚类结果有很大影响,实际应用时要选择多个数目进行分类,然后找出合理的分类结果。快速聚类的步选择聚聚点是一批有代表性的样品,他的选择决定了初始分类,并对最终分类有很大影响,选择聚点之前要先确定聚类数。通常,有以下确定聚点的方法①经验确定:对样品非常熟悉,根据经验确定k个样品作为聚点.(比如确定 ②将n个样品随机地分为k类,然后以每一类的均值向量作③最小最大原则:若n个样品分为k类,先选择所有样品中距离最大的两个样品x1,x2为两个初始聚点,即12),然后选择第3个聚点,使得该点到上述两点距离最小是所有其它点到上述两点距离最小中最大者,即min{d(3,xr),r=1,2}=max{min[d(xj,xr),r=1,2]}比较远的点为第四个聚点,……,直至选出k个聚点。④按照同样的原则选取xi4,依

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论