版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、应用多元统计分析第 五章聚类分析主讲人 :王筱丽制作者-王筱丽1§6.3系统聚类法系统聚类法是目前在实际应用中使用最多的一类方法,它是将类由多变少的法.制作者-王筱丽2本节考虑n个样品的聚类问题, 其观测数据见下表, n个m元样品记为(i = 1 , , n )X( i )制作者-王筱丽3变量× × ×× × ×X 1X jX m样品× × ×× × ×x11x 1jx 1mX(1 )××.××××
2、5;×× × ×× × ×xn1x njx nmX(n)均值m× × ×× × ×标准差s 1s js m× × ×× × ×极差R 1R jRm制作者-王筱丽4标准化变换j(i = 1,L, n; j = 1,L, m )称变换j为标准化变换.注:变换后的数据,每个变量的样本均值为0,标准差为1,而标准化变换后的数据与变量的量纲无关.制作者-王筱丽5一、系统聚类法的基本思想和基本步骤设有n 个样品,每个样
3、品测得m 项指标 .系统聚类法的基本思想是:首先,定义样品间的距离(或相似系数)和类与类之间的距离.初始将n 个样品看成n类(每一类包含一个样品), 这时类间的距离与样品间的距离是等价的;制作者-王筱丽6系统聚类法的基本思想是:然后,将距离最近的两类合并成新类,并计算新类与其他类的类间距离,再按最小距离准则并类.这样每次缩小一类,直到所有的样品都合并成一类为止.这个并类过程可以用谱系聚类图形象的表达出来.制作者-王筱丽7系统聚类法的基本步骤如下:(0)数据变换:使用上节介绍的方法对数据进行变换,其目的是为了便于比较和计算.(1)计算n个样品两两间的距离,得样品间的距离矩阵D(0) .制作者-王
4、筱丽8(2)初始(第一步:i = 1)n 个样品各自构成一类, 类的个数 k = n,第i 类Gi =X(i) i = 1 , , n ). 除离差平方和法外,(D(1) = D(0) .然后对样品执行并类过程的步骤(3)和(4).2D(1) = D(0)/离差平方和法制作者-王筱丽9(3)对步骤(2)得到的距离矩阵D(i -1),合并类间距离最小的两类为一新类.此时类的总个数减少1类,即k = n - i +1制作者-王筱丽10(4)计算新类与其他类的距离,得新的距离矩阵D(i ) .若合并后类的总个数 k > 1, 重复步骤(3)和(4);直到类的总个数 k=1时转到步骤(5).(5
5、)画谱系聚类图;(6)决定分类的个数及各类的成员.制作者-王筱丽11二、系统聚类分析的方法系统聚类法的聚类原则决定于样品间的距离(或相似系数)及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法.下面介绍常用的几种系统聚类分析方法.制作者-王筱丽121.最短距离法(SINgle linkage)类与类之间的距离定义为两类中相距最近的样品之间的距离,即类Gp 和Gq 间的距离Dpq定义为=Dpqmindi jiÎG p , jÎGqi ÎGpX(i) ÎGp这里表示.制作者-王筱丽13当某步骤类Gp 和Gq合并为Gr 后,按最短距离法计算新类
6、Gr 与其他类Gk的类间距离,其递推公式为= G( G rp , G q )=¹Dr kminD, Dq k ( kp , q )p k制作者-王筱丽142.最长距离法(COMplete method)类与类之间的距离定义为两类中相距最远的样品之间的距离,即类Gp 和Gq 间的距离Dpq定义为=Dpqmaxdi jiÎG p , jÎGqi ÎGpX(i) ÎGp这里表示.制作者-王筱丽15当某步骤类Gp 和Gq合并为Gr 后,按最长距离法计算新类Gr 与其他类Gk的类间距离,其递推公式为= G p , G q )( G r=¹Dr
7、kmaxD, Dq k ( kp , q )p k制作者-王筱丽163.重心法(CENtroid method)以上三种方法在定义类与类之间距离时,没有考虑每一类中所包含的样品个数.如果将两类间的距离定义为两类重心间的距离,这种聚类方法称为重心法.制作者-王筱丽17对样品分类时,每一类的重心就是属于该类的均值.设某步骤将类Gp 和Gq合并为Gr后,它们所包含的样品个数分别为np , nq和nr(nr= np + nq ).各类的重心分别为(r )制作者-王筱丽18则有1 (n=+ n X (q) )X (r )X ( p)pqnrX (k )设每一类Gk (k ¹ p, q)的重心为
8、,它与新类Gr 的距离是= dX (r) , X (k) Dr k制作者-王筱丽1920X (r ) = 1 (n X ( p) + n X (q) )npqrD= dX (r) , X (k) r k如果样品间的距离定义为欧氏距离, 则其递推公式为D 2= npD 2+ nqD 2 - np × nqD 2(k ¹ p, q)r knpknq knnpqrrrr制作者-王筱丽4.类平均法(AVErage linkage)重心法虽有较好的代表性,但并未充分利用各个样品的信息.有人提出用两类样品两两之间平方距离的平均作为类之间的距离,即1å=D 22dp qijnn
9、iÎG, jÎGpqpk这种方法称为类平均法.制作者-王筱丽21平较22当某步骤类Gp 和Gq合并为Gr :Gr =Gp ,Gq后,则Gr 与其他类Gk 距离方的递推公式为D 2= npD 2+ nqD 2( k ¹ p, q )r knp knq krr类平均法是一种使用广泛,聚类效果好的方法.制作者-王筱丽5.离差平方和法(WARD)离差平方和法是由Ward(1936)提出的,故称Ward法.它基于方差分析的思想,如果类分的正确,则同类样品间的离差平方和应当较小,不同类样品间的离差平方和应当较大.制作者-王筱丽23假定已将n个样品分为k类,记为G1 , G2
10、, , Gknt表示Gt类的样品个数,表示Gt类的重心,X (t )X (t )表示G 类中的第i个样品(i = 1, , n ).(i )tt制作者-王筱丽24类间距离定义为= npnq-D2( X ( p)(q ) )pqnr当Gp 和Gq合并为Gr后,则Gr 与其他类Gk距离平方的递推公式为= np + nk+ nq + nknk-D2D2D2D2rkpkqkpqn + nn + nn + nrkrkrk制作者-王筱丽25例下面是五个样品的原始数据:X序号12234503917样品间距离用欧式距离,类间距离分别选用(1)最短距离法;(2)最长距离法;(3)重心法;(4)类平均法;(5)离
11、差平方和法进行系统聚类,并画出谱系聚类图。制作者-王筱丽26(1)最短距离法样品间距离用欧式距离,类间距离选用最短距离é 0ùúúúúúûê 203= ê 1D(0)0êêêë0制作者-王筱丽27(1)最短距离法计算5个样品:X(1) , X(2) , X(3) , X(4) , X(5)两两间的距离,得初始的类间距离矩阵D(1)é 0ùúúúúúûê 203=
12、234; 1D(1)0êêêë0制作者-王筱丽28(1)最短距离法初始(第一步:i = 1)n 个样品各自一类, 类的个数 k =5,第j 类Gj =X(j) j = 1 , , 5 ).(由D(1)可知, 合并类间距离最小的两类X(1) , X(3)为一新类, 记为CL4 =X(1) , X(3).此时类的总个数减少1,即k = 4制作者-王筱丽2930(1)最短距离法按最短距离法计算新类CL4与其他类的距离,得距离矩阵D(2):X(2)X(4)X(5)CL4X(2)09172X(4)086X(5)014CL40制作者-王筱丽(1)最短距离法由D(2)
13、可知, 合并类间距离最小的两类X(2) , CL4为一新类, 记为CL3 =X(2) , CL4.此时类的总个数减少1,即k = 3.制作者-王筱丽31(1)最短距离法按最短距离法计算新类CL3与其他类的距离,得距离矩阵D(3):X(4)X(5)CL3X(4)086X(5)014CL30制作者-王筱丽32(1)最短距离法由D(3)可知, 合并类间距离最小的两类X(4) , CL3为一新类, 记为CL2 =X(4) , CL3.此时类的总个数减少1,即k = 2.制作者-王筱丽33他类的34(1)最短距离法按最短距离法计算新类CL2与其距离,得距离矩阵D(4):X(5)CL2X(5)08CL20
14、制作者-王筱丽(1)最短距离法由D(4)可知, 合并类间距离最小的两类X(5), CL2为一新类, 记为CL1 =X(1) , X(2) , X(3) , X(4) , X(5) .此时类的总个数减少1,即k = 1.制作者-王筱丽35(1)最短距离法得距离矩阵D(5):CL1CL10制作者-王筱丽36(1)最短距离法11画谱系聚类图X(1)X(3)X(2)X(4)X(5)101550制作者-王筱丽37(2)最长距离法计算5个样品:X(1) , X(2) , X(3) , X(4) , X(5)两两间的距离,得初始的类间距离矩阵D(1)é 0ùúú
15、50;úúûê 203= ê 1D(1)0êêêë0制作者-王筱丽38(2)最长距离法初始(第一步:i = 1)n 个样品各自一类, 类的个数 k =5,第j 类Gj =X(j) j = 1 , , 5 ).(由D(1)可知, 合并类间距离最小的两类X(1) , X(3)为一新类, 记为CL4 =X(1) , X(3).此时类的总个数减少1,即k = 4制作者-王筱丽3940(2)最长距离法按最长距离法计算新类CL4与其他类的距离,得距离矩阵D(2):X(2)X(4)X(5)CL4X(2)09173X(4
16、)087X(5)015CL40制作者-王筱丽(2)最长距离法由D(2)可知, 合并类间距离最小的两类X(2) , CL4为一新类, 记为CL3 =X(2) , CL4.此时类的总个数减少1,即k = 3.制作者-王筱丽41(2)最长距离法按最长距离法计算新类CL3与其他类的距离,得距离矩阵D(3):X(4)X(5)CL3X(4)089X(5)017CL30制作者-王筱丽42(2)最长距离法由D(3)可知, 合并类间距离最小的两类X(4) , X(5)为一新类, 记为CL2 =X(4) , X(5) .此时类的总个数减少1,即k = 2.制作者-王筱丽43他类的44(2)最长距离法按最长距离法计
17、算新类CL2与其距离,得距离矩阵D(4):CL3CL2CL3017CL20制作者-王筱丽(2)最长距离法由D(4)可知, 合并类间距离最小的两类CL3, CL2为一新类, 记为CL1 =X(1) , X(2) , X(3) , X(4) , X(5) .此时类的总个数减少1,即k = 1.制作者-王筱丽45(2)最长距离法得距离矩阵D(5):CL1CL10制作者-王筱丽46(2)最长距离法11画谱系聚类图X(1)X(3)X(2)X(4)X(5)101550制作者-王筱丽47(3)重心法计算5个样品:X(1) , X(2) , X(3) , X(4) , X(5)两两间的距离,得初始的类间距离矩
18、阵D(1)é 0ùúúúúúûê 203= ê 1D(1)0êêêë0制作者-王筱丽48(3)重心法初始(第一步:i = 1)n 个样品各自一类, 类的个数 k =5,第j 类Gj =X(j) j = 1 , , 5 ).(由D(1)可知, 合并类间距离最小的两类X(1) , X(3)为一新类, 记为CL4 =X(1) , X(3).此时类的总个数减少1,即k = 4制作者-王筱丽49npnqnpnqD=2+-D×¹D 2D 22( k
19、,p) qrkpkqkpqnnnrnrrr1211=+¹D 22p22 D( k,p) qCL 4,kk21 D1 D1-1 D× 2D =+CL22 =2=+) - (1 D1 D1-1 D× 2D =+CL2222=+) - = (1 D1 D4D =+-D× 2CL284=1= ( 225+-)4451(3) 重心法按重心法距离法计算新类CL4与其他类的距离,得距离矩阵D(2):X(2)X(4)X(5)CL4X(2)09172.5X(4)086.5X(5)014.5CL40制作者-王筱丽(3)重心法由D(2)可知, 合并类间距离最小的两类X(2)
20、, CL4为一新类, 记为CL3 =X(2) , CL4.此时类的总个数减少1,即k = 3.制作者-王筱丽52npnqnpnqD=2+-×¹D 2D 22D( k,p) qrkpkqkpqnnnrnrrr=¹D 2( k,p) qCL3,kL4,2=D× 2D 2CL3,CL4,2=´=+-D× 2D 22CL4D2 DCL3 ,5, 52 , 5CL 4,23246=´+´- 2. ×5=3953制王筱丽(3)重心法按重心法距离法计算新类CL3与其他类的距离,得距离矩阵D(3):X(4)X(5)CL3
21、X(4)0822/3X(5)046/3CL30制作者-王筱丽54(3)重心法由D(3)可知, 合并类间距离最小的两类X(4) , CL3为一新类, 记为CL2 =X(4) , CL3 .此时类的总个数减少1,即k = 2.制作者-王筱丽55npnqnpnqD=2+-×¹D 2D 22pD( k,p) qrkpkqkqnnnrnrrrD3=× 2¹D 2( k,p) qCL 2,k4,CL34=D× 2D 2CL2,54,CL 3=´-×(2´)=制作者-王筱丽56其他类57(3) 重心法按重心法距离法计算新类CL2
22、与的距离,得距离矩阵D(4):X(5)CL2X(5)027/2CL20制作者-王筱丽(3)重心法由D(4)可知, 合并类间距离最小的两类CL3, CL2为一新类, 记为CL1 =X(1) , X(2) , X(3) , X(4) , X(5) .此时类的总个数减少1,即k = 1.制作者-王筱丽58(3)重心法得距离矩阵D(5):CL1CL10制作者-王筱丽59(3)重心法11画谱系聚类图X(1)X(3)X(2)X(4)X(5)101550制作者-王筱丽60(4)类平均距离法计算5个样品:X(1) , X(2) , X(3) , X(4) , X(5)两两间的距离,得初始的类间距离矩阵D(1)
23、é 0ùúúúúúûê 203= ê 1D(1)0êêêë0制作者-王筱丽61(4)类平均距离法初始(第一步:i = 1)n 个样品各自一类, 类的个数 k =5,第j 类Gj =X(j) j = 1 , , 5 ).(由D(1)可知, 合并类间距离最小的两类X(1) , X(3)为一新类, 记为CL4 =X(1) , X(3).此时类的总个数减少1,即k = 4制作者-王筱丽62npnqD 2 =+k ¹D 22D(,p)qrkpkqknnrr
24、+1=Dk¹D 221 k23 kD(,p)qCL 4,k221D=2+2= +=D222 DCL4,212322D=242.=5CL4,4112= 1D=2+2 +=D222 DCL4 , 515352制作者-王筱丽6364(4)类平均距离法按类平均距离法计算新类CL4与其他类的距离,得距离矩阵D(2):X(2)X(4)X(5)CL4X(2)091713/ 2X(4)0885/ 2X(5)0421/ 2CL40制作者-王筱丽(4)类平均距离法由D(2)可知, 合并类间距离最小的两类X(2) , CL4为一新类, 记为CL3 =X(2) , CL4.此时类的总个数减少1,即k = 3
25、.制作者-王筱丽6566D 2= npD 2+ nqD 2( k ¹ p, q )r knp knq krrD 2=CL 3, kD 2+ 2 D 2( k ¹ p, q )32 k3CL 4, kD 2=D+DCL 3, 4,4CL=+×=3D 2=D 2+DCL 3, 52 ,5CL 4, 5=+× 421 = 710323者 王筱(4) 类平均距离法按类平均距离法计算新类CL3与其他类的距离,得距离矩阵D(3):X(4)X(5)CL3166/ 3X(4)08710/ 3X(5)0CL30制作者-王筱丽67(4)类平均距离法由D(3)可知, 合并类间
26、距离最小的两类X(4) , CL3为一新类, 记为CL2 =X(4) , CL3.此时类的总个数减少1,即k = 2.制作者-王筱丽6869D 2= npD 2+ nqD 2( k ¹ p, q )r knp knq krrD 2=CL 2, kD 2 + 3 D 2( k ¹ p, q )44 k4CL 3, kD 2=CL 2, 5=D ,5 +DCL+ 3 ×=4制作者-王筱丽其他类70(4)类平均距离法按类平均距离法计算新类CL2与的距离,得距离矩阵D(4):X(5)CL2X(5)0774/ 4CL20制作者-王筱丽(4)类平均距离法由D(4)可知, 合并
27、类间距离最小的两类X(5), CL4为一新类, 记为CL1 =X(1) , X(2) , X(3) , X(4) , X(5) .此时类的总个数减少1,即k = 1.制作者-王筱丽71(4)类平均距离法得距离矩阵D(5):CL1CL10制作者-王筱丽72(4)类平均距离法11画谱系聚类图X(1)X(3)X(2)X(4)X(5)101550制作者-王筱丽73(5)离差平方和法计算5个样品:X(1) , X(2) , X(3) , X(4) , X(5)两两间的距离,得初始的类间距离矩阵D(1)é 0ùúúúúúú
28、251;ê 203ê1ê 1=(1)D02 ê0êêë制作者-王筱丽74(5)离差平方和法初始(第一步:i = 1)n 个样品各自一类, 类的个数 k =5,第j 类Gj =X(j) j = 1 , , 5 ).(由D(1)可知, 合并类间距离最小的两类X(1) , X(3)为一新类, 记为CL4 =X(1) , X(3).此时类的总个数减少1,即k = 4制作者-王筱丽75=+-( k ¹D 2DDDp, q )CL 4, k1 kk3= 1 (2* 2+ 2* 3 - 1) = 25=+-D2D2DDCL4, 21232366=+-=(2* 72 + 2* 62 - 1) =D2D2D2D2CL4,41434136= 1 (2*1-1) = 841=+D-+ 2*1D2D2DCL4,51535366制作者-王筱丽76D2 = np + nk D2 + nq + nk D2 -nkD2rkn + npkn + nqkn + npq rkrkrk77(5)离差平方和法按类平均距离法计算新类CL4与其他类的距离,得距离矩阵D(2):X(2)X(4)X(5)CL4X(2)09217256X(4)082136X(5)02
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖北第二师范学院《篮球主项与实践Ⅰ》2022-2023学年第一学期期末试卷
- 普外专业 三甲医院临床试验机构GCP 2022版004试验协议、合同管理制度
- 湖北大学知行学院《食品机械与设备》2023-2024学年第一学期期末试卷
- 2024大包工程合同内容填写说明
- 2024广告设计与制作合同(门头)
- 宫颈癌放射性肠炎护理查房
- 《SVC基本原理》课件
- 2024建筑工程劳务分包的合同样本(合同版本)
- 2024山东大学横向科研外协合同审批表
- 呼伦贝尔学院《综合英语Ⅱ》2021-2022学年第一学期期末试卷
- 智能治理:提高政府决策的准确性和效率
- 2024年滴眼剂市场份额分析:全球滴眼剂市场销售额达到了4.89亿美元
- 2023-2024学年广东省广州市白云区九年级(上)期末语文试卷
- 2024-2030年中国铁皮石斛行业市场竞争策略及投资价值研究报告
- 新生儿呼吸系统常见疾病的特点及护理课件
- 学术规范与论文写作智慧树知到答案2024年浙江工业大学
- 2024年典型事故案例警示教育手册15例
- 《非计划性拔管》课件
- 酒店企业员工消防防火安全知识培训
- 投标流程及管理制度
- 章质谱法剖析PPT课件
评论
0/150
提交评论