版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第七章聚类分析§1系统聚类法(i)一、距离系数聚类分析是研究“物以类聚”的一种统计方法,通常以“距离”和“相似系数”为依据来进行聚类。本节以“距离”为依据的有最短距离法、最长距离法及中间距离法等聚类方法。设有n个样品,每个样品测定m个指标,其数据矩阵为:计算点xi与点xj间的距离公式有:(1)绝对值距离(2)欧氏距离(3)明氏距离 即绝对值距离 即欧氏距离二、聚类步骤(1)将n个样品各自成一类;(2)计算样品间的距离,将距离最近的两个样品并成一类;(3)计算新类与其余各类的距离,再将距离最近的两类合并,重复上述步骤直到所有样品归成一类为止。三、聚类方法(最短距离法、最长距离法、中间距
2、离法)类与类之间的距离有许多定义的方法,就产生不同的聚类方法,以下用dij表示样品xi与xj间的距离,用dij表示类gi与gj间的距离。首先介绍最短距离法、最长距离法及中间距离法。1.最短距离法(1)(2)若,则新类gr与其它各类gk间距离:2.最长距离法(1)(2)3.中间距离法 b ma c四、例题 a例1已知5个大豆品种及一个指标(荚数/株),试用最短距离法聚类,其观测数据如表x1x2x3x4x5荚数/株6158.749.243.839.5解:采用表1d0g1g2g3g4g5g1=x1 0g2=x22.30g3=x311.89.50g4=x417.214.95.40g5=x521.519
3、.29.74.30表2d1g6=x1,x2g3=x3g4=x4g5=x5g6=x1,x20g3=x39.50g4=x414.95.40g5=x519.29.74.30表3d2g6=x1,x2g3=x3g7=x4,x5g6=x1,x20g3=x39.50g7=x4,x514.95.40表4d3g6=x1,x2g8=x4,x5,x3g6=x1,x20g8=x4,x5,x39.50聚类表分类数目品种归类距离系数4x1,x2,x3,x4,x52.33x1,x2,x3,x4,x54.32x1,x2,x3,x4,x55.41x1,x2,x3,x4,x59.5聚类图(谱系图)例2已知七个小麦品种及三个指标,
4、试用最短距离法聚类,其观测数据如表:单产(公斤/亩)穗粒数(粒)千粒重(克)x1297.037.535.3x2312.539.537.5x3279.030.533.6x4332.535.236.2x5352.035.837.6x6382.029.340.9x7374.534.639.2解:(1)数据模型,取对数lgx(2)计算品种间距离采用欧氏距离公式:单产穗粒数千粒重x12.47281.57401.5478x22.49491.60041.5740x32.44561.48431.5263x42.52181.54651.5587x52.54651.55391.5752x62.58201.4669
5、1.6117x72.57351.53911.5933(3)逐步聚类表1:d0g1g2g3g4g5g6g7g1=x10g2=x20.04330g3=x30.09620.13490g4=x40.05730.06220.10360g5=x50.08120.06950.16070.03060g6=x60.37120.17170.16140.11300.10080g7=x70.11590.10150.15040.06260.03570.07500表2:d1g1=x1g2=x2g3=x3g8=x4.5g6=x6g7=x7g10g20.04330g30.09620.13490g8=x4.50.05730.0
6、6220.10360g60.37120.17170.16140.10080g70.11590.10150.15040.03570.07500表3:d2g1g2g3g9=x4.5.7g6g10g20.04330g30.09620.13490g9=x4.5.70.05730.06220.10360g60.37120.17170.16140.07500表4:d3g10=x1,2g3g9=x4.5.7g6g10=x1,20g30.09620g9=x4.5.70.05730.10360g60.17170.16140.07500表5:d4g11=x1,2,4,5,7g3g6g11=x1,2,4,5,70g
7、30.09620g60.07500.16140表6:d5g12=x1,2,4,5,7,6g3g12=x1,2,4,5,7,60g30.09620分类数目品种归类距离系数6x1,x2,x3,x4,x5,x6,x70.03065x1,x2,x3,x4,x5,x7,x60.03574,x3,x4,x5,x7,x60.04333x3,x1,x2,x4,x5,x7,x60.05732x3,x1,x2,x4,x5,x7,x60.07501x1,x2,x4,x5,x6,x30.0962(4)分类结果分析七个品种分成四类(0.0450.05)x6粒重产量高x4,5,7粒重产量中等偏高x1,2粒重中等产量中等x
8、3粒轻产量低(5)聚类图(谱系图)例3 用中间距离法对例1样品进行聚类分析x1x2x3x4x5荚数/株6158.749.243.839.5解:表1d20g1g2g3g4g5g1=x10g2=x25.290g3=x3139.2472.250g4=x4295.84222.0129.160g5=x5462.25368.6494.0918.490表1中,5.29最小,g1,g2合并为g6,再用递推公式计算d236,d246,d256,得表2d21g6g3g4g5g6=x1,x20g3=x3104.420g4=x4257.6029.160g5=x5414.1294.0618.490用递推公式计算d267
9、,d237 如:表3 d22g6g3g7g6=x1,x20g3=x3104.420g7=x4,x5383.7915.420用公式表4 d23g6g8g6=x1,x20g8=x3,x4,x5240.240聚类结果与上面结果一样。§2系统聚类法(ii)一、重心法上面介绍的三种聚类方法在定义类与类间距离时,没有考虑每一类的样品数,考虑样品数可类似物理中引入重心作为每个类的代表,这时类与类间距离就可用重心间距离来表示。对样品分类来说,每一类的重心就是属于该类均值。设gp和gq的重心分别是,则gp和gq间距离是。当类与类间距离采用重心间距离,称为重心法。如果当新类产生后仍采用上述公式计算它与旧
10、类间距离,比较麻烦,当dij采用欧氏距离时可得到较方便的递推公式。设gp和gq并成gr,样品数目分别是np,nq,nr且nr=np+nq,重心分别是(均为m维向量),显然有又设某类gk,其重心是,且gk与gr间距离为:dkr,则 (证明略)这就是重心法的递推公式,利用这个公式,计算类间距离较方便。例1设有6个样品x1,x2,x6,测了一个指标,其数据如表x1x2x3x4x5x6a1257910试用重心法聚类。解:(1)计算样品间距离,采用欧氏距离:设g1=x1,g2=x2,,g6=x6(m=1,n=1),计算得:表1:d20g1g2g3g4g5g6g10g210g342320g46252220
11、g5827242220g69282523210(2)逐步归类计算类间距离公式为因为 所以计算新类g7与其余各类距离。这里np=nq=1,nr=np+nq=2表2:d21g7g3g4g5g6g7x1,x20g312.30g430.340g556.31640g672.325910如所以 g8=g5,g6,表3:d22g7g3g4g8g70g312.30g430.340g864.020.36.30g9=g3,g4表4:d23g7g9g8g70g920.30g864.012.30表10:d24g7g10g70g1039.10(3)聚类表分类数目样品归类d25x1,x2,x3,x4,x5,x614x1,
12、x2,x3,x4,x5,x613x1,x2,x3,x4,x5,x642x1,x2,x3,x4,x5,x612.31x1,x2,x3,x4,x5,x639.1(4)聚类图(谱系图)二、离差平方和法(ward法)word法来自方差分析。如果类分得正确,同一类样品的离差平方和应当小,类与类间离差平方和大。设有n个样品,分成k类:g1,gk,xit表示gt中的第i个样品(xit为m维向量),nt表示gt样品数,为gt均值,则gt中样品离差平方和为:总的类内离差平方和为:当k固定时,要选择使s达到极小的分类。当n,k较大时,分类数目相当大,如n=20,k=2, r(20,2)=219-1=524289,
13、要从这么多分类中来选最小s一般不可能。ward法求局部最小解的方法。(1)n个样品各自成一类;(2)将其中某两个样品合成一类使s增加最小(这时类的数目减小到n-1个);(3)再合并其中两类,使s增加最小,直到所有样品归为一类为止。例2 设有6个小麦品种x1,x2,x3,x4,x5,x6,观测一个指标,其数据如表,试用ward法聚类。x1x2x3x4x5x6穗数/株9.27.24.95.05.87.0解:(1)计算离差平方和记g1=x1,g6=x6根据计算得表1:s0g1g2g3g4g5g6g10g220g39.242.640g48.822.420.010g55.780.980.400.320g
14、62.420.022.202.000.720如(2)逐步归类因为s0=0.01最小,合并g3,g4,记g7=g3,g4=x3,x4计算新类g7与其它类的离差平方和的方法为:又如s27=3.37表2:s1g1g2g7g5g6g10g220g712.043.370g55.780.980.480g62.420.022.800.720又因s1=0.02最小,合并g2,g6记g8=g2,g6=x2,x6,计算新类g8与其余各类离差平方和的方法为:s18=2.93,s58=1.13表3:s2g1g8g7g5g10g82.930g712.044.630g55.781.130.480又因s2=0.48最小,所以合并g7,g5记g9=x3,x4,x5,计算新类g9与各类的离差平方和方法类似,得表4:s3g1g8g9g10g82.930g911.804.200因为s3=2.93最小,g10=x1,x2,x6表5:s4g10g9g100g910.390g11=x1,x6(3)聚类表分类数目品种归类s5x1,x2,x3,x4,x5,x60.014x1,x2,x6,x3,x4,x50.02
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 华师大版初中科学2.1压强
- 小学二年级100以内进退位加减法800道题
- 信息论与编码课件(全部课程内容)
- 医院节能环保与资源利用管理制度
- 人教部编版四年级语文上册第6课《夜间飞行的秘密》精美课件
- 【寒假阅读提升】四年级下册语文试题-文言文阅读(三)-人教部编版(含答案解析)
- 2024年客运从业资格证继续教育手机
- 2024年汕尾从业资格证客运考试题库
- 2024年雅安道路客运输从业资格证考试
- 2024年银川客运资格用什么练题好
- 院前急救与院内急诊有效衔接工作制度
- 2.1充分发挥市场在资源配置中的决定性作用(课件) 2024-2025学年高中政治 必修2 经济与社会
- Unit+5+Fun+Clubs+Section+A++(1a-1d)教学课件-2024-2025学年人教新目标(2024)七年级英语上册
- 超聚变 FCIA 考试题库
- 2024-2025学年初中地理七年级上册(2024)晋教版(2024)教学设计合集
- 第一单元第二节 改造家庭网络(第二课时)教案2024-2025学年川教版(2024)信息科技 七年级上册
- 智联招聘在线测评真题
- 2024年社区工作者面试题库与答案
- 2024年菱角项目可行性研究报告
- 农产品质量追溯系统操作手册
- 陕煤集团笔试题库及答案
评论
0/150
提交评论