版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章聚类分析聚类分析是定量研究分类问题的一种多元统计方法。所谓类,就是指相似元素的集合聚类分析的研究目的
把相似的东西归成类,根据相似的程度将研究目标进行分类。§1什么是聚类分析ClusterAnalysis系统聚类的思想产品质量分类
1从21个工厂各抽一件同类产品,每件产品测量两个质量指标,记为x1与x2,现要求将各厂的产品按质量情况进行分类2将每个工厂产品的两个指标看成平面上的一个点,并在坐标平面上将21个点画出来。基本思想:逐步将距离近的类合并在一起根据产品质量分类系统聚类法的基本思路
基本思想:逐步将距离近的类合并在一起。先将所有n个样品看成不同的n类,然后将性质最接近(距离最近)的两类合并为一类;再从这n-1类中找到最接近的两类加以合并,依次类推,直到所有的样品被合为一类。系统聚类法的具体步骤先将n个样品各自看成一类,即有n个类,(此时的类间距离为样品间距离),选择距离最小的合并成一个新类;定义新类与新类之间的距离,然后再将距离最小的合并;每合并一次,至少减少一类;直到所有的样品都并成一类为止。聚类分析的研究对象R型分析----对变量进行分类(相似系数)Q型分析----对样品进行分类(距离)聚类分析研究的主要内容如何度量事物之间的相似性?怎样构造聚类的具体方法以达到分类的目的?
分类统计量数据分类(计量尺度):分类数据、顺序数据和数值型数据一.数据资料矩阵的标准化处理变量分类间隔尺度变量有序尺度变量名义尺度变量本章重点介绍间隔尺度变量的聚类分析方法m个指标X1,X2,X3,…,Xm,数据资料矩阵为X1,…,Xmm个指标n次观测距离和数量次序§2距离和相似系数
例对10位应聘者做智能检验。3项指标X、Y和Z分别表示数学推理能力、空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424我们的问题是如何来选择样品间相似性的测度指标,如何将相似的类连接起来?一、相似性的测度
距离:将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。相似系数:测度变量之间的亲疏程度距离是用来描述样品间亲疏程度的分类统计量.二.距离和相似系数1.距离:此处我们将每个样品看成是m维空间中的一个点,并在空间中定义距离。根据样本间距离的远近将样本进行划分。聚类分析中常用的距离公式:1)闵氏(Minkowski)距离q=1时,绝对值距离q=2时,欧氏(Euclidean)距离闵氏距离适用于一般p维欧氏空间。缺点是没有考虑变量之间的相关性。距离是用来描述样品间亲疏程度的分类统计量.二维空间欧式距离2)马氏(Mahalanobis)距离s=(sij)分别为第i号样品和第j号样品各指标的均值
马氏距离适用于衡量来自正态总体的样品点之间接近程度的距离;优点:马氏距离既排除了各指标间的相关性干扰,又消除了各指标的量纲.1)Pearson相关系数两个变量相似系数的绝对值越接近于1,说明这两个变量的关系越密切,性质越接近。相似系数绝对值大的变量归为一类,相似系数绝对值小的变量归属于不同的类。2.相似系数相似系数是用来描述指标间亲疏程度的分类统计量。正好是这两个向量的夹角余弦。若夹角余弦越大,则夹角越小,则两个变量越相似。相关系数实际上是对数据做标准化处理后的夹角余弦。2)夹角余弦若将第i个变量的n个观测值(x1i,x2i,…,xni)T和第j个变量的n个观测值(x1j,x2j,…,xnj)T看成n维空间中的两个向量,则CBAθ’θ
1.用距离作为亲疏程度的度量值时,距离越小,样品之间的关联性越大;用相似系数作为亲疏程度的度量值时,相似系数的绝对值越大,意味着指标之间的关联性越大。2.有时样品之间也可以用相似系数来描述它们的亲疏程度,变量之间也可以用距离来描述它们的亲疏程度。3.聚类分析时到底选择哪一种分类统计量,有时并无最优或唯一选择,通常也可尝试性地多选择几个不同的度量值进行聚类,通过比较分析确定。几点说明:123452018104471055325.236.328.911.517欧氏距离切比雪夫距离闵氏距离有以下两个缺点:①闵氏距离的数值与指标的量纲有关。当各变量的测量值相差悬殊时,常发生“大数吃小数”的现象,为消除量纲的影响,通常先将每个变量进行标准化。②闵氏距离的定义没有考虑各个变量之间相关性的影响。年龄收入家庭人口数甲3030001乙4032003(2)标准化的欧氏距离设原始数据为
(3)马氏距离由印度著名统计学家马哈拉诺比斯(Mahalanobis)所定义的一种距离,其计算公式为:
=马氏距离又称为广义欧氏距离。马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,此时马氏距离就是标准化的欧氏距离。马氏距离不受指标量纲及指标间相关性的影响
二、变量间相似系数的算法变量和的相关系数:
(2)夹角余弦(1)相关系数系统聚类法直观,易懂。快速聚类法(动态聚类法)快速,动态。有序聚类法保序(时间顺序或大小顺序)。各种聚类方法§3
系统聚类法系统聚类法的基本思想
先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。系统聚类法的基本步骤:1.
计算n个样品两两间的距离,记作D=。2.
构造n个类,每个类只包含一个样品。3.
合并距离最近的两类为一新类。4.
计算新类与各当前类的距离。5.
重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。6.
画聚类谱系图。7.
决定类的个数和类。
最短距离法最长距离法中间距离法重心法类平均法
离差平方和法(Ward法)系统聚类方法:
上述6种方法归类的基本步骤一致,只是类与类之间的距离有不同的定义。定义类p与q之间的距离为两类最近样品的距离,即xq1•xp2•xq2•xp1•xq3•一、最短距离法设类p与q合并成一个新类,记为k,则k与任一类r的距离是pqkr例
最短距离法
设抽取5个样品,每个样品观察2个指标,:您每月大约喝多少瓶啤酒,:您对“饮酒是人生的快乐”这句话的看法如何?观察数据如下,对这5个样品分类。1234520181044710553
②③④⑤①②③④3.610.216.1216.499.4314.8715.6566.32
2计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2.合并距离最小的两类为新类,按顺序定为第6类。⑥=3、计算新类⑥与各当前类的距离,得距离矩阵如下:②③⑥①②③
3.6
10.216.129.4314.876为最小,⑦=⑥⑦③⑥
6
9.4314.874、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。
为最小,⑧=5、6、按聚类的过程画聚类谱系图45⑥⑨⑧并类距离312⑦7、决定类的个数与类。
观察此图,我们可以把5个样品分为3类,、、。•••x11•x21••••二、最长距离法定义类p与q之间的距离为两类最远样品的距离,即设类p与q合并成一个新类,记为k,则k与任一类r的距离是pqkr
②③④⑤①②③④3.610.216.1216.499.4314.8715.6566.32
2计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2.合并距离最小的两类为新类,按顺序定为第6类。⑥=例最长距离法
3、计算新类⑥与各当前类的距离,得距离矩阵如下:②③⑥①②③
3.6
10.216.499.4315.656.32为最小,⑦=⑥⑦③⑥6.32
10.216.494、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。
为最小,⑧=5、6、按聚类的过程画聚类谱系图45⑥⑨⑧并类距离312⑦7、决定类的个数与类。
观察此图,我们可以把5个样品分为3类,、、。三、中间距离法定义类与类之间的距离既不采用两类之间最近的距离,也不采用两类之间最远的距离,而是采用介于两者之间的距离,故称为中间距离法。•••rpqk
②③④⑤①②③④13104260272892212453640
4计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2.合并距离最小的两类为新类,按顺序定为第6类。⑥=例中间距离法
3、计算新类⑥与各当前类的距离,得距离矩阵如下:②③⑥①②③
13
1042658923237为最小,⑦=⑥⑦③⑥
37
93.25245.254、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。
为最小,⑧=5、6、按聚类的过程画聚类谱系图45⑥⑨⑧并类距离312⑦7、决定类的个数与类。
观察此图,我们可以把5个样品分为3类,、、。四、重心法(Centroid)••和类与类之间的距离就考虑用重心之间的距离表示。设p与q的重心分别是,则类p和q的距离为将p和q合并为k,则k类的样品个数为它的重心是某一类r的重心是,它与新类k的距离是经推导可以得到如下递推公式:设聚类到某一步,类p与q分别有样品
、个,
②③④⑤①②③④13104260272892212453640
4计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2.合并距离最小的两类为新类,按顺序定为第6类。⑥=3、计算新类⑥与各当前类的距离,得距离矩阵如下:②③⑥①②③
13
1042658923237为最小,⑦=⑥⑦③⑥
37
93.25245.254、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。
为最小,⑧=5、6、按聚类的过程画聚类谱系图45⑥⑨⑧并类距离312⑦7、决定类的个数与类。
观察此图,我们可以把5个样品分为3类,、、。五、类平均法(Average)定义两类之间的距离平方为这两类元素两两之间距离平方的平均•••••pq将p和q合并为k,则k类的样品个数为设聚类到某一步,类p与q分别有样品、个,k类与任一类r的距离为
②③④⑤①②③④13104260272892212453640
4计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2.合并距离最小的两类为新类,按顺序定为第6类。⑥=例类平均法
3、计算新类⑥与各当前类的距离,得距离矩阵如下:②③⑥①②③
13
1042668923338为最小,⑦=⑥⑦③⑥
38
96.5249.54、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。
为最小,⑧=5、6、按聚类的过程画聚类谱系图45⑥⑨⑧并类距离312⑦7、决定类的个数与类。
观察此图,我们可以把5个样品分为3类,、、。六、差平方和法(Ward法)
反映样品之间的差异程度设变量X的n个样品观察值为:n个样品的离差平方和为:•••••••••••q•••••••••••••pk设类p和q分别含有np、nq个样品,其离差平方和分别记为和直观上容易想到把两群样品聚为一大群,大群的离差平方和将超过原来两个群的离差平方和之和。
如果将p和q并类得到新类k,则类k的离差平方和为把增加的量记为定义类p和q之间的距离为:设类p和q分别含有np、nq个样品,其离差平方和分别记为和可以推得新类k与任一类r的距离:
②③④⑤①②③④6.55213013644.5110.5122.51820
2计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2.合并距离最小的两类为新类,按顺序定为第6类。⑥=例离差平方和法(Ward法)
两样品间的距离的平方恰为它们之间欧氏距离平方的一半。3、计算新类⑥与各当前类的距离,得距离矩阵如下:②③⑥①②③
6.5
52176.6744.5154.6724.67为最小,⑦=⑥⑦③⑥
24.67
62.17245.264、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。
为最小,⑧=5、6、按聚类的过程画聚类谱系图45⑥⑨⑧并类距离312⑦7、决定类的个数与类。
观察此图,我们可以把5个样品分为3类,、、。最短距离法最长距离法中间距离法重心法类平均法离差平方和法
根据第三产业国内生产总值的9项指标,对华东地区6省1市进行分类,原始数据如下表:交通贸易金融房服务
卫生文教科研党政
X1X2X3X4X5X6X7X8X9上海江苏浙江安徽福建江西山东244.42412.04459.63512.21160.4543.5189.9348.5548.63435.77724.85376.04381.81210.3971.82150.6423.74188.28321.75665.80157.94172.19147.1652.4478.1610.9093.50152.29258.6083.4285.1075.7426.7563.475.8947.02347.25332.59157.32172.48115.1633.8077.278.6979.01145.40143.5497.40100.5043.2817.7151.035.4162.03442.20665.33411.89429.88115.0787.45145.2521.39187.77福建江西安徽浙江山东江苏上海AverageDistanceBetweenClusters012福建江西安徽浙江山东江苏上海DistanceBetweenClusterCentroids012动态聚类法
基本思想:选取若干个样品作为凝聚点,计算每个样品和凝聚点的距离,进行初始分类,然后根据初始分类计算其重心,再进行第二次分类,一直到所有样品不再调整为止。选择凝聚点分类修改分类分类是否合理分类结束YesNo
用一个简单的例子来说明动态聚类法的工作过程。例如我们要把图中的点分成两类。快速聚类的步骤:
1、随机选取两个点和作为凝聚点。
2、对于任何点,分别计算
3、若,则将划为第一类,否则划给第二类。于是得图(b)的两个类。4、分别计算两个类的重心,则得和,以其为新的凝聚点,对空间中的点进行重新分类,得到新分类。
(b)任取两个凝聚点(c)第一次分类(d)求各类中心
(a)空间的群点(e)第二次分类动态聚类法
优点:计算量小,方法简便,可以根据经验,先作主观分类。缺点:结果受选择凝聚点好坏的影响,分类结果不稳定。选择凝聚点和确定初始分类
凝聚点就是一批有代表性的点,是欲形成类的中心。凝聚点的选择直接决定初始分类,对分类结果也有很大的影响,由于凝聚点的不同选择,其最终分类结果也将出现不同。故选择时要慎重.通常选择凝聚点的方法有:
(1)人为选择,当人们对所欲分类的问题有一定了解时,根据经验,预先确定分类个数和初始分类,并从每一类中选择一个有代表性的样品作为凝聚点。
(2)重心法将数据人为地分为A类,计算每一类的重心,将重心作为凝聚点。(3)密度法以某个正数d为半径,以每个样品为球心,落在这个球内的样品数(不包括作为球心的样品)称为这个样品的密度。计算所有样品点的密度后,首先
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年矿山开采土石方清运合同3篇
- 专用个人焊接服务协议2024版范本
- 12《总也倒不了的老屋》说课稿-2024-2025学年统编版语文三年级上册
- 2025版25MW柴油发电机电站智能化管理系统技术服务协议3篇
- 2024年食品企业员工固定期限劳动协议范本版B版
- 2025版出轨离婚协议书范本及财产分配及子女赡养费协议3篇
- 14穷人 说课稿-2024-2025学年六年级上册语文统编版
- 2024服装厂工人劳动合同
- 2《我是什么》说课稿-2024-2025学年统编版语文二年级上册
- 二零二四年度销售代理关于汽车销售代理的合同
- 六年级作文指导暑假趣事经典课件
- 年代80初中英语第一册
- 最敬业员工无记名投票选举表
- 建设工程质量检测作业指导书+仪器设备操作规程2021版
- 桥式起重机制造和生产工艺研究
- 土方测量报告
- 中医基础理论考试题库及答案(一)
- 产品委托销售协议
- GA 1807-2022核技术利用单位反恐怖防范要求
- 高中历史教学中开展小组合作学习的思考
- 梅毒诊疗指南(2014版)
评论
0/150
提交评论