聚类分析-博文学院_第1页
聚类分析-博文学院_第2页
聚类分析-博文学院_第3页
聚类分析-博文学院_第4页
聚类分析-博文学院_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析ClusterAnalysis1什么是聚类分析什么是聚类分析聚类分析也是一种分类技术。是研究“物以类聚”的一种方法。什么是聚类分析1、如对我国34个省市直辖市进行分类。2、如对图书馆的书籍进行分类。3、如视频播放器对电影进行分类。2距离和相似系数距离和相似系数

描述亲疏程度有两个途径:

1、把每个样品看成p维(变量的个数为p个)空间的一个点,在p维坐标中,定义点与点之间的距离。

2、用某种相似系数来描述样品之间的亲疏程度。距离和相似系数根据分类的对象可将聚类分析分为:

(1)Q型(即样品的聚类)

(2)R型(即变量或指标的聚类)距离和相似系数Ⅰ、对样本的分类(Q型)(利用距离来分类)距离和相似系数

样本资料矩阵假使每个样品有p个属性,则每个样品都可以看成p维空间中的一个点n个样品就是p维空间中的n个点2/3/2023距离和相似系数第i样品与第j样品之间的距离记为dij距离和相似系数

样本间的距离矩阵距离和相似系数怎样定义样本距离?1、明氏距离(Minkowski)2、欧氏距离(Euclidian)3、切比雪夫距离4、马氏距离(Mahalanobis)5、兰氏距离(Canberra)距离和相似系数1)、明氏距离当p=1时,绝对值距离2/3/2023距离和相似系数2)、欧氏距离2/3/2023距离和相似系数3、切比雪夫距离距离和相似系数4、马氏距离2/3/2023距离和相似系数5、兰氏距离距离和相似系数Ⅱ、对指标的分类(R型)(利用相似系数来分类)距离和相似系数怎样定义指标间的相似系数?1、夹角余弦2、相关系数距离和相似系数1)、夹角余弦距离和相似系数

指标间的相似矩阵距离和相似系数2)、相关系数距离和相似系数

指标间的相似矩阵3系统聚类法系统聚类法系统聚类法一般按以下步骤进行:1、将n个样品各作为一类;2、计算n个样品两两之间的距离,构成距离矩阵;3、合并距离最近的两类为一新类;4、计算新类与当前各类的距离。再合并、计算,直至只有一类为止;5、画聚类图,解释系统聚类法类与类之间的距离1.最短距离法(singlelinkage)2.最长距离法(completelinkage)3.中间距离法(medianmethod)4.重心法(centroidmethod)5.类平均法(averagelinkage)6.可变类平均法(flexible-betamethod)7.可变法8.离差平方和法(Ward'sminimum-variancemethod)最短距离法系统聚类法x21•x12•x22•x11•类类间:两类间两两样品距离最短系统聚类法

递推公式例、设抽取五个样品,每个样品只侧一个指标,他们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(样品间用绝对值距离)系统聚类法

D(0)

D(0)G1={X1}G2={X2}G3={X3}G4={X4}G5={X5}G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520系统聚类法

D(1)D(1)G6

G3

G4

G5G6={G1,G2}0G3={X3}1.50G4={X4}53.50G5={X5}75.520系统聚类法D(2)D(2)G7

G4

G5G7={G3,G6}0G4={X4}3.50G5={X5}5.520系统聚类法

D(3)D(3)G7

G8G70G8={G4,G5}3.50系统聚类法

聚类谱系图系统聚类法

最短距离法聚类的步骤:1、定义样品之间的距离,计算初始矩阵D(0);2、找出D(0)中非对角线上的最小值,设为Dpq,将对应的两类Gp和Gq合并成一个新类,记为Gr

,即Gr=(Gp,Gq)3、计算新类与其它类之间的距离,得距离矩阵D(1)。4、用D(1)代替D(0),重复2、3的过程得D(2),如此下去直到所有样品合并成一类为止。最长距离法系统聚类法x21•x12•x22•x11•类类间:两类间两两样品距离最长系统聚类法

递推公式例、设抽取五个样品,每个样品只侧一个指标,他们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(样品间用绝对值距离)系统聚类法

D(0)

D(0)G1={X1}G2={X2}G3={X3}G4={X4}G5={X5}G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520系统聚类法

D(1)D(1)G6

G3

G4

G5

G6={G1,G2}0G3={X3}2.50G4={X4}63.50G5={X5}85.520系统聚类法D(2)D(2)G6

G7

G3G60G7={G4,G5}80G3={X3}2.55.50系统聚类法

D(3)D(3)G7

G8

G70G8={G3,G6}80系统聚类法

聚类谱系图中间距离法系统聚类法系统聚类法

递推公式

当β=-1/4时,是三角形的中线例、设抽取五个样品,每个样品只侧一个指标,他们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(样品间用绝对值距离)系统聚类法

D(0)D2(0)G1

G2

G3

G4

G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540系统聚类法

D(1)D2(1)

G6

G3

G4

G5G6={X1,X2}0G3={X3}40G4={X4}30.2512.250G5={X5}56.2530.2540系统聚类法D(2)D2(2)

G7

G4

G5G70G420.250G542.2540系统聚类法

D(3)D2(3)

G7

G8

G7={X1,X2,X3}0G8={X4,X5}30.250重心法系统聚类法类类间:两类重心间的距离即为均值点间的距离••系统聚类法

递推公式例、设抽取五个样品,每个样品只侧一个指标,他们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(样品间用绝对值距离)系统聚类法

D(0)D2(0)G1

G2

G3

G4

G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540系统聚类法

D(1)D2(1)

G6

G3

G4

G5G6={X1,X2}0G3={X3}40G4={X4}30.2512.250G5={X5}56.2530.2540系统聚类法D(2)D

2(2)

G7

G4

G5G7={X1,X2X3}0G4={X4}23.360G5={X3}46.6940系统聚类法

D(3)D2(3)

G7

G8

G7={X1,X2,X3}0G8={X4,X5}34.030类平均法系统聚类法类类间:两类间的距离即为两类样品两两之间的距离••••••例、设抽取五个样品,每个样品只侧一个指标,他们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(样品间用绝对值距离)系统聚类法

D(0)D2(0)G1

G2

G3

G4

G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540系统聚类法

D(1)D2(1)

G6

G3

G4

G5G6={X1,X2}0G3={X3}4.250G4={X4}30.2512.250G5={X5}56.2530.2540系统聚类法D(2)D

2(2)

G6

G7

G3G6={X1,X2}0G7={X4X5}43.50G3={X3}4.2521.250系统聚类法

D(3)D2(3)

G7

G8

G7={X4,X5}0G8={X1,X2,X3}36.080可变类平均法系统聚类法系统聚类法

递推公式

类平均法的递推公式中,没有反映Gp类和Gq类的距离有多大,进一步将其改进,加入D2pq,并给定系数<1,则类平均法的递推公式改为:一般取β=-1/4可变法系统聚类法系统聚类法递推公式如果让中间距离法递推公式前两项的系数也依赖于β,则递推公式为:离差平方和法系统聚类法系统聚类法定义Gp类和Gq类的距离系统聚类法

D(0)D2(0)G1

G2

G3

G4

G5G1={X1}0G2={X2}0.50G3={X3}3.1251.1250G4={X4}1812.56.1250G5={X5}3224.515.12520系统聚类法

D(1)D2(1)

G6

G3

G4

G5G6={X1,X2}0G3={X3}2.6670G4={X4}20.1676.1250G5={X5}37.515.12520系统聚类法D(2)D

2(2)

G6

G7

G3G6={X1,X2}0G7={X4X5}42.250G3={X3}2.66713.50系统聚类法

D(3)D2(3)

G7

G8

G7={X4,X5}0G8={X1,X2,X3}40.83302/3/2023例1:为了更深入了解我国人口的文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标:(1)大学以上文化程度人口占全部人口的比例(DXBZ);(2)初中文化程度的人口占全部人口的比(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ)、用来反映较高、中等、较低文化程度人口的状况,原始数据如下表:系统聚类法1990年全国人口普查文化程度人口比例(%)2/3/2023地区序号DXBZCZBZWMBZ北京天津河北山西内蒙辽宁吉林黑龙江上海江苏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论