多元统计分析课件聚类分析_第1页
多元统计分析课件聚类分析_第2页
多元统计分析课件聚类分析_第3页
多元统计分析课件聚类分析_第4页
多元统计分析课件聚类分析_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析课件聚类分析第一页,共一百零七页,编辑于2023年,星期五第一节什么是聚类分析第二页,共一百零七页,编辑于2023年,星期五

聚类分析也是一种分类技术。是研究“物以类聚”的一种方法。与多元分析的其他方法相比,该方法理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,应用方面取得了很大成功。第三页,共一百零七页,编辑于2023年,星期五举例

对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。第四页,共一百零七页,编辑于2023年,星期五应聘者得分如下应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424第五页,共一百零七页,编辑于2023年,星期五第六页,共一百零七页,编辑于2023年,星期五例如,对上市公司的经营业绩进行分类;例如,根据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。例如,当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。第七页,共一百零七页,编辑于2023年,星期五聚类分析内容

系统聚类动态聚类模糊聚类图论聚类第八页,共一百零七页,编辑于2023年,星期五第二节距离和相似系数第九页,共一百零七页,编辑于2023年,星期五描述亲疏程度有两个途径:

1、把每个样品看成p维(变量的个数为p个)空间的一个点,在p维坐标中,定义点与点之间的距离。

2、用某种相似系数来描述样品之间的亲疏程度。第十页,共一百零七页,编辑于2023年,星期五变量的类型变量按测量尺度的不同可以分为以下三类:

1、间隔尺度变量(数值型变量)用连续的数量来度量,如长度、重量、产值、成本

2、有序尺度变量(有序变量)如一、二、三等品不能用明确的数量度量,用等级表示,有次序关系。

3、名义尺度变量用一些类来表示。性别中的男与女,职业的分类。第十一页,共一百零七页,编辑于2023年,星期五聚类的种类根据分类的对象可将聚类分析分为:(1)Q型(即样品的聚类clusteringforindividuals)(2)R型(即变量或指标的聚类clusteringforvariables)第十二页,共一百零七页,编辑于2023年,星期五1、对样品分类(Q型)

常用的距离与相似系数的定义第十三页,共一百零七页,编辑于2023年,星期五样本资料矩阵样本资料矩阵第十四页,共一百零七页,编辑于2023年,星期五(1)距离假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij第十五页,共一百零七页,编辑于2023年,星期五定义距离的准则

定义第i个和第j个样品间的距离要求满足如下四个条件(距离可以自己定义,只要满足距离的条件):第十六页,共一百零七页,编辑于2023年,星期五距离矩阵样品间距离矩阵第十七页,共一百零七页,编辑于2023年,星期五明氏(Minkowski

)距离第十八页,共一百零七页,编辑于2023年,星期五绝对值距离第十九页,共一百零七页,编辑于2023年,星期五绝对值距离实例第二十页,共一百零七页,编辑于2023年,星期五欧式(Euclidian

)距离第二十一页,共一百零七页,编辑于2023年,星期五二维空间欧式距离第二十二页,共一百零七页,编辑于2023年,星期五欧氏Euclidian距离实例第二十三页,共一百零七页,编辑于2023年,星期五切比雪夫距离第二十四页,共一百零七页,编辑于2023年,星期五变量标准化第二十五页,共一百零七页,编辑于2023年,星期五标准化欧式距离第二十六页,共一百零七页,编辑于2023年,星期五马氏Mahalanobis

距离第二十七页,共一百零七页,编辑于2023年,星期五Mahalanobis

距离实例第二十八页,共一百零七页,编辑于2023年,星期五兰氏Canberra距离第二十九页,共一百零七页,编辑于2023年,星期五距离矩阵样品间距离矩阵第三十页,共一百零七页,编辑于2023年,星期五例题学生的身高与体重资料样品123456789身高X1160159160157169162165154160体重X2494653414950484345第三十一页,共一百零七页,编辑于2023年,星期五(2)相似系数

研究样品间的关系常用距离,研究指标(变量)间的关系常用相似系数。相似系数常用的有:夹角余弦与相关系数第三十二页,共一百零七页,编辑于2023年,星期五2、对指标(变量)分类(R型)第三十三页,共一百零七页,编辑于2023年,星期五相似系数的定义第三十四页,共一百零七页,编辑于2023年,星期五

夹角余弦(Cosine)第三十五页,共一百零七页,编辑于2023年,星期五相似矩阵变量间相似矩阵第三十六页,共一百零七页,编辑于2023年,星期五

相关系数第三十七页,共一百零七页,编辑于2023年,星期五相似矩阵第三十八页,共一百零七页,编辑于2023年,星期五第三节八种系统聚类方法

(hierarchicalclusteringmethod)第三十九页,共一百零七页,编辑于2023年,星期五将n个样品各作为一类

系统聚类法是诸聚类分析方法中使用最多的一种,按下列步骤进行:

计算n个样品两两之间的距离,构成距离矩阵

合并距离最近的两类为一新类

计算新类与当前各类的距离。再合并、计算,直至只有一类为止

画聚类图,解释

第四十页,共一百零七页,编辑于2023年,星期五

类与类之间的距离

1.最短距离法(singlelinkage)2.最长距离法(completelinkage)3.中间距离法(medianmethod)4.重心法(centroidmethod)5.类平均法(averagelinkage)6.可变类平均法(flexible-betamethod)7.可变法8.离差平方和法(Ward'sminimum-variancemethod)第四十一页,共一百零七页,编辑于2023年,星期五(一)最短距离法

(singlelinkage,nearestneighbor)

类类间:两类间两两样品距离最短

x21•x12•x22•x11•第四十二页,共一百零七页,编辑于2023年,星期五递推公式第四十三页,共一百零七页,编辑于2023年,星期五例1

设抽取五个样品,每个样品只侧一个指标,他们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(样品间用绝对值距离)第四十四页,共一百零七页,编辑于2023年,星期五D(0)表1

D(0)G1={X1}G2={X2}G3={X3}G4={X4}G5={X5}G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520第四十五页,共一百零七页,编辑于2023年,星期五D(1)

表2D(1)G6

G3

G4

G5G6={G1,G2}0G3={X3}1.50G4={X4}53.50G5={X5}75.520第四十六页,共一百零七页,编辑于2023年,星期五D(2)

表3D(2)G7

G4

G5G7={G3,G6}0G4={X4}3.50G5={X5}5.520第四十七页,共一百零七页,编辑于2023年,星期五D(3)

表4D(3)G7

G8G70G8={G4,G5}3.50第四十八页,共一百零七页,编辑于2023年,星期五聚类谱系图第四十九页,共一百零七页,编辑于2023年,星期五最短距离法聚类的步骤1、定义样品之间的距离,计算初始距离矩阵D(0)2、找出D(0)中非对角线上的最小值,设为Dpq,将对应的两类Gp和Gq合并成一个新类,记为Gr,即Gr=(Gp,Gq)3、计算新类与其它类之间的距离,得距离矩阵D(1)。4、用D(1)代替D(0),重复2、3的过程得D(2),如此下去直到所有样品合并成一类为止。第五十页,共一百零七页,编辑于2023年,星期五(二)最长距离法(Furthest

Neighbor

)类类间:两类间两两样品距离最长的•••x11•x21•••••••x11•x21••••第五十一页,共一百零七页,编辑于2023年,星期五递推公式第五十二页,共一百零七页,编辑于2023年,星期五D(0)

表1D(0)G1

G2

G3

G4

G5G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520第五十三页,共一百零七页,编辑于2023年,星期五D(1)

表2D(1)G6

G3

G4

G5

G6={G1,G2}0G3={X3}2.50G4={X4}63.50G5={X5}85.520第五十四页,共一百零七页,编辑于2023年,星期五D(2)

表3D(2)G6

G7

G3G60G7={G4,G5}80G3={X3}2.55.50第五十五页,共一百零七页,编辑于2023年,星期五D(3)

表4D(3)G7

G8

G70G8={G3,G6}80第五十六页,共一百零七页,编辑于2023年,星期五第五十七页,共一百零七页,编辑于2023年,星期五(三)中间距离法Medianmethod最短距离最长距离中间距离第五十八页,共一百零七页,编辑于2023年,星期五如果在某一步将类Gp与Gq类合并为Gr,任一类Gk和新Gr的距离公式为:

当时,由初等几何知就是上面三角形的中线。第五十九页,共一百零七页,编辑于2023年,星期五D2(0)G1

G2

G3

G4

G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540第六十页,共一百零七页,编辑于2023年,星期五D2(1)

G6

G3

G4

G5G6={X1,X2}0G3={X3}40G4={X4}30.2512.250G5={X5}56.2530.2540第六十一页,共一百零七页,编辑于2023年,星期五D2(2)

G7

G4

G5G70G420.250G542.2540第六十二页,共一百零七页,编辑于2023年,星期五D2(3)

G7

G8

G7={X1,X2,X3}0G8={X4,X5}30.250第六十三页,共一百零七页,编辑于2023年,星期五(四)重心法(Centroidclustering):••类类间:两类重心之间的距离即均值点间的距离第六十四页,共一百零七页,编辑于2023年,星期五

递推公式注意:初始距离用欧式距离则有下列第六十五页,共一百零七页,编辑于2023年,星期五D2(0)G1

G2

G3

G4

G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540第六十六页,共一百零七页,编辑于2023年,星期五D2(1)

G6

G3

G4

G5G6={X1,X2}0G3={X3}40G4={X4}30.2512.250G5={X5}56.2530.2540第六十七页,共一百零七页,编辑于2023年,星期五D

2(2)

G7

G4

G5G7={X1,X2X3}0G4={X4}23.360G5={X3}46.6940第六十八页,共一百零七页,编辑于2023年,星期五D2(3)

G7

G8

G7={X1,X2,X3}0G8={X4,X5}34.030第六十九页,共一百零七页,编辑于2023年,星期五(五)类平均法

(Between-groupLinkage)••••••类类间:两类之间的距离为两类样品两两之间的平均距离第七十页,共一百零七页,编辑于2023年,星期五递推公式第七十一页,共一百零七页,编辑于2023年,星期五D2(0)G1

G2

G3

G4

G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540第七十二页,共一百零七页,编辑于2023年,星期五D2(1)

G6

G3

G4

G5G6={X1,X2}0G3={X3}4.250G4={X4}30.2512.250G5={X5}56.2530.2540第七十三页,共一百零七页,编辑于2023年,星期五D

2(2)

G6

G7

G3G6={X1,X2}0G7={X4X5}43.50G3={X3}4.2521.250第七十四页,共一百零七页,编辑于2023年,星期五D2(3)

G7

G8

G7={X4,X5}0G8={X1,X2,X3}36.080第七十五页,共一百零七页,编辑于2023年,星期五(六)可变类平均法

类平均法的递推公式中,没有反映Gp类和Gq类的距离有多大,进一步将其改进,加入D2Pq,并给定系数<1,则类平均法的递推公式改为:一般取第七十六页,共一百零七页,编辑于2023年,星期五(七)可变法如果让中间距离法的递推公式前两项的系数也依赖于,则递推公式为:第七十七页,共一百零七页,编辑于2023年,星期五(八)离差平方和法(ward法)

可以证明离差平方和的聚类公式为第七十八页,共一百零七页,编辑于2023年,星期五D2(0)G1

G2

G3

G4

G5G1={X1}0G2={X2}0.50G3={X3}3.1251.1250G4={X4}1812.56.1250G5={X5}3224.515.12520第七十九页,共一百零七页,编辑于2023年,星期五D2(1)

G6

G3

G4

G5G6={X1,X2}0G3={X3}2.6670G4={X4}20.1676.1250G5={X5}37.515.12520第八十页,共一百零七页,编辑于2023年,星期五D

2(2)

G6

G7

G3G6={X1,X2}0G7={X4X5}42.250G3={X3}2.66713.50第八十一页,共一百零七页,编辑于2023年,星期五D2(3)

G7

G8

G7={X4,X5}0G8={X1,X2,X3}40.8330第八十二页,共一百零七页,编辑于2023年,星期五第八十三页,共一百零七页,编辑于2023年,星期五离差平方和法(ward法)第八十四页,共一百零七页,编辑于2023年,星期五方法最短距离法最长距离法中间距离法重心法类平均法可变类平均法可变法离差平方和法½½½np/nrnp/nr(1-β)np/nr(1-β)/2ni+np/ni+nr½½½nq/nrnq/nr(1-β)nq/nr(1-β)/2ni+nq/ni+nr00-1/4≧β≧0-αpαq0<1<1-ni/ni+nr-½½000000第八十五页,共一百零七页,编辑于2023年,星期五例1:为了更深入了解我国人口的文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标:(1)大学以上文化程度人口占全部人口的比例(DXBZ);(2)初中文化程度的人口占全部人口的比(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ)、用来反映较高、中等、较低文化程度人口的状况,原始数据如下表:第八十六页,共一百零七页,编辑于2023年,星期五1990年全国人口普查文化程度人口比例(%)地区序号DXBZCZBZWMBZ北京天津河北山西内蒙辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北湖南广东广西海南四川贵州云南西藏陕西甘肃青海宁夏新疆1234567891011121314151617181920212223242526272829309.304.67.961.381.482.602.152.146.531.471.17.881.23.99.98.851.571.141.34.791.24.96.78.81.571.671.101.491.611.8530.5529.3824.6929.2425.4732.3226.3128.4631.5926.4323.7419.9716.8718.8425.1826.5523.1622.5723.0419.1422.5321.6514.6513.853.8524.3616.8517.7620.2720.668.708.9215.2111.3015.398.8110.4910.8711.0417.2317.4624.4315.6316.2216.8716.1515.7912.1010.4510.6113.9716.2424.2725.4444.4319.6227.9327.7022.0612.75第八十七页,共一百零七页,编辑于2023年,星期五第八十八页,共一百零七页,编辑于2023年,星期五第一类:北京、天津、山西、辽宁、吉林、黑龙江、上海。其中大多是东部经济、文化较发达的地区。第二类:安徽、宁夏、青海、甘肃、云南、贵州其中大多数是西部经济、文化发展较慢的地区。第三类:西藏。经济、文化较落后的地区。第四类:其它省、直辖市、自治区。经济、文化在全国处于中等水平。根据聚类图把30个样品分为四类能更好地反映我国实际情况。第八十九页,共一百零七页,编辑于2023年,星期五例2:根据美国等20个国家和地区的信息基础设施的发展状况进行分类。Call—每千人拥有的电话线数;movel—每千人户居民拥有的蜂窝移动电话数;fee—高峰时期每三分钟国际电话的成本;comp—每千人拥有的计算机数;mips—每千人计算机功率(每秒百万指令);net—每千人互联网络户主数。第九十页,共一百零七页,编辑于2023年,星期五表3-420个国家信息基础设施指标资料序号国家CallMovecallFeeComputerMipsNet1234567891011121314151617181920美国日本德国瑞典瑞士丹麦新加坡中国台湾韩国巴西智利墨西哥俄罗斯波兰匈牙利马来西亚泰国印度法国英国631.60498.40557.60684.10644.00620.30498.40469.40434.5081.90138.6092.20174.90169.00262.20195.5078.6013.60559.10521.10161.90143.2070.60281.8093.50248.60147.5056.1073.0016.308.209.805.006.5049.4088.4027.80.3042.90122.500.363.572.181.401.982.562.503.683.363.021.402.615.123.682.664.194.956.281.270.98403.00176.00199.00286.00234.00296.00284.00119.0099.0019.0031.0031.0024.0040.0068.0053.0022.002.00201.00248.0026073.0010223.0011571.0016660.0013621.0017210.0013578.006911.005795.00876.001411.001751.001101.001796.003067.002734.001662.00101.0011702.0014461.0035.346.269.4829.3922.6821.8413.491.721.660.521.280.350.481.453.091.250.110.014.7611.91第九十一页,共一百零七页,编辑于2023年,星期五第九十二页,共一百零七页,编辑于2023年,星期五本例聚为2类:第一类:巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、马来西亚。这些国家为转型国家和亚洲、拉美发展中国家,经济较不发达,基础设施薄弱,属于信息基础设施比较落后的国家。第二类:瑞典、丹麦、美国、中国台湾、韩国、日本、德国、法国、新加坡、英国、瑞士。这些国家为美、日、欧洲发达国家与新兴工业化国家中国台湾、新加坡、韩国。新兴工业化国家近几十年来发展迅速,努力赶超发达国家,在信息基础设施的发展上已非常接近发达国家,发达国家中的美国、瑞典、丹麦的信息基础设施发展最为良好。第九十三页,共一百零七页,编辑于2023年,星期五第四节系统聚类的基本性质1、单调性设Dk是系统聚类法中第K次并类时的距离,如果D1<D2<…

,则称并类距离具有单调性。可以证明除了中间距离法和重心法之外,其他的系统聚类法均满足单调性的条件。第九十四页,共一百零七页,编辑于2023年,星期五2、空间的浓缩或扩张两个同阶矩阵D(A)和D(B),如果D(A)的每一个元素不小于D(B)的相应元素,则记为D(A)≧D(B)。若有两种系统聚类法A和B,在第K步的距离矩阵记为D(AK)和D(BK),若有D(AK)≧D(BK)对所有K,则称A比B使空间扩张或B比A使空间浓缩。第九十五页,共一百零七页,编辑于2023年,星期五

D(0)G1G2G3G4G5G1={X1}0G2={X2}30G3={X3}410G4={X4}6320G5={X5}107620最短距离法最长距离法第九十六页,共一百零七页,编辑于2023年,星期五D(1)G6

G3

G4

G5G60G330G4260G561040D(1)G6

G3

G4

G5

G60G340G4360G5710

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论