版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第3节 聚类分析与判别分析 聚类分析和判别分析,是定量化的研究分类问题的统计学方法。这两种方法都是研究事物分类的数学方法,但二者是有区别的。 聚类分析,事先并不知道样本有多少类,也不知道每一个样本来自哪一类,而是根据样本的自身属性确定亲疏关系,并按这种亲疏关系程度对样本进行分类。 而判别分析,则是在事先已知样本分类的前提下,对给定的新样本进行归类。它是根据已知对象的观测指标和所属类别,判断未知对象所属类别的方法。一、聚类分析距离的计算聚类方法 聚类分析实例 聚类分析是根据样本之间的亲疏关系(相似程度或差异程度)进行分类的,其基本思想是:把相似度高的样本划归为同一类,把差异程度大的样本划分到不同
2、的类。聚类分析的方法有:系统聚类法,K-均值法,图论聚类法,模糊聚类法,等等。本节主要介绍系统聚类法。(一)距离的计算 样本之间的亲疏关系(相似程度或差异程度)是聚类分析的基本依据,而样本之间的亲疏关系常常是以距离衡量的。样本之间的距离越大,其差异性就越大,相似性就越小。因此,常常把距离作为聚类分析的定量化依据。 如果把描述第 个分类对象(样本)的n个指标记为 ,则第i和第j个分类对象(样本)之间的距离计算公式如下: 绝对值距离 欧氏距离 明科夫斯基距离 (4.3.1) (4.3.2) (4.3.3) 切比雪夫距离。当明科夫斯基距 时,有 马氏距离在(4.3.5)式中, 为数据矩阵的协方差阵。
3、(4.3.4) (4.3.5) 马氏距离是由印度统计学家马哈拉诺比斯(Mahalanobis P. C.)提出的一种协方差距离。 其最大优点,是尺度无关的(scale-invariant),不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的两点之间的马氏距离相同。 缺点是夸大了变化微小的变量的作用。在用距离判别法进行判别分析时,常常选用马氏距离。 选择不同的距离,进行聚类分析,结果可能会有所差异。在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类。 在地理分类和分区研究中,每一个聚类对象(样本
4、)常常由多个要素(指标)描述。不同要素(指标)的数据,往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。因此在进行聚类分析之前,往往要对数据进行标准化处理。(二)聚类方法 直接聚类法最短距离聚类法最远距离聚类法计算类之间距离的统一公式直接聚类法 是根据距离矩阵的结构一次并类得到结果,是一种简便的聚类方法。 它先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。那么,经过m-1次
5、就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。最短距离聚类法 是在原来的mm距离矩阵的非对角元素中找出 ,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的(m1)阶的距离矩阵; 再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。(4.3.6) 最远距离聚类法 最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。 最远距离聚类法的计算公式是(4.3.7) 计算类之间距离的统一公式 最短距离和最远距离可以用一个公
6、式表示 用图4.3.1表示二者关系:(4.3.8) 图4.3.1 两种不同的空间距离 当、三个参数取不同的值时,就形成了不同的聚类方法(表4.3.1),在表4.3.1中,np是p类中单元的个数,nq是q类中单元的个数,nr=np+nq;一般取负值。 表4.3.1 8种系统聚类方法的距离参数值(下页) 系统聚类其他方法的公式(4.3.9) 方法名称参 数D矩阵要求空间性质apaq 最短距离1/21/20-1/2各种D压缩最远距离1/21/201/2各种D扩张中线法1/21/2-1/400欧氏距离保持重心法0欧氏距离保持组平均法 00各种D保持距离平方和法0欧氏距离压缩可变数平均法10各种D不定可
7、变法 1 0各种D扩张(三)聚类分析实例 表2.4.2给出了某农业生态经济系统各个区域单元的有关数据,下面运用系统聚类法,对该农业生态经济系统进行聚类分析,步骤如下: (1)用标准差标准化方法,对9项指标的原始数据进行处理; (2)采用欧氏距离测度21个区域单元之间的距离; (3)选用组平均法,计算类间的距离,依据不同的聚类标准(距离),对各样本(各区域单元)进行聚类,并作出聚类谱系图。表2.4.2 某农业生态经济系统各区域单元的有关数据 图4.3.2 某农业生态经济系统区域单元的系统聚类(组平均法)谱系图 从聚类分析谱系图(图4.3.2)可以看出,在不同的聚类标准(距离)下,聚类结果不同,当
8、距离标准逐渐放大时,21个区域单元被依次聚类。 当距离为0时,每个样本为单独的一类; 当距离为5,则21个区域单元被聚为16类; 当距离为10,则21个区域单元被聚为9类; 当距离为15,则21个区域单元被聚为5类; 当距离为20,则21个区域单元被聚为3类; 最终,当聚类标准(距离)扩大到25时,21个区域单元被聚为1类。二、判别分析两组距离判别多个总体的距离判别法判别分析实例 判别分析,是一种在已知对象分类的情况下,确定新的样本属于哪一类的统计分析方法。 判别分析处理问题时,通常要给出用来衡量新样本与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样本的归属。 判
9、别准则,是用于衡量新样本与各已知组别接近程度的准则。 判别准则,可以是统计性的(决定新样本所属类别时,需要进行显著性检验),也可以是确定性的(决定新样本归属时,只考虑判别函数值的大小)。 判别函数,是基于一定的判别准则计算出的用于衡量新样本与各已知组别接近程度的函数式或指标。 距离判别法,又称为最邻近方法(Nearest Neighbor Method),其基本思想是: 首先根据已知分类的数据,分别计算各类的中心,即各组(类)的均值,并将其作为该类的中心坐标;然后根据新样本离开每类中心的距离远近做出判断:若它与那一类的中心的距离最近,就认为它来自该类。 按照判别组数划分,有两组判别分析和多组判
10、别分析的区别。(一)两组距离判别基本原理: 设有两组总体 ,相应抽出样本个数为 , ,每个样本观测p个指标得观测数据如下:总体 的样本数据: , , 该总体的样本指标平均值为:总体 的样本数据: , , 该总体的样本指标平均值为:判别分析的任务是:对于一个新样本 ,实测指标数值为 = ,要求判断 属于哪一类?步骤 首先计算样本 与 、 两类的距离,分别记为 、 ,然后按照距离最近准则判别归类,即:新样本距离那一类最近就判归为那一类;如果该新样本距两类的距离相同,则暂不归类。即: 如果 ,则 ; 如果 = ,则 待判。 距离 的种类(定义)很多,在实际问题分析中,可以根据不同情况区别选用。如果样
11、品的各个变量之间互不相关或相关很小时,可选用欧氏距离。但实际应用中,考虑到判别分析常涉及到多个变量,且变量之间可能相关,故多用马氏距离。 马氏距离公式为: (4.3.10) (4.3.11)在(4.3.10)和(4.3.11)式中, 、 、 、 分别是 、 的均值和协方差阵。 这时的判别准则分两种情况给出:(1)当 = = 时: = = =令 ,同时记: 则 所以,判别准则写成: ,如果 , ,如果 , 待判,如果 。该规则取决于 的值,因此 被称为判别函数。 记: ,则判别函数 ,也可以写成: (4.3.12) 上式所表示的判别函数为线性判别函数。 上述判别准则是合理的,但是有时也会出现错判
12、。当两个总体靠的比较近时,即两个总体的均值差异较小,无论用何种判别方法,错判的概率都比较大,这时的判别分析也是没有意义的。 因此,只有当两个总体的均值有显著差异时,进行判别分析才有意义。 (2)当 时:按照距离最近准则,类似地有:如果 ,则 ;如果 = ,则 待判。判别函数为: (4.3.13)显然,(4.3.13)式所示的判别函数 是 的二次函数。 (3)两组判别分析的检验 如前所述,只有当两个总体的均值有显著差异时,判别分析才有意义;如果两个总体的均值向量在统计上差异不显著,则判别分析意义不大。 所以,两组判别分析的检验,实际就是要经验两个正态总体的均值向量是否相等,为此,检验的统计量为:
13、 (4.3.14)式中: 给定检验水平,查 分布表使 ,可得出 ,再由样本值计算 ,若 ,则否定原假设,认为两个总体的均值向量在统计上差异显著,否则两个总体的均值向量在统计上差异不显著。(二)多个总体的距离判别法 类似两个总体的讨论推广到多个总体。 设有 个总体 ,相应抽出样本个数为 ( ),每个样本的 个观测指标数据为: 总体 的样本数据为: , ,,该总体的样本指标平均值为: 总体 的样本数据为: , ,, 该总体的样本指标平均值为: 将 的协方差阵分别记为 ,那么,对于一个新样本 ,其实测指标数值为 = ,它与第 类(组)之间的马氏距离为: (4.3.15)(1)当 时,判别函数为: 相
14、应的判别准则为: ,当 时,对于一切 待判,若有一个(4.3.16)(2)当 不相等时,此时判别函数为: (4.3.17)相应的判别标准为: ,当 时,对于一切 待判,若有一个(三)判别分析实例 表4.3.3(见下页)给出了三种区域经济发展类型(已知类型)和待判别的区域样本数据。 其中,“发达”类型(I)包含10个样本区域,“较发达”类型(II)包含9个样本区域,“欠发达”类型(III)包含9个样本区域。 待判别的区域样本有5个,即A,B,C,D,E,F,G。下面运用距离判别法,判别这5个区域样本的归属。区域类型样本区域 城镇人口比/%人均农业产值/元/人人均工业产值/元/人人均货运量/吨/人
15、人均财政收入/元/人人均储蓄额/元/人职工人均工资/元/人发达(I)10.601 474.8616 001.0436.452 232.8721 447.0314 053.8020.581 649.2924 880.5228.911 239.4112 417.3811 122.6730.741 575.6541 526.3633.883 288.7319 778.2416 641.2740.531 840.5824 324.0920.831 236.0410 569.5011 930.9550.362 296.4619 480.2318.97729.8012 054.1612 187.2860.
16、492 584.4944 585.8119.923 246.4416 344.9214 009.8970.622 336.8434 084.8734.822 571.5329 783.6716 670.8380.792 500.31169 948.2335.6615 418.5179 431.7920 713.7690.252 652.6919 730.0719.13931.869 744.1513 258.79100.273 690.9211 241.6612.33801.758 626.249 780.24较发达(II)10.631 913.248 605.6822.76838.7813
17、317.488 510.9720.412 681.038 631.4913.79516.616 949.568 617.8230.462 873.354 515.348.11519.316 957.277 576.5440.412 665.3911 272.5021.12826.167 400.919 082.9050.341 100.868 592.7011.00629.318 345.268 231.1460.591 636.4410 140.6220.86816.887 765.548 812.1070.311 968.115 319.049.82555.675 942.368 581.
18、0880.321 462.415 847.483.53543.383 774.707 818.4390.401 622.565 435.837.52395.376 224.567 724.79区域类型样本区域 城镇人口比/%人均农业产值/元/人人均工业产值/元/人人均货运量/吨/人人均财政收入/元/人人均储蓄额/元/人职工人均工资/元/人欠发达(III)10.412 520.334 021.7311.52523.667 664.048 245.9320.341 928.725 873.3819.56559.207 453.159 035.0730.461 126.166 992.0212.89615.585 560.657 591.9140.391 675.907 616.8325.441 107.378 719.879 559.8850.54902.1310 225.9616.51589.529 185.198 368.3760.52491.595 310.2710.97366.816 383.368 057.7470.571 799.156 932.5412.51783.798 535.367 530.4080.82494.04
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南省行政职业能力测验真题2015年
- 浙江行政职业能力70
- 地方公务员浙江申论128
- 第一章+第一节+心理学与幼儿心理学概述(教案)-《幼儿心理学》(人教版第二版)
- 心理健康教育备课
- 地方公务员陕西申论79
- 天津申论模拟65
- 地方公务员广东申论182
- 24.3 锐角三角函数 华师大版数学九年级上册教案
- 2024年授权代理合同范本
- 绘制建筑平面图的步骤
- 净化空调系统基础培训课件
- 海藻与海藻养分课件
- 暖气片安装施工方案
- 大众维修手册途安电路图
- 神内2格林巴利综合症病人的个案护理查房课件
- 回族上坟怎么念
- 民宿服务管理考核试题及答案
- 1《梦游天姥吟留别》同步练习(含解析)
- 高级家政服务员考试(重点)题库300题(含答案解析)
- 热电厂危险源辨识风险评价和风险控制策划表
评论
0/150
提交评论