




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析与判别演示文稿本文档共42页;当前第1页;编辑于星期六\15点6分(优选)聚类分析与判别本文档共42页;当前第2页;编辑于星期六\15点6分3454名成年女子14个部位的谱系聚类图(类平均法)上体长y1手臂长y2下体长y12总体高y10身高y11前腰节y8后腰节y9胸围y3腰围y13臀围y14颈围y4前胸宽y6后背宽y7总肩宽y5
距离00.10.20.30.40.50.60.7
相关系数10.90.80.70.60.50.40.3本文档共42页;当前第3页;编辑于星期六\15点6分问如何将下述卡通人物分类?本文档共42页;当前第4页;编辑于星期六\15点6分管理实际中经常会遇到类似的问题。一般地,设有p个指标(变量),n个对象,依据这n个对象在这p个指标下的数据,对这n个对象进行聚类。设数据为指标:1,2,…,p对象1对象2…对象nP维空间中的一个点聚类问题,就是对p维空间中的n个点的聚类问题。本文档共42页;当前第5页;编辑于星期六\15点6分一些要注意的问题变量(指标)并非越多越好。变量太多,就难以判断聚类结果的实际意义。例如对企业按照技术能力的各项指标(变量)聚类,可以在技术能力等方面把企业分为不同的类别。但如果把企业相关的所有指标都包括进来,对分类结果的含义就难以判断了。只要指标间有一定相关关系(不必高度相关),就可以对所观察的一群个体分类(Q-型聚类)。从而可以对个体进行进一步研究。例如可以对消费者的偏好进行分类;可以依据不同地区的有关经济特征(变量)对地区进行分类;等等。如果指标(变量)过多,也可以对指标进行分类(R-型聚类),把含义相近的指标聚在一起,将所有指标分为若干类。本文档共42页;当前第6页;编辑于星期六\15点6分10.1.2聚类分析的作法1.将数据标准化为了消除不同变量的单位对聚类的影响,应当首先将所有的数据标准化。对上述数据矩阵X而言,按列进行标准化,就可解决不同数据单位问题。其中分别表示第j列数据的均值与标准差。本文档共42页;当前第7页;编辑于星期六\15点6分2.计算对象之间的“距离”直观地,应将“相似”的对象分为一类,但如何刻画“相似”。根据前面的讨论,聚类实际上是对n维空间的点进行的,因此“相似”的点的“距离”也近。具体来说,先计算第i个对象与第j个对象之间的距离rij,就可得到对象之间“相似关系”矩阵:对象1对象2…对象n1,2,…,n对象,对象,…,对象对通常的距离而言,rij=rji,因此该矩阵为对称矩阵。本文档共42页;当前第8页;编辑于星期六\15点6分聚类分析中的“距离”(1)欧氏距离:欧氏距离的平方为(2)偏差距离:本文档共42页;当前第9页;编辑于星期六\15点6分(3)明考夫斯基(Minkowski)距离(的q次方):(4)马氏(Mahalanobis)距离(的平方):其中V是协方差矩阵。在聚类分析中,(1)、(2)中的常数因子(1/p)可以去掉,这样它们就是明氏距离的特殊情况。在具体应用时,可根据实际问题选用其中一种距离。本文档共42页;当前第10页;编辑于星期六\15点6分(1)相关系数:(2)余弦:相似系数本文档共42页;当前第11页;编辑于星期六\15点6分3.选择类与类之间的距离定义(1)类的定义:由1个以上(含1个)对象组成的集合。(2)类与类之间的距离,有如下几种规定:①用“代表点”之间的距离表示,可以采用两个类之间距离最近(或最远)的点,分别作为这两类的代表点。具体又可分为:最短距离:取距离最近的两点间距离为两类间的距离。最长距离:取距离最远的两点间距离为两类间的距离。本文档共42页;当前第12页;编辑于星期六\15点6分②用两个类(设它们分别是类S和类T)中所有点之间距离(平方)的平均值,作为两个类之间的距离(的平方):其中ns,nt分别是两类中点的个数。dij是点i与点j之间的距离。这种方法的优点在于,类间的距离不依赖于类内的个别点。采用这种距离聚类的方法称为组间连接法(Between-grouplinkage)。③按照某一规则,选择类中的一点,作为该类的“代表点”,然后通过代表点间的距离计算类间距离。本文档共42页;当前第13页;编辑于星期六\15点6分类间距离S1S3S2S4S5最短距离(singlelinkage)本文档共42页;当前第14页;编辑于星期六\15点6分最长距离(completelinkage)类间距离S1S3S4S5本文档共42页;当前第15页;编辑于星期六\15点6分类间距离S1S3S2S4S5平均距离(average)本文档共42页;当前第16页;编辑于星期六\15点6分附:离差平方和法(WARD)基本思想来源于方差分析。它认为:如果分类正确,同类间的离差平方和应较小,类与类之间的类差平方和(与距离有关)应较大.具体做法是,先将n个样本分成一类,然后每次缩小一类,每缩小一类离差平方和就要增大.本文档共42页;当前第17页;编辑于星期六\15点6分4.聚类思路:聚类是一个迭代过程,首先将每个对象本身作为一类,然后进行迭代,每次迭代都将距离最近(或最远)的类合并成新的类,因此每次迭代类的数目将减少,直至最后所有的对象并为一类为止。可以用下面的图形形象地说明聚类过程采用不同的“距离”将得到不同的聚类效果。第1层次第2层次第3层次第4层次第5层次本文档共42页;当前第18页;编辑于星期六\15点6分步骤:(1)把每一个点(对象)作为一类(称为第一层的类)。(2)找出距离最小(或最大)的dij,从而得出距离最近(或最远)的两类i和j,把它们合并成层次更高的一类。如果有两个距离dij和dst(例如d12和d56)同时达到最小(或最大),则同时把i、j并为一类,s、t并作一类。若i、j与s、t中有一个相同(例如d12=d26),则把这三类并作一类。对有更多小类之间距离同时最小(或最大)可类似处理。(3)重复(2),直至所有的点(对象)都并成同一类为止。如果做(2)之前的类是第k层次的类,进行(2)之后的类就是第k+1层的类。本文档共42页;当前第19页;编辑于星期六\15点6分5.分类将各点(对象)聚类后,最后需要确定以第几层的类作为最终的分类标准。通常使用如下的准则[1]:准则1:各类重心之间的距离必须较大(为此应作假设检验)。准则2:各类所包含的元素个数都不过分地多。准则3:分类的数目应该符合使用的目的。准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。但是,一般不使用第一层的类,这实际上是将每个元素各自作为一类;也不使用最后一个层次的类,这实际上是将所有元素作为同一类。这样做失去了分类的意义。本文档共42页;当前第20页;编辑于星期六\15点6分聚类分析的进一步说明聚类的另一种方式:反其道而行之。将前述的聚类过程反过来,先将所有点(对象)看成一类,然后按距离的远近,逐步将类拆分成更细的类,直到最后每一点自己为一类为止。为了区分:前面的方法也称为聚集法;这里的方法也称为分解法。本文档共42页;当前第21页;编辑于星期六\15点6分从上面的讨论来看,我们是根据“距离”的远近来分类,但须注意,距离的定义有多种,它们可能并不同于通常直观的距离。因此有时需要将距离最“远”的归并为一类。例如如果取相关系数作为“距离”,则该“距离”越大,相应的对象的相关程度就越高,因此宜将它们并为一类。但实际进行统计分析称相关系数等为相似系数,并取距离=(1-相似系数).本文档共42页;当前第22页;编辑于星期六\15点6分我们上面讨论的是对对象的分类,这相当于在下列矩阵中将每一行看成一点,然后考虑对这些点的分类。指标:1,2,…,p对象1对象2…对象n但有的实际问题,可能遇到较多的指标,因此为了清楚分类的实际意义,需要先对指标进行分类。这只须将上述矩阵中的每一列,看成n维空间的点,然后用前面的方法得到适当的分类即可。或者将上述的方法应用与上面矩阵的转置矩阵即可。本文档共42页;当前第23页;编辑于星期六\15点6分12.2用SPSS做聚类分析概述聚类分析的方法:层次聚类法、迭代聚类法层次聚类法:就是上一节介绍的方法,又分为:聚集法(AgglomerativeMethod)和分解法(DivisiveMethod)。我们主要介绍层次聚类法,这也是最常用的聚类方法。聚类的结果可以用树状图或冰柱图表示。后面将结合例子说明这两种表示方法。本文档共42页;当前第24页;编辑于星期六\15点6分迭代聚类法(也称为动态聚类法):这种方法需要指定聚类中心,这相当于指定各类的典型元素。指定聚类中心的方法:可以人为地取定各类的中心,也可由机器产生初始中心。然后通过迭代过程得到所有对象的分类。用一个简单的例子来说明动态聚类法的工作过程。例如我们要把图中的点分成两类。本文档共42页;当前第25页;编辑于星期六\15点6分迭代过程是:1、先指定两个迭代(聚类)中心。2、计算每个点到迭代中心的“距离”,该点到哪个迭代中心的距离近,就将其划分到那个迭代中心所在的那一类。3、修改迭代中心为各类的“重心”,再回到第2步。指定聚类中心第一次聚类本文档共42页;当前第26页;编辑于星期六\15点6分计算各类的中心第二次聚类本文档共42页;当前第27页;编辑于星期六\15点6分层次聚类法操作过程与例子例现有13个运动员,从体形、生理、心理三个方面对他们进行了测评,现在要根据测评的结果对这些运动员进行分类。数据:见文件“判别运动员”本文档共42页;当前第28页;编辑于星期六\15点6分本文档共42页;当前第29页;编辑于星期六\15点6分对运动员聚类而非对指标聚类同时给出统计分析结果与作图结果本文档共42页;当前第30页;编辑于星期六\15点6分要求给出聚类进度表,将输出凝聚过程中每一步的结果本文档共42页;当前第31页;编辑于星期六\15点6分输出树状图输出冰柱图本文档共42页;当前第32页;编辑于星期六\15点6分对分类变量对二值变量本文档共42页;当前第33页;编辑于星期六\15点6分本文档共42页;当前第34页;编辑于星期六\15点6分本文档共42页;当前第35页;编辑于星期六\15点6分聚类步骤合并时类的距离合并了哪些元素合并过程中第一类的元素上一次在第几步出现合并过程中第一类的元素下次出现在第几步本文档共42页;当前第36页;编辑于星期六\15点6分冰柱图(垂直)本文档共42页;当前第37页;编辑于星期六\15点6分PASWStatistics的冰柱图本文档共42页;当前第38页;编辑于星期六\15点6分本文档共42页;当前第39页;编辑于星期六\15点6分PASWStatistics的输出结果本文档共42页;当前
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司新增入股合同协议书
- 2025年超精过滤设备项目合作计划书
- 广东省广州市华侨、协和、增城中学等三校2024~2025学年高一下学期期中考试数学试卷(原卷版)
- 2025年CATV QAM调制器合作协议书
- 2025年防雷工程项目建议书
- 珠宝设计师创意策划项目劳务合同
- 医药行业药品供应链融资服务合同
- 学前教育机构选择权委托合同
- 基坑自动化监测预警系统施工与环保措施合同
- 全屋定制家具设计与施工监理合同
- 四川盆地果树病虫害绿色防控-终结性考核-国开(SC)-参考资料
- 水土保持方案投标文件技术部分
- 钻井及井下作业井喷事故典型案例
- 《新能源汽车》课件 课题四 纯电动汽车
- GB/T 15934-2024电器附件电线组件和互连电线组件
- CQI-23模塑系统评估审核表-中英文
- 2023年重庆市中考化学试卷(B卷)及答案解析
- 湖北省2024年中考生物试卷
- 中考英语1600核心词汇
- 基于机器学习的腐蚀监测
- 空调维保服务投标方案 (技术方案)
评论
0/150
提交评论