




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用多元统计分析第五章聚类分析1第一页,共六十六页,编辑于2023年,星期六2第五章把对象分类
——聚类分析第二页,共六十六页,编辑于2023年,星期六3分类俗语说,物以类聚、人以群分。当有一个分类指标时,分类比较容易。但是当有多个指标,要进行分类就不是很容易了。比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;第三页,共六十六页,编辑于2023年,星期六4聚类分析由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。所以需要进行多元分类,即聚类分析。最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。第四页,共六十六页,编辑于2023年,星期六5聚类分析对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。第五页,共六十六页,编辑于2023年,星期六6聚类中选择变量的要求和聚类分析的目标密切相关反映了要分类对象的特征变量之间不应该高度相关。第六页,共六十六页,编辑于2023年,星期六7如何聚类?聚类分析就是要找出具有相近程度的点或类聚为一类;如何衡量这个“相近程度”?一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作p维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。第七页,共六十六页,编辑于2023年,星期六8距离和相似系数第八页,共六十六页,编辑于2023年,星期六9距离什么是距离?首先我们看样本数据:一般满足以下四个条件时,就称为聚例:第九页,共六十六页,编辑于2023年,星期六10常用距离——明氏距离Minkowski距离:当q=1时:当q=2时:当q=∞时:第十页,共六十六页,编辑于2023年,星期六11明氏距离的缺点距离的大小与个指标的观测单位有关,具有一定的人为性。例如:对体重和身高进行测量,采用不同单位,其距离测量的结果不同。以欧氏距离为例。第十一页,共六十六页,编辑于2023年,星期六12当长度=cm时:第十二页,共六十六页,编辑于2023年,星期六13当长度=mm时:改进的方法:对数据进行标准化,然后再计算距离。第十三页,共六十六页,编辑于2023年,星期六14采用明氏距离需要注意的是:一定要采用相同量纲的变量。如果各变量的量纲不同,或当各变量的量纲相同但各变量的测量值相差悬殊时,不能直接采用明氏距离。需要先对数据进行标准化处理,然后再用标准化处理后的数据计算距离。最常用的标准化处理方法是:第十四页,共六十六页,编辑于2023年,星期六15对指标标准化的方法第十五页,共六十六页,编辑于2023年,星期六16明氏距离的缺点另一个缺点:它没有考虑到指标之间的相关性。改进的方法是:采用马氏距离马氏距离是1936年由印度数学家:马哈拉比斯由协方差矩阵计算构造的距离。第十六页,共六十六页,编辑于2023年,星期六17距离矩阵第十七页,共六十六页,编辑于2023年,星期六18相似系数研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相似系数是描写样品之间相似程度的一个量,常用的相似系数有:夹角余弦相关系数第十八页,共六十六页,编辑于2023年,星期六19相似系数夹角余弦—cosine尽管图中AB和CD长度不一样,但形状相似。当长度不是主要矛盾时,就可利用夹角余弦这样的相似系数。第十九页,共六十六页,编辑于2023年,星期六20夹角余弦—cosine第二十页,共六十六页,编辑于2023年,星期六21相似矩阵第二十一页,共六十六页,编辑于2023年,星期六22相关系数第二十二页,共六十六页,编辑于2023年,星期六23相关系数矩阵把两两样品的相关系数都计算出来,可形成样品相关系数矩阵。第二十三页,共六十六页,编辑于2023年,星期六24第二十四页,共六十六页,编辑于2023年,星期六25聚类分析内容系统聚类法有序样品聚类法动态聚类法模糊聚类法图论聚类法聚类预报法等。本章主要介绍常用的系统聚类法。第二十五页,共六十六页,编辑于2023年,星期六26系统聚类法第二十六页,共六十六页,编辑于2023年,星期六27系统聚类法的基本思想先将每个研究对象(样品或指标)各自看成一类。然后根据对象间的相似度量,将h类中最相似的两类合并,组成一个新类,这样得到h-1类,再在这h-1类中找出最相似的两类合并,得到h-2类,如此下去,直至将所有的对象并成一个大类为止。当然,真的合并成一个类就失去了聚类的意义,所以上面的聚类过程应该在某个类水平数(即未合并的类数)停下来,最终的类就取这些未合并的类。决定聚类个数是一个很复杂的问题。第二十七页,共六十六页,编辑于2023年,星期六28系统聚类法的步骤可选择适当的距离,计算距离把每个样品看成一类,构造n个类合并最近的两类为一新类计算新类与当前各类的距离判断画聚类图根据实际情况,确定类和类的个数仅有一个类不是仅有一个类采用系统聚类法第二十八页,共六十六页,编辑于2023年,星期六29系统聚类法正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离,或者定义为两类之间最远样品的距离,也可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。第二十九页,共六十六页,编辑于2023年,星期六30八种系统聚类方法最短距离法最长距离法中间距离法重心法类平均法可变类平均法可变法离差平方和法系统聚类分析尽管方法很多,但归类的步骤基本上是一样的,所不同的仅是类与类之间的距离有不同的定义方法,从而得到不同的计算距离的公式。这些公式在形式上不大一样,但最后可将它们统一为一个公式,对上机计算带来很大的方便。第三十页,共六十六页,编辑于2023年,星期六31系统聚类法最短距离法——NearestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G501.5053.5075.520第三十一页,共六十六页,编辑于2023年,星期六32系统聚类法最长距离法——FurthestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G502.5063.5085.520第三十二页,共六十六页,编辑于2023年,星期六系统聚类法-中间法33第三十三页,共六十六页,编辑于2023年,星期六系统聚类法-中间法34G1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6
G3G4G5G6G3G4G501.7505.50
3.507.25
5.52第三十四页,共六十六页,编辑于2023年,星期六35系统聚类法重心法——CentroidClustering重心法定义两类之间的距离就是两类重心的距离。设的重心(即该类样品的均值)分别是(注意一般他们是p维向量),则
之间的距离是计算公式为:
具体计算过程见参考书2p78-79。第三十五页,共六十六页,编辑于2023年,星期六36系统聚类法类平均法——Between-groupsLinkage重心法虽有很好的代表性,但并未充分利用个样品的信息,因此给出类平均法,它定义两类之间的距离平方为这两类元素两两之间距离平方的平均,即:设聚类到某一步将第三十六页,共六十六页,编辑于2023年,星期六37系统聚类法离差平方和法——Word’sMethodWord’s法的基本思想是来自于方差分析,如果分类正确,同类样品的离差平方和应当较小,类与类的离差平方和应当较大。具体方法:先将n个样品各自成一类,然后每次缩小一类;每缩小一类离差平方和就要增大,选择使离差平方和增加最小的两类合并,直到所有的样品归为一类为止。第三十七页,共六十六页,编辑于2023年,星期六38系统聚类法
中样品的离差平方和为:第三十八页,共六十六页,编辑于2023年,星期六39系统聚类法如有五个样品:1,2,3.5,7,9第一步:将五个样品各自分成一类,显然这时的类内离差平方和S=0;第二步:将一切可能的任意两样品合并,计算所增加的离差平方和:如第三十九页,共六十六页,编辑于2023年,星期六40G1G2G3G4G5G1G2G3G4G500.503.1251.12301812.56.12503224.512.12520此外,还有类内平均法等。第四十页,共六十六页,编辑于2023年,星期六41SPSS中的聚类分析与过程第四十一页,共六十六页,编辑于2023年,星期六42例9.1饮料数据(drink.sav)16种饮料的热量、咖啡因、钠及价格四种变量
第四十二页,共六十六页,编辑于2023年,星期六43SPSS中的聚类分析Spss中的聚类功能常用的有两种:快速聚类(迭代过程):
K-MeansCluster分层聚类:Hierarchical第四十三页,共六十六页,编辑于2023年,星期六44HierarchicalCluster聚类分层聚类由两种方法:分解法和凝聚法。分层聚类的功能:即可进行样品的聚类,也可进行变量的聚类。分层聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。第四十四页,共六十六页,编辑于2023年,星期六45HierarchicalCluster聚类分层聚类的中要进行以下的选择:数据的标准化测度方法的选择:距离方法的选择或相似性、关联程度的选择。聚类方法的选择:即以什么方法聚类,spss中提供了7中方法可进行选择。输出图形的选择:树形图或冰柱图。第四十五页,共六十六页,编辑于2023年,星期六46第四十六页,共六十六页,编辑于2023年,星期六47欧氏平方距离、类平均法聚类快速聚类法聚类第四十七页,共六十六页,编辑于2023年,星期六48欧氏平方距离、最短距离法聚类欧氏平方距离、最长距离法聚类第四十八页,共六十六页,编辑于2023年,星期六49欧氏平方距离、重心法聚类欧氏平方距离、Word’s法聚类第四十九页,共六十六页,编辑于2023年,星期六50聚类分析在市场细分中的应用
要对消费者购物的态度进行分类,在前期研究的基础上,确定6个态度变量。每个消费者要对有关购物态度的6个观点进行评价:1表示非常不同意,7表示非常同意。V1——购物很有趣V2——购物不利于我的预算V3——购物总是与上饭店吃饭联系在一起V4——购物时我尽量买的最好V5——我对购物不感兴趣V6——购物时多比较价格可以节省很多钱(SPSS文件:购物态度聚类分析)第五十页,共六十六页,编辑于2023年,星期六511类:1、3、6、7、8、12、15、172类:2、5、9、11、13、203类:4、10、14、16、18、19第五十一页,共六十六页,编辑于2023年,星期六52
第1类消费者对于V1和V3的评价相对较高,而对V5评价较低,因此可以称其为“热情的消费者”。
V1——购物很有趣V3——购物总是与上饭店吃饭联系在一起V5——我对购物不感兴趣第五十二页,共六十六页,编辑于2023年,星期六53
第2类消费者正好与第1类相反,对于V1和V3的评价相对较低,而对V5评价较高,因此可以称其为“冷淡的消费者”。V1——购物很有趣V3——购物总是与上饭店吃饭联系在一起V5——我对购物不感兴趣第五十三页,共六十六页,编辑于2023年,星期六54
第3类消费者对于V2、V4和V6的评价相对较高,因此可以称其为“经济型消费者”。V2——购物不利于我的预算V4——购物时我尽量买的最好V6——购物时多比较价格可以节省很多钱第五十四页,共六十六页,编辑于2023年,星期六55K-MeansMethods-快速聚类第五十五页,共六十六页,编辑于2023年,星期六56K-MeansMethods第五十六页,共六十六页,编辑于2023年,星期六57K-MeansMethods第五十七页,共六十六页,编辑于2023年,星期六58K-MeansCluster原理首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个;其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚类的种子。第三,按照距离这些类中心的距离最小的原则把所有观测量(样品)分派到各类重心所在的类中去。第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心;第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束。第五十八页,共六十六页,编辑于2023年,星期六59K-MeansCluster聚类过程由Analyze——Classify
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 管理者的沟通技巧与实践计划
- 贾晓菁质量管理
- 社区个人工作计划加强社区网络安全教育
- 趣味编程与逻辑思维训练计划
- 班级形象建设与品牌塑造计划
- 孩子学外语的家长指南(修改)
- 血尿病人护理查房
- 社区老年人关怀计划的实施
- 年度绩效评估标准与方法计划
- DB12T 548-2014 天津市海洋(岸)工程海洋生态损害评估方法
- 洗车店承包方案
- 卵巢癌的护理查房课件ppt
- 接班人计划书
- 《健身气功八段锦》教案
- 包装材料学课件
- 脑卒中言语治疗课件
- 中国历史文选一、看
- JCT938-2017 水泥工业用多风道煤粉燃烧器
- 小学生作文方格纸A4纸直接打印版
- 安全生产规章制度和岗位操作规程的目录清单及内容(无仓储经营单位)
- 《1提手旁》教学设计(江苏省市级优课)x-教案
评论
0/150
提交评论