专题3聚类分析_第1页
专题3聚类分析_第2页
专题3聚类分析_第3页
专题3聚类分析_第4页
专题3聚类分析_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、聚类分析一、什么是聚类分析聚类分析的概念:聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 聚类分析的目的 使类内对象的同质性最大化和类间对象的异质性最大化。一、什么是聚类分析聚类分析的应用:早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物谁经常光顾商店,谁买什么东西,买多少?按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类这样商店可以.识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特

2、征(用变量来刻画,就象刻画猫和狗的特征一样)一、什么是聚类分析聚类分析的应用:谁是银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!这样银行可以制定更吸引的服务,留住客户!比如:一定额度和期限的免息透资服务!百盛的贵宾打折卡!在他或她生日的时候送上一个小蛋糕! 例1:对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行聚类。应聘者12345678910X28181121262016142422Y29232223292322232927Z281816222622222424

3、24一、什么是聚类分析设有n个样本单位,每个样本测有p个指标(变量),原始资料阵为:二、聚类分析的基本思想二、聚类分析的基本思想是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 相似样本或指标的集合称为类。问题:如何来选择样品(或指标)间相似的测度指标,如何将有相似性的类连接起来?三、聚类分析类型及方法1、聚类分析的类型有: 对样本分类,称为Q型聚类分析 对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集

4、在一起,使差异性大的样本分离开来。 R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。 三、聚类分析类型及方法2、聚类分析的方法: 系统聚类(层次聚类) 非系统聚类(非层次聚类)系统聚类法包括:凝聚方式聚类、分解方式聚类非系统聚类法包括:模糊聚类法、K均值法(快速聚类法)等等 凝聚式分解式以系统聚类法为例:三、聚类分析类型及方法四、对象之间相似性度量1、样本或变量的相似性程度的数量指标: (1)相似系数 性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变

5、量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类; (2)距离 它是将每一个样品看作p维空间的一个点,并用某种度量方法测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。样本分类(Q型聚类)常以距离刻画相似性指标分类(R型聚类)常以相似系数刻画相似性四、对象之间相似性度量距离和相似系数有着各种不同的定义,而这些定义与变量类型有着非常密切的关系。变量可分为定性变量和定量变量。若按测量尺度的不同可以分为: (1)间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。 (2)有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如产品分为一等品、

6、二等品、三等品等有次序关系。 (3)名义尺度变量:变量用既没有数量关系也没有次序关系,只有一些特性状态,如性别、职业、产品的型号等。四、对象之间相似性度量(一)间隔尺度变量的相似性度量1、距离 设有n个样本单位,每个样本测有p个指标(变量),原始资料阵为:四、对象之间相似性度量每个样本都可以看成p维空间中的一点,n个样本就是p维空间中的n个点。第i个样本与第j个样本之间的距离记为 聚类过程中,相距较近的点归为一类,相距较远的点归为不同的类。 四、对象之间相似性度量第i个和第j个样品之间的距离 如下四个条件:四、对象之间相似性度量常用距离 (1)明考夫斯基距离(Minkowski distanc

7、e) 明氏距离有三种特殊形式: (1a)绝对距离(Block距离):当q=1时四、对象之间相似性度量(1b)欧氏距离(Euclidean distance):当q=2时(1c)切比雪夫距离:当 时四、对象之间相似性度量(一)间隔尺度变量的相似性度量2、相似系数 相似系数(或其绝对值)越大,变量之间的相似性程度越高;反之,越低。聚类时,比较相似的变量归为一类,不太相似的变量归为不同的类。 变量 与 的相似系数用 表示,满足以下三个条件: 四、对象之间相似性度量(1)相关系数设 和是第 和 个样品的观测值,则二者之间的相似测度为:四、对象之间相似性度量(2)夹角余弦 从向量集合的角度所定义的一种测

8、度变量之间亲疏程度的相似系数。设在n维空间的向量(二)名义变量的相似性度量简单匹配系数:简单匹配系数不配合的变量个数/(配合与不配合变量个数和)例:某高校举办一个培训班,从学员的资料中得到6个变量:性别x1,取值男和女;外语语种x2,取值为英、日、俄;专业x3,取值为统计、会计、金融;职业x4,取值为教师和非教师;居住处x5,取值为校内和校外;学历x6,取值本科和本科以下。四、对象之间相似性度量四、对象之间相似性度量现有学员i和学员j: i=(男,英,统计,非教师,校外,本科) j=(女,英,金融,教师,校外,本科以下)二者的距离: 四、对象之间相似性度量(三)定序变量的距离计算(Fisher

9、算法)(略)四、对象之间相似性度量 可以根据所选择的距离构成样本点间的距离表,样本点之间被连接起来。问题:如何度量 样本、类之间的相似性 类与类之间相似性五、类和类的特征1、类的定义 相似样本或指标的集合称为类。2、类的特征描述 设类G这一集合有 。m为G内的样本数。其特征: (1)均值(重心)五、类和类的特征 (2)G的直径 六、类与类之间的相似性度量(1)最短距离(Nearest Neighbor)x21x12x22x11类Gp与类Gq之间的距离Dpq(d(xi,xj)表示点xiGp和xjGq之间的距离) 例:为了研究辽宁省5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分省份x

10、1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海7.90 7.68 9.42 9.16 10.0639.7750.3727.9327.9828.648.49 11.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.10 8.392.042.751.551.821.9613.2914.879.7611.3510.81 G1=辽宁,G2=浙江,G3=河南, G4=甘肃,G5=青海采用欧氏距离有: 1 2 3 4 5D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13

11、.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0河南与甘肃的距离最近,先将二者(3和4)合为一类G6=G3,G4d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3= 7

12、0 1 12.80 0 2 23.54 11.67 0河南、甘肃与青海并为一新类G7=G6,G5=G3,G4,G6G8=G1,G2d78=mind71,d72=12.80 7 8D4= 7 0 8 12.8 0河南3甘肃4青海5辽宁1浙江2六、类与类之间的相似性度量(2)最长距离(Furthest Neighbor )x11x21例2:对例1的数据以最长距离法聚类。 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1= 1 0 2 11.67 0 3

13、13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0d61=d(3,4)1=maxd13,d14=13.80 d62=d(3,4)2=maxd23,d24=24.63 d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0D2= 1 13.80 0 2 24.63 11.67 0 5 3.51 12.80 23.54 0河南与甘肃的距离最近,先将二者(3和4)合为一类G6=G2,G4河南、甘肃与青海并为一新类G7=G6,G5=G3,G4,G6d71=d(3,4,5)1=maxd13,d14,d15=13

14、.80d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2D3= 7 0 1 13.80 0 2 24.63 11.67 0d78=maxd71,d72=24.63 7 8D4= 7 0 8 24.63 0G8=G1,G2六、类与类之间的相似性度量(3)组间平均连接(Between-group Linkage)六、类与类之间的相似性度量(4)组内平均连接( Within-group Linkage) 六、类与类之间的相似性度量(5)重心法(Centroid clustering):均值点的距离七、系统聚类法系统聚类法是一种其聚类过程可以用所谓的谱系结构或树形结构来描绘的方法。事先不用确定分多少类(一)凝聚式系统聚类法 1、所有的研究对象各自算作一类,将最“靠近” 的首先聚类 2、再将这个类和其它类中最“靠近”的结合,直至所有的对象都合并为一类为止 例:16种饮料的热量、咖啡因、钠及价格四种变量SPSS处理: 1、AnalyzeClassifyHierarchical Cluster 2、把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(价格)选入V

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论