聚类分析解析课件_第1页
聚类分析解析课件_第2页
聚类分析解析课件_第3页
聚类分析解析课件_第4页
聚类分析解析课件_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元统计分析第四讲 聚类分析对外经济贸易大学国际商学院统计与技术经济系许晓娟本讲内容引言距离的测定距离公式类间距离两个聚类方法系统聚类K均值聚类引言生活中充满了分类问题市场分析人员想要对消费者进行分类,从而有针对性地投放广告生物学家想要为昆虫、哺乳动物和爬行动物等建立生物分类政府管理人员想要对不同的国家或地区进行分级,从而提供不同模式的援助1.他们事先并不敢确定有哪些类别2.可供分类的指标可能较多聚类分析将个体或对象进行分类,使得同一类中的对象之间的相似性比与其它类的对象的相似性更强以多变量的样本数据为依据,在确保同类对象的同质性最大化,类间对象的异质性最大化的前提下,进行分类通常适用于分析截

2、面数据,是一门静态数据分析技术聚类方法系统聚类K-均值聚类(快速聚类)模糊聚类有序样品的聚类分解法加入法需要大家掌握前两种方法相似性的测度点间距离类间距离聚类分析的对象对样品的分类:Q型聚类对变量的分类:R型聚类这两种聚类在数学上是对称的,没有什么不同。点间距的度量点:一个不严格的定义如表9.2所示,每个样品有p个指标,共有n个样品每个样品就构成p维空间中的一个点 :第i个样品的第k个指标对应的取值i=1n; k=1p :第i个样品和第j个样品之间的距离i=1n; j=1n点间距离测量问题样品间距离与指标间距离间隔尺度、有序尺度与名义尺度数学距离与统计距离相似性与距离:一个硬币的两面一、样品相

3、似性的度量间隔尺度数学距离明氏距离绝对值距离欧氏距离切比雪夫距离兰氏距离统计距离:马氏距离有序或名义尺度匹配指标数绝对值距离欧氏距离明氏距离公式明氏距离切比雪夫距离量纲问题例如,横轴X1代表重量(以kg为单位),纵轴X2代表长度(以cm为单位)。有四个点A、B、C、D见图1.1,它们的坐标如图1.1所示2022/7/29中国人民大学六西格玛质量管理研究中心15 目录 上页 下页 返回 结束 这时显然AB比CD要长。 现在,如果 用mm作单位, 单位保持不变,此时A坐标为(0,50),C坐标为(0,100),则结果CD反而比AB长!这显然是不够合理的。 量纲问题兰氏距离的提出对数据进行标准化处理

4、减均值,除以标准差再计算距离兰氏距离适用于x大于0的情况只克服了量纲问题2022/7/29中国人民大学六西格玛质量管理研究中心17相关性问题 目录 上页 下页 返回 结束 下面先用一个一维的例子说明欧氏距离与马氏距离的差异。设有两个一维正态总体 。若有一个样品,其值在A处,A点距离哪个总体近些呢?由图1-2图1-2相关性问题从绝对值来看,A点距离G1更近,这是欧式距离从标准差来看,A点与G1的距离是4个标准差,距离G2则是3个标准差,也就是距离G2更近,这是马氏距离统计距离马氏距离马氏距离从概率上定义距离,因而也被称为统计距离马氏距离与欧式距离的比较2022/7/29中国人民大学六西格玛质量管

5、理研究中心21马氏距离存在的问题 目录 上页 下页 返回 结束 非间隔尺度的距离计算以上几种距离均是适用于间隔尺度的变量,如果指标是有序尺度或名义尺度时也有一些定义距离的方法。例3.3:欧洲各国的语言有许多相似之处,有的十分相似。为了研究这些语言的历史关系,也许通过比较它们数字的表达比较恰当。表3.3列举了英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语和芬兰语的1,2,10的拼法,希望计算这11种语言之间的距离。定义距离的较灵活的思想方法匹配指标数的占比二、变量相似性的度量夹角余弦相关系数数据标准化后的夹角余弦类间距的度量类:一个不严格的定义定义9.1:距离小于

6、给定阀值的点的集合类的特征重心:均值样本散布阵和协差阵直径类间距的定义最短距离法最长距离法重心法类平均法离差平方和法等等最小距离法(single linkage method)极小异常值在实际中不多出现,避免极大值的影响 最大距离法(complete linkage method)可能被极大值扭曲,删除这些值之后再聚类类平均距离法(average linkage method)类间所有样本点的平均距离该法利用了所有样本的信息,被认为是较好的系统聚类法重心法(centroid hierarchical method)类的重心之间的距离对异常值不敏感,结果更稳定 离差平方和法(sum of squ

7、ares method或ward method)W代表直径,D2=WMWKWL即对异常值很敏感;对较大的类倾向产生较大的距离,从而不易合并,较符合实际需要。 Cluster KCluster LCluster M系统聚类系统聚类的基本思想n个样品自成一类计算两两类间距离距离最近的两类定义为一个新类类的个数是否为1生成聚类图是否分类数的确定系统聚类不必事先确定分类数最佳分类数的确定方法尚未形成根据研究目的确定根据聚合系数确定根据树状图确定类重心之间距离必须大各类所包含的元素都不要过分多分类数应该符合使用的目的采用几种不同的聚类方法处理时,应在各自的聚类图上发现相同的类饮料数据16种饮料的热量、咖

8、啡因、钠及价格四种变量 SPSS实现选择AnalyzeClassifyHierarchical Cluster, 然后把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(价格)选入Variables, 在Cluster选Cases(这是Q型聚类:对观测值聚类),如果要对变量聚类(R型聚类)则选Variables, 为了画出树状图,选Plots,再点Dendrogram等。 可以在Method中定义点间距离和类间距离树形图凝聚过程冰柱图有水平型和垂直型跟树形图的功能类似分别分成1到n组,看分组情况适用于数据量较小时分成三类的结果如果事先指定分类数可以在SAVE中

9、实现K均值聚类均值聚类的基本思想把样品初略分成k个初始类根据样品与类的距离进行归类重新计算新的类重心各类有样品进出将样本分为类否是迭代次数达到最高限制是否均值聚类的特点事先确定分类数计算过程无须存储数据,因此能处理更大的数据量,也称快速聚类样品的最终聚类在某种程度上依赖于最初的划分或种子点SPSS实现K-均值聚类选择AnalyzeClassifyK-Menas Cluster,然后把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(价格)选入Variables, 在Number of Clusters处选择3(想要分的类数),如果想要知道哪种饮料分到哪类,则选

10、Save,再选Cluster Membership等。注意k-均值聚类只能做Q型聚类,如要做R型聚类,需要把数据阵进行转置。假定要把这16种饮料分成3类。利用SPSS,只叠代了三次就达到目标了(计算机选的种子还可以)。这样就可以得到最后的三类的中心以及每类有多少点 根据需要,可以输出哪些点分在一起。结果是:第一类为饮料1、10;第二类为饮料2、4、8、11、12、13、14;第三类为剩下的饮料3、5、6、7、9、15、16。聚类要注意的问题 聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。另

11、外就分成多少类来说,也要有道理。只要你高兴,从系统聚类的计算机结果可以得到任何可能数量的类。但是,聚类的目的是要使各类距离尽可能的远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。应用案例汽车销售案例SPSS自带文件car_sales.sav. This data file contains hypothetical sales estimates, list prices, and physical specifications for various makes and models of vehicles. The list prices an

12、d physical specifications were obtained alternately from and manufacturer sites.汽车销售案例变量Manufacturer生产商Model型号Sales in Thousands销售数量(千台)4-year resale value4年转售价Vehicle type车型Price in thousands价格(千元)Engine size发动机尺码Horsepower马力Wheelbase轴距Width车宽Length车长Curb weight汽车净重Fuel capacity能源能力Fuel efficiency能

13、源效率系统聚类应用总结适用于样本量不大的情况,一般处理小于100个样本计算结果取决于点间距、类间距、数据是否标准化点间距的计算方法要根据数据的测量尺度不同而进行定义,间隔尺度的计算方法包括欧式距离、马氏距离等,名义尺度和顺序尺度的计算方法不同于间隔尺度。点间距的计算方法包括最远距离法、最近距离法等数据标准化是针对间隔尺度的数据而言,目的在于消除量纲,使各变量对等地影响计算结果。根据树形图和聚合系数确定类别数量树形图聚合过程电信服务案例SPSS自带文件telco_extra.savtelco.sav. This is a hypothetical data file that concerns

14、a telecommunications companys efforts to reduce churn in their customer base. Each case corresponds to a separate customer and records various demographic and service usage information. telco_extra.sav. This data file is similar to the telco.sav data file, but the tenure and log-transformed customer

15、 spending variables have been removed and replaced by standardized log-transformed customer spending variables. 电信服务案例变量Standardized log-long distance长途通话时长Standardized log-toll free免服务费时长Standardized log-equipment设备消费Standardized log-calling card电话卡通话时长Standardized log-wireless无线使用时长Standardized multiple lines是否使用多线程Standardized voice mail是否使用语音信箱Standardized paging是否使用调页Standardized internet是否使用网络Standardized caller id是否使用来电显示Standardized call waiting是否使用呼叫等待Standardized call forwarding是否使用呼叫转移Standardized 3-way callin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论