聚类分析详解课件_第1页
聚类分析详解课件_第2页
聚类分析详解课件_第3页
聚类分析详解课件_第4页
聚类分析详解课件_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析报告人:聚类分析主要内容引言聚类分析原理聚类分析的种类聚类分析应注意的问题聚类分析应用聚类分析工具及案例分析主要内容引言引言“物以类聚,人以群分”市场营销中的市场细分和客户细分问题。可从客户分类入手,根据客户的年龄、职业、收入、消费金额、消费频率、喜好等方面进行单变量或者多变量的客户分组。不足:客户群划分带有明显的主观色彩,需要有丰富的行业经验才能做到比较合理和理想的客户细分。主要表现在,同一客户细分段中的客户在某些方面并不相似,而不同客户细分段中的客户在某些特征方面却又很相似。解决方法:从数据自身出发,充分利用数据进行客户的客观分组,使诸多有相似性的客户被分在同一组,而不相似的客户被区分到另一组中。这时便可采用聚类分析方法。引言“物以类聚,人以群分”主要内容引言聚类分析原理聚类分析的种类聚类分析应注意的问题聚类分析应用聚类分析工具及案例分析主要内容引言聚类分析定义聚类:聚类(clustering)是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,其过程被称为聚类。聚类分析定义聚类:聚类分析定义聚类分析定义:聚类分析是将样品或变量按照他们性质上的亲疏程度进行分类的多元统计分析方法。进行聚类分析时,用来描述物品或变量的亲疏程度通常有两个途径:一是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定义点与点、类与类之间的距离,用点与点间距离来描述样品或变量的亲疏程度;二是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲疏程度。聚类分析定义聚类分析定义:聚类分析特点聚类分析是一种建立分类的多元统计分析方法,它能将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。聚类分析特点聚类分析是一种建立分类的多元统计分析方法,它能将聚类分析特点编号购物环境服务质量A商厦7368B商厦6664C商厦8482D商厦9188E商厦9490把商厦分成两类:把商厦分为三类:没有指定分类标准,大家为什么会这么分呢?从数据出发,根据性质上的亲疏程度进行分类!A、B为一类,C、D、E为一类A、B为一类,C为一类,D、E为一类聚类分析特点编号购物环境服务质量A商厦7368B商厦6664聚类分析特点编号购物环境服务质量A商厦7368B商厦6664C商厦8482D商厦9188E商厦9490把商厦分成两类:把商厦分为三类:没有指定分类标准,大家为什么会这么分呢?从数据出发,根据性质上的亲疏程度进行分类!A、B为一类,C、D、E为一类A、B为一类,C为一类,D、E为一类样本变量聚类分析特点编号购物环境服务质量A商厦7368B商厦6664亲疏程度的度量方法亲疏程度的度量也叫相似性度量,方法主要有两个:(1)距离常用来度量样品之间的相似性;(2)相似系数常用来度量变量之间的相似性。编号购物环境服务质量A商厦7368B商厦6664C商厦8482D商厦9188E商厦9490样本变量亲疏程度的度量方法亲疏程度的度量也叫相似性度量,方法主要有两距离

距离

距离欧氏(Euclidean)距离平方欧氏(SquaredEuclidean)距离明氏(明科夫斯基Minkowski)距离切比雪夫(Chebychev)距离兰氏(Lance和Willianms)距离马氏(Mahalanobis)距离斜交空间距离其他详细定义请参考教材:《信息分析方法与应用》王伟军,清华大学出版社《SPSS统计分析方法及应用》薛薇,电子工业出版社距离欧氏(Euclidean)距离距离

编号购物环境服务质量A商厦7368B商厦6664距离

编号购物环境服务质量A商厦7368B商厦6664距离

编号购物环境服务质量A商厦7368B商厦6664E商厦9490距离

编号购物环境服务质量A商厦7368B商厦6664E商厦

相似系数

相似系数

相似系数

相似系数相似系数编号购物环境服务质量A商厦7368B商厦6664

相似系数编号购物环境服务质量A商厦7368B商厦6664

参考教材:《应用多元统计分析》高惠璇,北京大学出版社相似系数参考教材:《应用多元统计分析》高惠璇,北京大学出版社相似系数主要内容引言聚类分析原理聚类分析的种类聚类分析应注意的问题聚类分析应用聚类分析工具及案例分析主要内容引言聚类分析的种类(1)系统聚类法(也叫分层聚类或层次聚类)(2)动态聚类法(也叫快速聚类)(3)模糊聚类法(4)图论聚类法

聚类分析的种类(1)系统聚类法(也叫分层聚类或层次聚类)系统聚类法

对比系统聚类法

对比常用的系统聚类方法一、最短距离法二、最长距离法三、中间距离法四、类平均法五、重心法六、离差平方和法(Ward方法)常用的系统聚类方法一、最短距离法一、最短距离法定义类与类之间的距离为两类最近样品间的距离,即

详细步奏和实例一、最短距离法定义类与类之间的距离为两类最近样品间的距离,即最短距离法的聚类步骤(1)规定样品之间的距离,计算个样品的距离矩阵,它是一个对称矩阵。(2)选择中的最小元素,设为,则将和合并成一个新类,记为,即(3)计算新类与任一类之间距离的递推公式为最短距离法的聚类步骤(1)规定样品之间的距离,计算个最短距离法的聚类步骤在中,和所在的行和列合并成一个新行新列,对应,该行列上的新距离值由(6.3.2)式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作。(4)对重复上述对的两步得,如此下去直至所有元素合并成一类为止。如果某一步中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。最短距离法的聚类步骤在中,和所聚类分析详解ppt课件聚类分析详解ppt课件2828二、最长距离法类与类之间的距离定义为两类最远样品间的距离,即

详细步奏和实例二、最长距离法类与类之间的距离定义为两类最远样品间的距离,即最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。递推公式:最长距离法容易被异常值严重地扭曲,一个有效的方法是将这些异常值单独拿出来后再进行聚类。最长距离法的聚类步奏最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推聚类分析详解ppt课件三、中间距离法类与类之间的距离既不取两类最近样品间的距离,也不取两类最远样品间的距离,而是取介于两者中间的距离。三、中间距离法类与类之间的距离既不取两类最近样品间的距离,也聚类分析详解ppt课件聚类分析详解ppt课件聚类分析详解ppt课件聚类分析详解ppt课件聚类分析详解ppt课件聚类分析详解ppt课件聚类分析详解ppt课件聚类分析详解ppt课件聚类分析详解ppt课件聚类分析详解ppt课件以上我们对例6.3.1采用了多种系统聚类法进行聚类,其结果都是相同的,原因是该例只有很少几个样品,此时聚类的过程不易有什么变化。一般来说,只要聚类的样品数目不是太少,各种聚类方法所产生的聚类结果一般是不同的,甚至会有大的差异。从下面例子中可以看到这一点。以上我们对例6.3.1采用了多种系统聚类法进行聚类,其结果都动态聚类法(快速聚类)动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数k可以事先指定,也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。动态聚类法有许多种方法,一种比较流行的动态聚类法——k均值法。对比动态聚类法(快速聚类)动态聚类法的基本思想是,选择一批凝聚点k均值法的基本步骤(1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。(2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。(3)重复步骤(2),直至所有的样品都不能再分配为止。最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。k均值法的基本步骤(1)选择k个样品作为初始凝聚点,或者将所k均值法的基本步骤选择凝聚点初始分类分类是否合理修改分类最终分类否是k均值法的基本步骤选择凝聚点初始分类分类是否合理修改分类最终聚类分析详解ppt课件聚类分析详解ppt课件聚类分析详解ppt课件主要内容引言聚类分析原理聚类分析的种类聚类分析应注意的问题聚类分析应用聚类分析工具及案例分析主要内容引言聚类分析应注意的问题(1)所选择的变量应符合聚类的要求如果希望依照学校的科研情况对高校进行分类,那么可以选择参加科研的人数、年投入经费、立项课题数、支出经费、科研成果数、获奖数等变量,而不应选择诸如在校学生人数、校园面积、年用水量等变量。因为它们不符合聚类的要求,分类的结果也就无法真实地反映科研分类的情况。聚类分析应注意的问题(1)所选择的变量应符合聚类的要求聚类分析应注意的问题(2)各变量的变量值不应该有数量级上的差异聚类分析是以各种距离来度量个体间“亲疏”程度的。从各种距离的定义来看,数量级将对距离产生较大的影响,并影响最终的聚类结果。数据变换方法:中心化变换规格化变换标准化变化对数变换平方根变化等参考教材:《信息分析方法与应用》王伟军,清华大学出版社聚类分析应注意的问题(2)各变量的变量值不应该有数量级上的差聚类分析应注意的问题(3)各变量间不应有较强的线性相关关系聚类分析是以各种距离来度量个体间的“亲疏”程度的。从各种距离的定义来看,所选择的每个变量都会在距离中做出“贡献”。如果所选变量之间存在较高的线性关系,能够相互替代,那么计算距离时同类变量将重复“贡献”,将在距离中有较高的权重,因而使最终的聚类结果偏向该类变量。聚类分析应注意的问题(3)各变量间不应有较强的线性相关关系主要内容引言聚类分析原理聚类分析的种类聚类分析应注意的问题聚类分析应用聚类分析工具及案例分析主要内容引言聚类分析的应用经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机ATM的安放位置股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类生物学领域推导植物和动物的分类;对基因分类,获得对种群的认识数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究聚类分析的应用经济领域:主要内容引言聚类分析原理聚类分析的种类聚类分析应注意的问题聚类分析应用聚类分析工具及案例分析主要内容引言聚类分析工具及案例分析SPSSIBMSPSSModeler(以前叫Clementine,商业化软件)SAS(SASEnterpriseMiner)商业数学软件MATLAB数据挖掘软件WEKA(免费的,非商业化)IBMDB2IntelligentMiner其他(如DBMiner、See5等)国内常用的分析工

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论