聚类分析的思路和方法_第1页
聚类分析的思路和方法_第2页
聚类分析的思路和方法_第3页
聚类分析的思路和方法_第4页
聚类分析的思路和方法_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.1,群集分析群集分析,2,什么是群集分析?聚类分析是基于“事物分类”的原则,对样品或指标进行分类的多元统计分析方法,他们讨论的是大量样品,不能参考或遵循根据各自特性合理分类的任何模式。也就是说,在没有先验知识的情况下进行。3,聚类分析的基本思想,基本思想认为研究的样本或变量之间存在程度不同的相似性(亲疏关系)。根据多个观测指标对可以测量样本或变量之间相似性的统计数据进行分类,将相似程度较大的样本(或指标)的部分分类为一个类别,将所有样本(或指标)聚合在一起,将程度更相似的其他样本(或指标)分组为一个类别,直到将它们从小分类为大。4、聚类分析无处不在。谁经常去商店,谁买东西,买多少钱?通过对会

2、员卡访问次数、出诊时间、性别、年龄、职业、购物种类、金额等变量进行分类,商店识别顾客的购买模式(例如清晨购买酸奶和新鲜肉,周末一次大采购),表征各种顾客群的特点,5、集群分析随处可见,发掘有价值的顾客,发掘有价值的顾客。例如,经常购买酸奶的顾客,以累计消费为12个月的现有顾客为对象分发广告比在街上乱发传单率高,成本低!6、聚类分析无处不在。银行信用卡的黄金客户是谁?利用储蓄额、信用卡消费额、成信率等变量分类顾客,查找“黄金顾客”!因此,银行可以开发更有吸引力的服务,保持客户!例如:一定金额及期间免息透支服务!赠送百姓的VIP打折卡!在他或她的生日时送小蛋糕!7,群集应用领域,经济领域:帮助市场

3、分析师在客户数据库中发现不同的客户群,使用购买模型表征不同的客户群。谁喜欢国际电话,什么时候,打到那里?聚类住宅小区,通过自动取款机ATM部署定位股票市场版分析,推导出最具活力的板块龙头企业信用等级分类生物学领域中植物和动物的分类。基因分类,获取人口知识,将数据挖掘领域作为对其他数学算法的预处理阶段,获取数据分布,集中在对特定类的进一步研究上。对8,10名申请者进行智能检查。三个指标x、y、z分别表示数学推理能力、空间想象和语言理解能力。分数如下,选择适当的统计方法对候选人进行分类。9,10,11,聚类分析基于一系列样本的很多观测指标,根据一定的数学公式具体计算部分样本或部分指标的相似性,对相

4、似的样本或指标进行分类,对不相似的东西进行分类。12,研究样本或变量之间亲和性的测量,样本或变量亲和性的数量指标有两种。也就是说,名为相似系数的变量或样本越接近,这些相似系数越接近1或1,相互无关的变量或样本的相似系数越接近0,就越不对应于其他类别。将每个范例报告为p维度空间中的一点,并测量点和点之间距离的距离,较小的点必须属于另一个类别。,13,n个采样单位,在每个采样中测量p项指数(变量),原始数据矩阵为:14,固定比率变量的聚类统计:距离统计,绝对距离欧洲距离明卡斯基距离lam距离马尔可夫距离,15,1。绝对距离(图块距离)2。欧氏n距离,16,3。民科斯基街(民科斯基)4。兰的距离5。

5、马尔可夫距离6。切比谢夫街(切比切夫),17,18,1。相关系数2。角度余弦,维护变量的聚类统计:相似系数统计,19,对于计数变量(离散变量)的聚类统计,对于计数变量或离散变量,可用于测量样本(或变量)之间的相似度或相似度的统计主要是Chi-square measure和Phi-square measure,20,二进制变量的群集统计信息,21、群集类型根据群集对象分为q型群集和r型群集。q型聚类:样本之间的聚类,即q型聚类分析,是衡量样本之间友谊的常用距离。r型聚类:变量之间的聚类是r型聚类分析,通常使用相似系数来度量变量之间的亲力度。22、根据群集类型和群集方法,分为系统群集和k-mean

6、s群集。系统群集:也称为分层群集,意味着群集过程是按照一定的层执行的。K平均群集(K-means Cluster),23,层次聚类,基本思想:每个样本(或变量)在聚类分析开始时被自行分类。然后测量所有样本(或变量)之间的亲切度,并将最相似的样本(或变量)首先分组到较小的类别中。然后测量其馀示例(或变量)和较小类之间的关联性,并将当前最近的示例(或变量)与较小的类分组。然后,重新测量其馀示例(或变量)和较小类之间的亲和力,并将当前最近的示例(或变量)与较小的类分组。重复此操作,直到所有示例(或变量)集合到一个类别中。24,系统聚类方法不仅需要测量对象和对象之间的距离,还需要测量类和类之间的距离。

7、测量类之间的距离时,两个最小的类将首先合并为一个类。生成了由类之间的距离定义的不同系统群集方法。25、类间距离测量方法、最短距离法、最大距离法、组间平均连接方法组内平均连接方法(wetween-group linkage),26、“最短距离方法”(Nearest Neighbor),使用两个最近对象之间的距离作为类之间的距离。27、28,最远距离方法,类之间的距离作为类之间的距离。29、30,组之间的平均连接方法,类之间的距离用作两种类型对象之间距离的平均值。31,组之间的平均连接方法,32,组中的平均连接方法,将两种类型的对象合并到一个类中,然后使用合并类中所有图元之间的平均距离作为类之间的

8、距离。33,组内平均连接方法,34、“重心法”(Centroid clustering),使用两种类型变量的平均值(重心)之间的距离作为类之间的距离。35,重心距离:平均点的距离,36、“中值方法”(Median clustering)和“类之间的距离”(使用两种类型变量中位数之间的距离)。37,偏差平方和法,偏差平方和法由Ward建议,因此也称为Ward方法。首先,将n个对象分成一类,然后一次减少一类,随着类和类的持续收敛,类内二次的平方和必须增加,直到所有对象都归为一类,选择合并为最小增加二次平方和的两类,这是很具体的。,38,主要阶段,1。变量选择(1)和聚类分析的目的紧密相关(2)反映

9、被分类变量的特征(3)不同研究对象的值之间不能有明显的差异(4)变量之间不能有高度相关2。数据转换处理为了消除角度指标尺寸的影响,需要对原始数据进行必要的转换处理。39,3。计算集群统计信息集群统计信息是基于转换后数据计算的新数据,用于表示各种本或变量之间的密切关系。常用统计信息有两类:距离和相似系数。40,4。群集主要涉及两个问题:(1)聚类选择方法(2)确定形成的类数,41,5。说明和验证集群结果,解释集群结果为所需的每个类别分配正确的说明。此步骤可以使用多种技术统计信息进行分析,通常可以计算每个集群变量的每种类型的平均值,比较平均值,并说明每种类型的原因。42,k- means群集k-m

10、eans群集,k-means群集也称为快速群集,需要提前确定快速分类计数计算速度,尤其是对于大示例。43,k- means群集k-means群集,系统首先选择k-群集中心,根据其他观测和群集中心之间的距离将所有观测分为k类。使用k类的中心(平均值)作为新的群集中心,根据距离重新分类。它将不断重复,直到达到指定的重复次数或停止重复的标准要求。44,群集分析结束的条件,迭代:当前迭代数等于指定的迭代数(SPSS默认值10)时结束迭代。类中心点偏移程度:如果新确定的类中心点与上一类中心点的最大偏移小于指定的量(SPSS默认值0),群集将关闭。45,实例1:对31个省自治区的小康和现代化指数进行集群分

11、析,使用2001年全国31个省自治区的各种小康和现代化指数的数据进行区域集群分析。数据包括综合指数、社会结构指数、经济技术发展指数、人口素养指数、生活质量指数、法制、治安指数等6个类别。46,系统群集,47,Agglomeration schedule:输出群集流程表Proximity matrix:输出对象间距离矩阵Cluster Membership:每个对象类所属的表,48,Dendrogram:群集树Icicle:冰柱图,49,50,51,52,53,分54、3类,则一类:北京、上海、天津两类:江苏、山东、辽宁、浙江、广东、福建、黑龙江、吉林三类:其余地方地区,55,按每个组输出统计信息,将分类信息存储在数据文件中,DataSplit文件,56,57,58,K平均群集,Iterate and classify:继续计算新的类中心,替换旧的类中心。Classify on

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论