版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、,聚类分析,聚类分析,聚类分析的简介 q型聚类统计量距离 r型聚类统计量相似系数 系统聚类 动态聚类k均值聚类 其他,聚类分析的定义,聚类分析是研究如何研究对象(样品或变量)按照多个方面的特征进行综合分类的一种多元统计方法,它是根据物以类聚的原理将相似的样品(或变量)归为一类。,聚类和分类有什么区别?,无监督学习 与分类判别不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组,商业 聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分
2、析的预处理。,聚类分析主要应用,聚类分析主要应用,生物 聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识,q型聚类统计量与r型聚类统计量,设有容量为n的样本观测数据,观测矩阵为:,样本,变量,q型聚类,r型聚类,变量之间的聚类即r型聚类分析,常用相似系数来测度变量之间的亲疏程度。 样品之间的聚类即q型聚类分析,常用距离来测度样品之间的亲疏程度。,q型聚类统计量距离,明氏距离测度 明考夫斯基(minkowski)距离,设 和 是第i和 j 个样品的观测值,则二者之间的距离为:,当 时, 绝对值距离,当 时, 欧氏距离,当 时, 切比雪夫距离,记,切比雪夫距离证明,q型聚类统计量
3、距离,国际象棋棋盘上二个位置间的切比雪夫距离是指王要从一个位子移至另一个位子需要走的步数。由于王可以往斜前或斜后方向移动一格,因此可以较有效率的到达目的的格子。上图是棋盘上所有位置距f6位置的切比雪夫距离。,q型聚类统计量距离,明氏距离两个缺点: 明氏距离的值与各指标的量纲有关 明氏距离的定义没有考虑各个变量之间的相关性和重要性。 明氏距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。,兰氏距离,马氏距离,q型聚类统计量距离,这是印度著名统计学家马哈拉诺比斯(pcmahalanobis)所定义的一种距离,其计算公式为:,分别表示第i个样品和第j样品的p指标观测值所组成的
4、列向量,即样本数据矩阵中第i个和第j个行向量的转置,表示观测变量之间的协方差短阵。在实践应用中,若总体协方差矩阵未知,则可用样本协方差矩阵作为估计代替计算。,r型聚类统计量相似系数,相似系数,设 和 是第 和 个样品的观测值,则二者之间的相似 测度为:,r型聚类统计量夹角余弦,夹角余弦,夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量,问题,马(欧)氏距离和余弦相似度的区别,问题,适用于何种不同的数据分析模型,欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异 余弦相似
5、度更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦相似度对绝对数值不敏感),问题,q型与r型聚类区别?,q型聚类:当聚类把所有的观测记录(cases)进行分类时,它把性质相似的观测分在同一个类,性质差异较大的观测分在不同的类。 r型聚类:当聚类把变量(variables)作为分类对象时。这种聚类用在变量数目比较多、且相关性比较强的情形,目的是将性质相近的变量聚类为同一个类,并从中找出代表变量,从而减少变量个数以达到降维的效果。,系统聚类,凝聚的:从点作为个体簇开始,每一步合并两个最
6、接近的簇。这需要定义簇的临近性(类间距离)的概念。 分裂的:从包含所有点的某个簇开始,每一步分裂一个簇,直到剩下单点簇。在这种情况下,我们需要确定我每一步分裂那个簇,以及如何分裂。,系统聚类方法,最短距离法,设两个类 , 分别含有n1和n2个样本点,系统聚类方法,若某步聚类将 和 合并为新类 ,即 ,新类 与其他类 间的距离递推公式为,系统聚类方法,最长距离法,设两个类 , 分别含有n1和n2个样本点,系统聚类方法,若某步聚类将 和 合并为新类 ,即 ,新类 与其他类 间的距离递推公式为,系统聚类方法,重心法,重心距离:两类中心分别为 ,则,系统聚类方法,类平均法,递推公式:,推导:,系统聚类
7、方法,离差平方和,设将n个样品分成k类g1,g2,gk,用xit表示gt中的第i个样品,nt表示gt中样品的个数,是gt的重心,则gt的样品离差平方和为,系统聚类方法,递推公式,上述的各种类间距离定义的递推公式可以统一成如下公式,系统聚类,书:175页例子,系统聚类类的个数确定,给定阈值:通过观测聚类图,给出一个合适的阈值t。要求类与类之间的距离不要超过t值。例如我们给定t=0.3,当聚类时,类间的距离已经超过了0.3,则聚类结束。,系统聚类半偏相关,半偏相关统计量,其中t是数据的总离差平方和, 是组内离差平方和。,比较大,说明分g个类时类内的离差平方和比较小,也就是说分g类是合适的。但是,分
8、类越多,每个类的类内的离差平方和就越小, 也就越大;所以我们只能取合适的g,使得 足够大,而g本身很小,随着g的增加, 的增幅不大。比如,假定分4类时, =0.8;下一次合并分3类时,下降了许多, =0.32,则分4类是合适的。,系统聚类半偏相关,系统聚类伪f统计量,伪f统计量,伪f统计量用于评价聚为g类的效果。如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该取伪f统计量较大而类数较小的聚类水平。,其中t是数据的总离差平方和, 是类内离差平方和,系统聚类伪f统计量,伪 统计量的定义为 其中 和 分别是的类内离差平方和, 是将k和l合并为第m类的离差平方和 = - - 为合并
9、导致的类内离差平方和的增量。用它 评价合并第k和l类的效果,伪 统计量大说 明不应该合并这两类,应该取合并前的水平。,系统聚类伪 统计量,系统聚类ccc统计量,立方聚类准则,其中 ,v是方差稳定化变换,一般取值为,一般由 维空间的均匀分布得到。一般选择,后的第一个局部极大值点对应的分类数。,系统聚类ccc统计量,系统聚类法的基本性质,在聚类分析过程中,并类距离分别为l k(k=1,2,3,)若满足 ,则称该聚类方法具有单调性。除了重心法和中间距离法之外,其他的系统聚类法均满足单调性的条件。,单调性,系统聚类法的基本性质,空间的浓缩和扩张,设有两种系统聚类法a和b,他们在第i步的距离矩阵分别为a
10、i和bi(i=1,2,3),若aibi ,则称第一种方法a比第二种方法b使空间扩张,或第二种方法比第一种方法浓缩。,d(短) d(平),d(重) d(平); d(长) d(平);,方法的比较,类平均法适中,系统聚类局限,样品一旦划到某个类以后就不变了,这要求分类方法比较 准确 样品数n很大时,系统聚类法的计算很庞大,从而使其不方便应用,动态聚类解决的问题是:假如有个样本点,要把它们分为类,使得每一类内的元素都是聚合的,并且类与类之间还能很好地区别开。动态聚类使用于大型数据。,动态聚类步骤,动态聚类凝聚点选择,凭经验选择,如果对问题已经有一定的了解,可将所有的的样品大致分类,在每类选择一个有代表
11、性的样品作为聚类点 将所有的样品随机地分成k类,计算每一类的均值,将这些均值作为凝聚点 采用最大最小原则,假设样品最终分为k类,先选择所有样品中相距最远的两个样品为凝聚点,即选择 ,使 .选择第三个凝聚点 与前面两个聚类点的距离最小者等于所有其余的样品与 的最小距离中最大的。,动态聚类k 均值聚类,动态聚类k 均值聚类不足,凝聚点选择不当,动态聚类k 均值聚类不足,不同的簇,动态聚类k 均值聚类不足,离群点,其他 基于划分聚类算法(partition clustering),其他 基于密度聚类算法:,其他 基于层次聚类算法:,其他,基于网格的聚类算法:,基于统计学的聚类算法:,r软件与聚类分析
12、,在r软件中,dist()函数给出了各种距离的计算结果,其使用格式是 其中x是样本构成的数据矩阵(样本按行输入)或数据框。method 表示计算距离的方法,缺省值为euclide 距离,距离,-enclidean,-maximum,-manhattan,-canberra,-minkowski,例题一,例题二,对305名女中学生测量八个体型指标,相应的相关矩阵如下表所示,将相关系数看成相似系数,用最长距离法做系统分析,定义距离为: d=1-r,例题三,k-均值方法(kmeans()函数)对例一给出的31个省、市、自治区的消费水平进行聚类分析。,参考文献,1 吴密霞,刘春玲.多元统计分析m.北京:科学出版社,2014:168-187. 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小红书:小红书官方直播间三招教你账户成长
- 九年级化学下册 第九章 现在生活与化学9.2 化学合成材料说课稿 (新版)粤教版
- 2024秋九年级语文上册 第六单元 22《范进中举》教学设计 新人教版
- 八年级道德与法治下册 第一单元 坚持宪法至上 第一课 维护宪法权威 第1框 公民权利的保障书教案 新人教版
- 2024-2025学年高中历史 第四单元 雅尔塔体制下的“冷战”与和平 第15课“冷战”的形成(1)教学教案 岳麓版选修3
- 2024-2025学年高中语文 第四单元 古代人物传记 第12课 苏武传教案 新人教版必修4
- 2023三年级英语下册 Unit 1 Let's go to school Lesson 1教案 人教精通版(三起)
- 租赁桥面板合同(2篇)
- 颐和园课件 总结
- 苏教版江苏省东台市2023-2024学年高二上学期期末数学试题
- 急诊医学测试试题及答案
- 2024年广州铁路(集团)公司招聘468人易考易错模拟试题(共500题)试卷后附参考答案
- 第四单元两、三位数除以一位数(单元测试)-2024-2025学年三年级上册数学苏教版
- 2024年保安员证考试题库及答案(共240题)
- 人教版一年级上册数学期末试题及答案
- 浙江省9+1高中联盟2023-2024学年高一上学期11月期中英语试题 含解析
- 2025届高三化学一轮复习 第13讲 铁盐、亚铁盐及其转化 课件
- 【电商企业跨国并购的绩效探析案例:以阿里巴巴并购Lazada为例(论文)14000字】
- 2023年11月软考中级系统集成项目管理工程师下午真题(第二批)
- 2024年中国遥控风扇控制器市场调查研究报告
- 2024年江苏省盐城射阳县部分村(居)宣传文化管理员招聘57人历年高频难、易错点500题模拟试题附带答案详解
评论
0/150
提交评论