版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析及其应用实例Outlines聚类的思想常用的聚类方法实例分析:层次聚类1.聚类的思想Oh?1.聚类的思想Oh!1.聚类的思想聚类(clustering)是对物理的或抽象的对象集合分组的过程即把“性质相似”或“相互关系密切”的样品或指标聚在一起。同一个类内样本之间彼此相似,不同类间的样本足够不相似。寻找数据中潜在的自然分组结构或感兴趣的关系。samecolor!基本原理:将随机现象归类的统计学方法;分类R型聚类:指标聚类,目的是指标降维从而选择有代表性的指标;Pearson、Spearman系数Q型聚类:样本聚类,目的是找出样品间的共性;欧氏距离、绝对距离、马氏距离及明氏距离等。逐步聚类法---用于对大样本的样品间聚类K-均值聚类方法系统聚类法---用于对小样本的样品间聚类及对指标聚类。层次聚类模糊聚类法---建立在模糊数学基础上,适用于小样本分割聚类法---适用于对指标聚类
……2常用的聚类分析方法3.实例分析:层次聚类算法凝聚的方法(自底向上)『常用』
思想:一开始将每个对象作为单独的一组,然后根据同类相近,异类相异的原则,合并对象,直到所有的组合并成一个,或达到一个终止条件。分裂的方法(自顶向下)
思想:一开始将所有的对象置于一类,在迭代的每一步中,一个类不断地分为更小的类,直到每个对象在单独的一个类中,或达到一个终止条件
定义:对给定的数据进行层次的分解X1:Gibbon(长臂猿)X2:Symphalangus(合趾猿)X3:Human(人)X4:Gorilla(大猩猩)X5:Chimpanzee(黑猩猩)X3X4X1X5X2
凝聚的层次聚类示意图Oh?常用的聚类统计量距离函数----用于对样品的聚类欧式距离:两点之间的直线距离马氏距离:数据的协方差距离切比雪夫距离:两个向量之间的最大距离曼哈顿距离:运动物体走过的实际距离
。。。。。。
相似系数----常用于对变量的聚类Pearson相关系数:两个连续变量间呈线性相关Spearman相关系数:利用两变量的秩次大小作线性相关分析Kendall等级相关系数,。。。X1:Gibbon(长臂猿)X2:Symphalangus(合趾猿)X3:Human(人)X4:Gorilla(大猩猩)X5:Chimpanzee(黑猩猩)X3X4X1X5X2
凝聚的层次聚类示意图
C3C4常用的类间距离最短距离最长距离类平均距离几何平均距离离差平方和法最短距离(singlelinkage):Gp和Gq中最邻近的两个样本的距离为这两个类之间的距离。GpGq最长距离(completelinkage
):Gp和Gq中相距最远的两个样本的距离为这两个类之间的距离。类平均距离(averagelinkage):
Gp和Gq中每两两样本间距离的平均值作为两个类之间的距离。几何中心距离(centroidlinkage):用Gp和Gq两类几何中心的距离为两个类之间的距离。用Gp和Gq表示两个类,它们所包含的样本数目分别为tp和tq,类Gp和Gq之间的距离用Dpq表示。ClusterPClusterQClusterM离差平方和法(wardmethod
):各元素到类中心的欧式距离之和。凝聚的层次聚类法举例已知:根据5种灵长类动物朊粒蛋白的氨基酸序列比较,得到它们之间的距离矩阵(经过数据变换处理)。X(1):Gibbon(长臂猿);X(2):Symphalangus(合趾猿);X(3)
:Human(人);X(4)
:Gorilla(大猩猩);X(5)
:Chimpanzee(黑猩猩)构造:样本间距离——欧氏距离;类间距离——最短距离;X(1)X(2)X(3)X(4)X(5)X(1)013.557X(2)02.546X(3)01.53.5X(4)02X(5)0步骤15个物种各自构成1类,得到5类,有:初始分类G(1)={X(i)}(i=1,2,3,4,5)初始类别数目m=5初始类间距离矩阵D(1)X(1)X(2)X(3)X(4)X(5)X(1)013.557X(2)02.546X(3)01.53.5X(4)02X(5)0D(1)X3X4X1X5X2X(3)X(4)X(5)C(4)X(3)01.53.5X(4)02X(5)0C(4)0步骤2由D(1)知,合并X(1)和X(2)为新类C(4)={X(1),X(2)},有:新的G(2)={X(3),
X(4),
X(5),
C(4)}新的类别数目m=4新的类间距离矩阵D(2)D(2)X(1)X(2)X(3)X(4)X(5)X(1)013.557X(2)02.546X(3)01.53.5X(4)02X(5)0D(1)C(4)X1X3X4X5X2C42.546步骤3由D(2)知,合并X(3)和X(4)为一新类C(3)={X(3),X(4)},有:新的G(3)={
X(5),
C(4),
C(3)}新的类别数目m=3新的类间距离矩阵D(3)X(5)C(4)C(3)X(5)06C(4)0C(3)0D(3)X1X3X4X5X2C4X(3)X(4)X(5)C(4)X(3)01.53.52.5X(4)024X(5)06C(4)0C3C32.52步骤4由D(3)知,合并X(5)和C(3)为一新类C(2)={X(5),C(3)},有:新的G(4)={C(4),
C(2)}新的类别数目m=2新的类间距离矩阵D(4)C(4)C(2)C(4)0C(2)0D(4)C4C3X3X4X5X2X1X(5)C(4)C(3)X(5)062C(4)02.5C(3)0D(3)C2C22.5C4步骤5由D(4)知,最后合并C(4)和C(2)为一新类C(1)={C(4),C(2)},有:新的G(5)={C(4),
C(2)}新的类别数目m=1新的类间距离矩阵D(5)C(1)C(1)0D(5)C3X3X4X5X2C2X1C1C(4)C(2)C(4)02.5C(2)0C3X1:Gibbon(长臂猿)X2:Symphalangus(合趾猿)X3:Human(人)X4:Gorilla(大猩猩)X5:Chimpanzee(黑猩猩)Human(人)Gorilla(大猩猩)Chimpanzee(黑猩猩)Symphalangus(合趾猿)Gibbon(长臂猿)X3X4X1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年电子商务平台交易争议解决合同
- 2024年华师大新版八年级生物下册阶段测试试卷
- 办公环境中的绿色家用纺织品设计与应用
- 健康产业趋势研讨健康产业主题宴会制作策略
- 培养农村孩子科学兴趣的策略和方法研究
- 企业文化的重塑与创新思维
- 信息安全管理体系中的安全用电信箱角色
- 基于AI技术的智能火灾预防与应急系统研究
- 商业运营中的家庭健康指导员角色分析
- 2025中国铁路信息科技限责任公司招聘20人高频重点提升(共500题)附带答案详解
- 重症患者的营养支持
- 防范非法金融宣传
- 咨询经理招聘面试题与参考回答(某大型国企)2025年
- 小学语文骨干教师专题讲座《自由阅读-开启快乐的读书之门》
- 南京审计大学金审学院《中级财务会计(上)》2022-2023学年第一学期期末试卷
- 2023年电信运营商液冷技术白皮书
- 瓷砖店销售薪酬方案
- 我和我的祖国拼音版
- 护理穴位贴敷课件
- 徒步行军pt课件
- 输血科(血库)仪器设备使用、保养记录表
评论
0/150
提交评论