统计聚类分析.ppt

上传人：q*** IP属地：河南上传时间：2020-02-25 格式：PPT 页数：37 大小：272.50KB 积分：24 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

37 1 第十九章聚类分析 clusteringanalysis 37 2 判别分析在已知分为若干个类的前提下获得判别模型并用来判定观察对象的归属聚类分析将随机现象归类的统计学方法在不知道应分多少类合适的情况下试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法已成为发掘海量基因信息的首选工具二者都是研究分类问题的多元统计分析方法 37 3 聚类分析属于探索性统计分析方法按照分类目的可分为两大类例如测量了n个病例样品的m个变量指标可进行 1 R型聚类又称指标聚类是指将m个指标归类的方法其目的是将指标降维从而选择有代表性的指标 2 Q型聚类又称样品聚类是指将n个样品归类的方法其目的是找出样品间的共性 37 4 无论是R型聚类或是Q型聚类的关键是如何定义相似性即如何把相似性数量化聚类的第一步需要给出两个指标或两个样品间相似性的度量相似系数 similaritycoefficient 的定义 37 5 第一节相似系数1 R型指标聚类的相似系数X1 X2 Xm表示m个变量 R型聚类常用简单相关系数的绝对值定义变量与间的相似系数绝对值越大表明两变量间相似程度越高同样也可考虑用Spearman秩相关系数定义非正态变量与间的相似系数当变量均为定性变量时最好用列联系数定义类间的相似系数 37 6 2 Q型样品聚类常用相似系数将n例样品看成是m维空间的n个点用两点间的距离定义相似系数距离越小表明两样品间相似程度越高 1 欧氏距离欧氏距离 Euclideandistance 2 绝对距离绝对距离 Manhattandistance 3 Minkowski距离绝对距离是q 1时的Minkowski距离欧氏距离是q 2时的Minkowski距离 Minkowski距离的优点是定义直观计算简单缺点是没有考虑到变量间的相关关系基于此引进马氏距离 37 7 4 马氏距离用表示m个变量间的样本协方差矩阵马氏距离 Mahalanobisdistance 的计算公式为其中向量不难看出当单位矩阵时马氏距离就是欧氏距离的平方以上定义的4种距离适用于定量变量对于定性变量和有序变量必须在数量化后方能应用 37 8 第二节系统聚类系统聚类 hierarchicalclusteringanalysis 是将相似的样品或变量归类的最常用方法聚类过程如下 1 开始将各个样品或变量独自视为一类即各类只含一个样品或变量计算类间相似系数矩阵其中的元素是样品或变量间的相似系数相似系数矩阵是对称矩阵 2 将相似系数最大距离最小或相关系数最大的两类合并成新类计算新类与其余类间相似系数重复第二步直至全部样品或变量被并为一类 37 9 一类间相似系数的计算系统聚类的每一步都要计算类间相似系数即新形成的类别与其他类之间的类间相似系数的确定当两类各自仅含一个样品或变量时两类间的相似系数即是两样品或变量间的相似系数或按第一节的定义计算 37 10 当类内含有两个或两个以上样品或变量时计算类间相似系数有多种方法可供选择下面列出5种计算方法用分别表示两类各自含有个样品或变量 np与nq分别代表Gp与Gq两类的样品或变量数 1 最大相似系数法类中的个样品或变量与类中的个样品或变量两两间共有个相似系数以其中最大者定义为与的类间相似系数注意距离最小即相似系数最大 2 最小相似系数法类间相似系数计算公式为3 重心法仅用于样品聚类用分别表示的均值向量重心其分量是各个指标类内均数类间相似系数计算公式为 37 11 4 类平均法仅用于样品聚类对Gp类中的np个样品与Gq类中的nq个样品两两间的个平方距离求平均得到两类间的相似系数类平均法是系统聚类方法中较好的方法之一它充分反映了类内样品的个体信息 37 12 5 离差平方和法又称Ward法仅用于样品聚类此法效仿方差分析的基本思想即合理的分类使得类内离差平方和较小而类间离差平方和较大假定n个样品已分成g类是其中的两类此时有个样品的第k类的离差平方和定义为其中为类内指标的均数所有g类的合并离差平方和为如果将与合并形成g 1类它们的合并离差平方和由于并类引起的合并离差平方和的增量定义为两类间的平方距离显然当n个样品各自成一类时 n类的合并离差平方和为0 37 13 例19 1测量了3454名成年女子身高 X1 下肢长 X2 腰围 X3 和胸围 X4 计算得相关矩阵试用系统聚类法将这4个指标聚类本例是R型指标聚类相似系数选用简单相关系数类间相似系数采用最大相似系数法计算 37 14 聚类过程如下 1 各个指标独自成一类G1 X1 G2 X2 G3 X3 G4 X4 共4类 2 将相似系数最大的两类合并成新类由于G1和G2类间相似系数最大等于0 852 将两类合并成G5 X1 X2 形成3类计算G5与G3 G4间的类间相似系数G3 G4 G5的类间相似矩阵 37 15 3 由于G3和G4类间相似系数最大等于0 732 将两类合并成G6 G3 G4 形成两类计算G6与G5间的类间相似系数 4 最终将G5 G6合并成G7 G5 G6 所有指标形成一大类 37 16 根据聚类过程绘制出系统聚类图见图19 1 图中显示分成两类较好 X1 X2 X3 X4 即长度指标归为一类围度指标归为另一类 0 852 0 732 0 234 37 17 例19 2今测得6名运动员4个运动项目样品的能耗糖耗的均数见表19 1 欲对运动项目归类以便提供相应的膳食标准提高运动成绩试用样品系统聚类法将运动项目归类变量的标准化X1 X2 37 18 本例选用欧氏距离类间距离选用最小相似系数法为了克服变量量纲的影响分析前先将变量标准化分别是Xi的样本均数与标准差变换后的数据列在表19 1的列 37 19 聚类过程如下 1 计算4个样品间的相似系数矩阵样品聚类中又称为距离矩阵负重下蹲与引体向上之间的距离按公式 19 3 计算得同样负重下蹲与俯卧撑之间的距离同理计算出距离矩阵 37 20 2 G2 G4间距离最小将G2 G4并成一新类G5 G2 G4 应用最小相似系数法按公式 19 8 计算G5与其他各类之间的距离G1 G3 G5的距离矩阵 3 G1 G5间距离最小将G1 G5并成一新类G6 G1 G5 计算G6与G3之间的距离 4 最终将G1 G6合并成G7 G1 G6 所有指标形成一大类 d15 Max d12 d14 Max 1 289 1 803 1 803 d35 Max d23 d34 Max 1 928 2 168 2 168 37 21 根据聚类过程绘制出系统聚类图见图19 2 结合系统聚类图和专业知识认为分成两类较好 G1 G2 G4 G3 负重下蹲引体向上仰卧起坐三个运动项目体能消耗较大训练时应提高膳食标准图19 24个运动项目样品聚类的系统聚类图 G2G4G1G3 G5 G6 G7 37 22 例19 3调查了27名沥青工和焦炉工的年龄工龄吸烟情况检测了血清P21 P53 外周血淋巴细胞SCE 染色体畸变数和染色体畸变细胞数数据列于表19 3 其中P21倍数 P21检测值对照组P21均数试用系统聚类法将27名工人归类 37 23 37 24 本例选择了欧氏距离下的最小相似系数法类平均法和离差平方和法对数据进行聚类分析分析结果分别见图19 3 图19 4 图19 5 数据分析前各变量已作标准化处理 37 25 图19 327名沥青工和焦炉工的最小相似系数法系统聚类图 37 26 图19 427名沥青工和焦炉工的类平均法系统聚类图 37 27 图19 527名沥青工和焦炉工离差平方和法的系统聚类图 37 28 三种聚类结果有较大的出入可见这些方法分类效果是有差异的特别是在分类变量较多时差异愈加明显这就要求在聚类分析前尽可能地选择有效变量如本例的变量P21和P53倍数详细解读聚类图一般都能够获得许多有用的信息 37 29 聚类实例分析结果相似系数的定义以及类间相似系数的定义的不同将导致系统聚类结果有所差异聚类分析的结果解释除了要了解聚类方法外还必须结合专业知识 37 30 结合专业知识本例认为类平均法聚类结果比较合理分类结果列入表19 3最后一栏它将 10 20 23 号工人分为一类其余分为另一类研究者最终发现10 20 23号工人为癌症高危人群根据离差平法和法聚类图不难发现 10 20 23 8 16 26 号聚在一类提示8 16 26号工人也可能是癌症高危人群之一 37 31 以下列出类平均法具体聚类过程供参考 37 32 动态样品聚类当待分类的样品较多时如海量数据挖掘系统聚类分析将耗费较多的计算资源来储存相似系数矩阵计算速度缓慢另外用系统聚类方法聚类样品一旦归类后就不再变动了这就要求分类十分准确针对系统聚类方法的这些缺陷统计学者提出所谓动态聚类分析方法这种分类方法既解决了计算速度问题又能随着聚类的进展对样品的归类进行调整 37 33 动态样品聚类的原理是首先确定几个有代表性的样品称之为凝聚点作为各类的核心然后将其他样品逐一归类归类的同时按某种规则修改各类核心直至分类合理为止动态样品聚类方法中最常用的一种是k means法这种方法原理简单分类快速一般经过几轮归类就收敛了即使样品很多也能迅速得到分类结果此法的缺点是要事先知道分类数目在某些具体问题中分类数目根据专业知识是完全可以事先确定的而在有的问题中分类数目则难以确定 37 34 有序样品聚类前面讲到的样品聚类分析方法适用于无序样品的分类在科学研究中存在另一类型的资料各样品在时域或空域存在自然顺序如生长发育资料的年龄顺序发病率的年代顺序和地理位置我们称这种样品为有序样品对有序样品分类时要考虑到样品的顺序特性这个前提条件分类时不破坏样品间的顺序由此形成的样品聚类方法称为有序样品聚类 ordinalclusteringmethods 37 35 应用注意事项1 聚类分析方法常用于数据的探索性分析聚类分析的结果解释应密切结合专业知识同时尝试用多种聚类方法分类才能获得较理想的结论 2 聚类前应对变量作预处理剔除无效变量变量值变化很小缺失

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

统计聚类分析.ppt

文档简介

温馨提示

最新文档

评论

统计 聚类分析.ppt

文档简介

温馨提示

最新文档

评论

相关文档

统计聚类分析.ppt