




已阅读5页,还剩32页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
37 1 第十九章聚类分析 clusteringanalysis 37 2 判别分析 在已知分为若干个类的前提下 获得判别模型 并用来判定观察对象的归属 聚类分析 将随机现象归类的统计学方法 在不知道应分多少类合适的情况下 试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法 已成为发掘海量基因信息的首选工具 二者都是研究分类问题的多元统计分析方法 37 3 聚类分析属于探索性统计分析方法 按照分类目的可分为两大类 例如测量了n个病例 样品 的m个变量 指标 可进行 1 R型聚类 又称指标聚类 是指将m个指标归类的方法 其目的是将指标降维从而选择有代表性的指标 2 Q型聚类 又称样品聚类 是指将n个样品归类的方法 其目的是找出样品间的共性 37 4 无论是R型聚类或是Q型聚类的关键是如何定义相似性 即如何把相似性数量化 聚类的第一步需要给出两个指标或两个样品间相似性的度量 相似系数 similaritycoefficient 的定义 37 5 第一节相似系数1 R型 指标 聚类的相似系数X1 X2 Xm表示m个变量 R型聚类常用简单相关系数的绝对值定义变量与间的相似系数 绝对值越大表明两变量间相似程度越高 同样也可考虑用Spearman秩相关系数定义非正态变量与间的相似系数 当变量均为定性变量时 最好用列联系数定义类间的相似系数 37 6 2 Q型 样品 聚类常用相似系数将n例 样品 看成是m维空间的n个点 用两点间的距离定义相似系数 距离越小表明两样品间相似程度越高 1 欧氏距离 欧氏距离 Euclideandistance 2 绝对距离 绝对距离 Manhattandistance 3 Minkowski距离 绝对距离是q 1时的Minkowski距离 欧氏距离是q 2时的Minkowski距离 Minkowski距离的优点是定义直观 计算简单 缺点是没有考虑到变量间的相关关系 基于此引进马氏距离 37 7 4 马氏距离 用表示m个变量间的样本协方差矩阵 马氏距离 Mahalanobisdistance 的计算公式为其中向量 不难看出 当 单位矩阵 时 马氏距离就是欧氏距离的平方 以上定义的4种距离适用于定量变量 对于定性变量和有序变量必须在数量化后方能应用 37 8 第二节系统聚类系统聚类 hierarchicalclusteringanalysis 是将相似的样品或变量归类的最常用方法 聚类过程如下 1 开始将各个样品 或变量 独自视为一类 即各类只含一个样品 或变量 计算类间相似系数矩阵 其中的元素是样品 或变量 间的相似系数 相似系数矩阵是对称矩阵 2 将相似系数最大 距离最小或相关系数最大 的两类合并成新类 计算新类与其余类间相似系数 重复第二步 直至全部样品 或变量 被并为一类 37 9 一 类间相似系数的计算系统聚类的每一步都要计算类间相似系数 即 新形成的类别与其他类之间的类间相似系数的确定 当两类各自仅含一个样品或变量时 两类间的相似系数即是两样品或变量间的相似系数或 按第一节的定义计算 37 10 当类内含有两个或两个以上样品或变量时 计算类间相似系数有多种方法可供选择 下面列出5种计算方法 用分别表示两类 各自含有个样品或变量 np与nq分别代表Gp与Gq两类的样品或变量数 1 最大相似系数法类中的个样品或变量与类中的个样品或变量两两间共有个相似系数 以其中最大者定义为与的类间相似系数 注意距离最小即相似系数最大 2 最小相似系数法类间相似系数计算公式为3 重心法 仅用于样品聚类 用分别表示的均值向量 重心 其分量是各个指标类内均数 类间相似系数计算公式为 37 11 4 类平均法 仅用于样品聚类 对Gp类中的np个样品与Gq类中的nq个样品两两间的个平方距离求平均 得到两类间的相似系数类平均法是系统聚类方法中较好的方法之一 它充分反映了类内样品的个体信息 37 12 5 离差平方和法又称Ward法 仅用于样品聚类 此法效仿方差分析的基本思想 即合理的分类使得类内离差平方和较小 而类间离差平方和较大 假定n个样品已分成g类 是其中的两类 此时有个样品的第k类的离差平方和定义为 其中为类内指标的均数 所有g类的合并离差平方和为 如果将与合并 形成g 1类 它们的合并离差平方和 由于并类引起的合并离差平方和的增量定义为两类间的平方距离 显然 当n个样品各自成一类时 n类的合并离差平方和为0 37 13 例19 1测量了3454名成年女子身高 X1 下肢长 X2 腰围 X3 和胸围 X4 计算得相关矩阵 试用系统聚类法将这4个指标聚类 本例是R型 指标 聚类 相似系数选用简单相关系数 类间相似系数采用最大相似系数法计算 37 14 聚类过程如下 1 各个指标独自成一类G1 X1 G2 X2 G3 X3 G4 X4 共4类 2 将相似系数最大的两类合并成新类 由于G1和G2类间相似系数最大 等于0 852 将两类合并成G5 X1 X2 形成3类 计算G5与G3 G4间的类间相似系数G3 G4 G5的类间相似矩阵 37 15 3 由于G3和G4类间相似系数最大 等于0 732 将两类合并成G6 G3 G4 形成两类 计算G6与G5间的类间相似系数 4 最终将G5 G6合并成G7 G5 G6 所有指标形成一大类 37 16 根据聚类过程 绘制出系统聚类图 见图19 1 图中显示分成两类较好 X1 X2 X3 X4 即长度指标归为一类 围度指标归为另一类 0 852 0 732 0 234 37 17 例19 2今测得6名运动员4个运动项目 样品 的能耗 糖耗的均数见表19 1 欲对运动项目归类 以便提供相应的膳食标准 提高运动成绩 试用样品系统聚类法将运动项目归类 变量的标准化X1 X2 37 18 本例选用欧氏距离 类间距离选用最小相似系数法 为了克服变量量纲的影响 分析前先将变量标准化 分别是Xi的样本均数与标准差 变换后的数据列在表19 1的 列 37 19 聚类过程如下 1 计算4个样品间的相似系数矩阵 样品聚类中又称为距离矩阵 负重下蹲与引体向上之间的距离按公式 19 3 计算得同样负重下蹲与俯卧撑之间的距离同理 计算出距离矩阵 37 20 2 G2 G4间距离最小 将G2 G4并成一新类G5 G2 G4 应用最小相似系数法 按公式 19 8 计算G5与其他各类之间的距离G1 G3 G5的距离矩阵 3 G1 G5间距离最小 将G1 G5并成一新类G6 G1 G5 计算G6与G3之间的距离 4 最终将G1 G6合并成G7 G1 G6 所有指标形成一大类 d15 Max d12 d14 Max 1 289 1 803 1 803 d35 Max d23 d34 Max 1 928 2 168 2 168 37 21 根据聚类过程 绘制出系统聚类图 见图19 2 结合系统聚类图和专业知识认为分成两类较好 G1 G2 G4 G3 负重下蹲 引体向上 仰卧起坐三个运动项目体能消耗较大 训练时应提高膳食标准 图19 24个运动项目样品聚类的系统聚类图 G2G4G1G3 G5 G6 G7 37 22 例19 3调查了27名沥青工和焦炉工的年龄 工龄 吸烟情况 检测了血清P21 P53 外周血淋巴细胞SCE 染色体畸变数和染色体畸变细胞数 数据列于表19 3 其中P21倍数 P21检测值 对照组P21均数 试用系统聚类法将27名工人归类 37 23 37 24 本例选择了欧氏距离下的最小相似系数法 类平均法和离差平方和法对数据进行聚类分析 分析结果分别见图19 3 图19 4 图19 5 数据分析前 各变量已作标准化处理 37 25 图19 327名沥青工和焦炉工的最小相似系数法系统聚类图 37 26 图19 427名沥青工和焦炉工的类平均法系统聚类图 37 27 图19 527名沥青工和焦炉工离差平方和法的系统聚类图 37 28 三种聚类结果有较大的出入 可见这些方法分类效果是有差异的 特别是在分类变量较多时差异愈加明显 这就要求在聚类分析前 尽可能地选择有效变量 如本例的变量P21和P53倍数 详细解读聚类图 一般都能够获得许多有用的信息 37 29 聚类实例分析结果 相似系数的定义以及类间相似系数的定义的不同将导致系统聚类结果有所差异 聚类分析的结果解释除了要了解聚类方法外 还必须结合专业知识 37 30 结合专业知识 本例认为类平均法聚类结果比较合理 分类结果列入表19 3最后一栏 它将 10 20 23 号工人分为一类 其余分为另一类 研究者最终发现10 20 23号工人为癌症高危人群 根据离差平法和法聚类图 不难发现 10 20 23 8 16 26 号聚在一类 提示8 16 26号工人也可能是癌症高危人群之一 37 31 以下列出类平均法具体聚类过程 供参考 37 32 动态样品聚类当待分类的样品较多时 如海量数据挖掘 系统聚类分析将耗费较多的计算资源来储存相似系数矩阵 计算速度缓慢 另外 用系统聚类方法聚类 样品一旦归类后就不再变动了 这就要求分类十分准确 针对系统聚类方法的这些缺陷 统计学者提出所谓动态聚类分析方法 这种分类方法既解决了计算速度问题 又能随着聚类的进展对样品的归类进行调整 37 33 动态样品聚类的原理是 首先确定几个有代表性的样品 称之为凝聚点 作为各类的核心 然后将其他样品逐一归类 归类的同时按某种规则修改各类核心直至分类合理为止 动态样品聚类方法中最常用的一种是k means法 这种方法原理简单 分类快速 一般经过几轮归类就收敛了 即使样品很多也能迅速得到分类结果 此法的缺点是要事先知道分类数目 在某些具体问题中分类数目根据专业知识是完全可以事先确定的 而在有的问题中分类数目则难以确定 37 34 有序样品聚类前面讲到的样品聚类分析方法 适用于无序样品的分类 在科学研究中存在另一类型的资料 各样品在时域或空域存在自然顺序 如生长发育资料的年龄顺序 发病率的年代顺序和地理位置 我们称这种样品为有序样品 对有序样品分类时要考虑到样品的顺序特性这个前提条件 分类时不破坏样品间的顺序 由此形成的样品聚类方法称为有序样品聚类 ordinalclusteringmethods 37 35 应用注意事项1 聚类分析方法常用于数据的探索性分析 聚类分析的结果解释应密切结合专业知识 同时尝试用多种聚类方法分类 才能获得较理想的结论 2 聚类前应对变量作预处理 剔除无效变量 变量值变化很小 缺失
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 节水技术的推广与应用计划
- 确保企业形象的管理措施计划
- 进口医疗器械使用与管理计划
- 增强社区儿童保护意识的个人方案计划
- 健身教练技能提升计划
- 班主任对学生品德培养的贡献计划
- 荣格游戏治疗
- 《贵州恒睿矿业有限公司福泉市龙昌镇顺意煤矿(兼并重组)矿产资源绿色开发利用方案(三合一)》评审意见
- 档案基本知识培训课件
- 第八章 走进国家第一节日本(第1课时)教学设计2023-2024学年下学期七年级地理下册同步课堂系列(湘教版)
- 思想道德与法治教案第四章:明确价值要求践行价值准则
- 宁骚版《公共政策学》课后答案
- 氧气安全标签
- 不经历风雨怎么见彩虹》教学设计
- 二年级有余数的除法口算题1000道
- (综合治理)修复工程指南(试行) - 贵州省重金属污染防治与土壤修复网
- 员工就餐签到表
- A-level项目介绍(课堂PPT)
- 航海计算软件---ETA计算器
- 光伏电站运维手册
- 半导体及集成电路领域的撰写及常见问题
评论
0/150
提交评论