数据挖掘--聚类课件ppt.ppt

上传人：闯*** IP属地：广东上传时间：2020-03-27 格式：PPT 页数：116 大小：1.24MB 积分：25 举报 版权申诉

已阅读5页，还剩111页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2020 3 27 1 第五章聚类方法内容提要聚类方法概述划分聚类方法层次聚类方法密度聚类方法其它聚类方法 2020 3 27 2 什么是聚类聚类 clustering 也称为聚类分析指将样本分到不同的组中使得同一组中的样本差异尽可能的小而不同组中的样本差异尽可能的大聚类得到的不同的组称为簇 cluster 一个好的聚类方法将产生以下的聚类最大化类中的相似性最小化类间的相似性 2020 3 27 3 聚类与分类的差别聚类与分类最主要的差别是聚类的样本不具有类别标号而分类的样本具有类别标号聚类是无监督学习 unsupervisedlearning 而分类是有监督学习 supervisedlearning 因此分类里有训练和测试而聚类没有训练尽管分类是识别对象组类别的有效手段但需要高昂的代价收集和标记训练样本集因此聚类提供了一种新的处理模式先把数据集划分为组然后给有限的组指定类别标号 2020 3 27 4 对聚类方法的一些要求可伸缩性处理不同类型属性的能力发现任意形状的聚类用于决定输入参数的领域知识最小化处理噪声数据和孤立点的能力对于输入纪录的顺序不敏感高维性基于约束的聚类可解释性和可用性 2020 3 27 5 聚类分析中的数据类型数据矩阵相异度矩阵 2020 3 27 6 聚类分析中的数据类型区间标度度量属性的取值为实数值且不同属性取值区间差异较大将不同类型的属性取值标准化首先计算均值绝对偏差然后计算标准度量值或Z score 2020 3 27 7 标准度量的聚类描述欧几里得距离曼哈顿距离民科夫斯基距离计算欧几里得距离与曼哈顿距离 2020 3 27 8 聚类分析中的数据类型二元变量属性的取值仅为0或1 0表示该变量不会出现 1表示该变量出现二元变量相异度计算设q为对象i与j都取1的变量的个数设r为对象i取1而对象j取0的变量的个数设s为对象i取0而对象j取1的变量的个数设t为对象i与j都取0的变量的个数对象i与j的相异度定义为 2020 3 27 9 聚类分析中的数据类型二元变量非对称如果二元变量的状态不是同等重要例如疾病检查的阳性与阴性结果称该二元变量是非对称的我们把重要的状态编码为1 相对次要的状态编码为0 此时两个都取1的匹配正匹配比两个都去0的匹配负匹配更有意义此时负匹配的个数可以认为不太重要可以在计算中忽略对象i与j的相异度定义为 2020 3 27 10 聚类分析中的数据类型二元变量相似度二元状态的相似度定义为系数sim i j 称为Jaccard系数 2020 3 27 11 聚类分析中的数据类型分类变量属性的取值为多个状态比如地图颜色是个分类变量取值可以为红色黄色绿色粉色蓝色 1表示该变量出现分类变量相异度计算设m为对象i与j匹配的数目即它们取相同的状态值 p为全部变量的数目对象i与j的相异度定义为 2020 3 27 12 聚类分析中的数据类型序数变量属性的取值为多个状态这些状态值有一定的强度层次可以排序序数变量相异度计算首先将变量f的取值状态替换为它的秩 1 2 3 M 即序数变量的排序数其次将秩的值域映射到区间 0 1 这可以通过以下变换实现其中Mf为f的取值状态数目 2020 3 27 13 聚类分析中的数据类型比例标度变量属性的取值随时间的增长呈指数增长的趋势比如状态的取值近视遵循下列公式其中A与B为正的常数而t为时间序数变量相异度计算把比例标度度量当做区间标度变量处理把比例标度度量当做序数变量处理对比例标度度量做对数变换 2020 3 27 14 聚类分析中的数据类型混合类型变量实际的应用中一个数据库可以包含多种类型的变量比如区间标度变量对称二元非对称二元分类序数或者比例标度的混合变量相异度计算其中为单个类型变量定义的距离 p为变量的个数 2020 3 27 15 聚类分析中的数据类型向量对象的距离算法在某些应用中如信息检索文本文档聚类生物学分类中需要对大量符号实体进行比较和聚类因此放弃了传统的距离度量方法在计算两个向量的x与y的相似度时我们可以采用余弦度量其中xT为x的转置为x的欧几里得范数 2020 3 27 16 聚类分析中的数据类型向量对象的距离算法余弦度量实际上计算的是向量x与y之间夹角的余弦值余弦度量对于平移与放大是不变的当变量为二元时余弦度量表示x与y之间共有属性的比例余弦度量也称为Tanimoto距离 2020 3 27 17 主要聚类方法的分类聚类方法大致可以分为以下几类划分聚类方法层次聚类方法密度聚类方法网格聚类方法基于模型的方法其它聚类方法 2020 3 27 18 主要聚类方法的分类划分聚类方法划分方法将给定的数据集划分成k份每份为一个簇划分方法通常采用迭代重定位技术尝试通过对象在簇之间的移动在改进划分 2020 3 27 19 主要聚类方法的分类层次聚类方法层次聚类方法创建给定数据对象集的层次分解一般可以分为凝聚法与分裂法凝聚法也称为自底向上的方法开始将每个对象形成单独的簇然后逐次合并相近的对象或簇直到满足终止条件分裂法也称为自顶向下的方法开始将所有对象放入一个簇中每次迭代簇分裂为更小的簇直到满足终止条件 2020 3 27 20 主要聚类方法的分类密度聚类方法大部分划分方法基于对象间的距离进行聚类这样的方法只能发现球形簇不能发现任意形状的簇基于密度的聚类方法的思想是只要邻域中的密度超过某个阈值就继续聚类基于密度的聚类方法既可以发现任意形状的簇也可以过滤噪声 2020 3 27 21 主要聚类方法的分类网格聚类方法把对象空间化为有限的数目单元形成一个网格结构所有的聚类操作都在网格结构内进行它的优点是处理速度快基于模型的聚类方法为每个簇假定一个模型并寻找数据对给定模型的最佳组合其它聚类方法包括针对高维数据的聚类方法基于约束条件的聚类方法等等 2020 3 27 22 划分聚类算法给定一个有n个对象的数据集划分聚类技术将构造数据k个划分每一个划分就代表一个簇也就是说它将数据划分为k个簇而且这k个划分满足下列条件每一个簇至少包含一个对象每一个对象属于且仅属于一个簇对于给定的k 算法首先给出一个初始的划分方法以后通过反复迭代的方法改变划分使得每一次改进之后的划分方案都较前一次更好 k means算法PAM算法 2020 3 27 23 划分聚类算法一种直接方法就是观察聚类的类内差异 withinclustervariation 和类间差异 Betweenclustervariation 类内差异衡量聚类的紧凑性类内差异可以用特定的距离函数来定义例如类间差异衡量不同聚类之间的距离类间差异定义为聚类中心间的距离例如聚类的总体质量可被定义为w c 和b c 的一个单调组合比如w c b c 2020 3 27 24 划分聚类算法红色样本代表一个簇黑色样本代表一个簇请计算类内差异与类间差异样本数据序号属性1属性2111221312422543653744854 2020 3 27 25 k means算法 k means算法基本步骤从n个数据对象任意选择k个对象作为初始聚类中心根据每个聚类对象的均值中心对象计算每个对象与这些中心对象的距离并根据最小距离重新对相应对象进行划分重新计算每个有变化聚类的均值中心对象计算标准测度函数当满足一定条件如函数收敛时则算法终止如果条件不满足则回到步骤2 2020 3 27 26 k means算法算法5 1k means算法输入簇的数目k和包含n个样本的数据库输出 k个簇使平方误差准则最小 1 assigninitialvalueformeans 任意选择k个对象作为初始的簇中心 2 REPEAT 3 FORj 1tonDOassigneachxjtotheclosestcenters 4 FORi 1tokDO 更新簇平均值 5 Compute 计算准则函数E 6 UNTILE不再明显地发生变化 2020 3 27 27 k means算法初始化聚类中心 k 3 根据每个样本到各个中心的距离计算k个簇使用每个簇的样本对每个簇生成新的中心重复STEP2和STEP3直到终止条件满足 2020 3 27 28 划分聚类算法请使用k means算法对左边的样本进行分类其中k 2 初始中心为样本1和样本3 第一次迭代样本数据序号属性1属性2111221312422543653744854 2020 3 27 29 划分聚类算法红色的样本属于一个簇橙色的样本属于一个簇计算每个簇新的中心使用新的中心重新对每个样本所在的簇进行分配第二次迭代样本数据序号属性1属性2111221312422543653744854 2020 3 27 30 划分聚类算法红色的样本属于一个簇橙色的样本属于一个簇计算每个簇新的中心使用新的中心重新对每个样本所在的簇进行分配第三次迭代簇的分配情况没有变化聚类终止样本数据序号属性1属性2111221312422543653744854 2020 3 27 31 k means算法例题样本数据序号属性1属性2111221312422543653744854 根据所给的数据通过对其实施k means 设n 8 k 2 其主要执行执行步骤第一次迭代假定随机选择的两个对象如序号1和序号3当作初始点分别找到离两点最近的对象并产生两个簇 1 2 和 3 4 5 6 7 8 对于产生的簇分别计算平均值得到平均值点对于 1 2 平均值点为 1 5 1 这里的平均值是简单的相加出2 对于 3 4 5 6 7 8 平均值点为 3 5 3 第二次迭代通过平均值调整对象的所在的簇重新聚类即将所有点按离平均值点 1 5 1 3 5 1 最近的原则重新分配得到两个新的簇 1 2 3 4 和 5 6 7 8 重新计算簇平均值点得到新的平均值点为 1 5 1 5 和 4 5 3 5 第三次迭代将所有点按离平均值点 1 5 1 5 和 4 5 3 5 最近的原则重新分配调整对象簇仍然为 1 2 3 4 和 5 6 7 8 发现没有出现重新分配而且准则函数收敛程序结束迭代次数平均值平均值产生的新簇新平均值新平均值簇1 簇2 簇1 簇2 1 1 1 1 2 1 2 3 4 5 6 7 8 1 5 1 3 5 3 2 1 5 1 3 5 3 1 2 3 4 5 6 7 8 1 5 1 5 4 5 3 5 3 1 5 1 5 4 5 3 5 1 2 3 4 5 6 7 8 1 5 1 5 4 5 3 5 样本数据序号属性1属性2111221312422543653744854 2020 3 27 32 k means算法的性能分析主要优点是解决聚类问题的一种经典算法简单快速对处理大数据集该算法是相对可伸缩和高效率的当结果簇是密集的它的效果较好主要缺点在簇的平均值被定义的情况下才能使用可能不适用于某些应用必须事先给出k 要生成的簇的数目而且对初值敏感对于不同的初始值可能会导致不同结果不适合于发现非凸面形状的簇或者大小差别很大的簇而且它对于躁声和孤立点数据是敏感的 2020 3 27 33 k means算法的几种变异 k means算法对于孤立点是敏感的为了解决这个问题我们引入了k 中心点算法该算法不采用簇中的平均值作为参照点可以选用簇中位置最中心的对象即中心点作为参照点这样划分方法仍然是基于最小化所有对象与其参照点之间的相异度之和的原则来执行的 2020 3 27 34 PAM算法 PAM是最早提出的k 中心点算法之一它选用簇中最中心的对象作为代表对象试图对n个对象给出k个划分代表对象也被称为是中心点其他对象则被称为非代表对象最初随机选择k个对象作为中心点该算法反复地用非代表对象来代替中心点试图找出更好的中心点以改进聚类的质量 2020 3 27 35 PAM算法为了判定一个非代表对象Oh是否可以替代当前一个代表对象Oi 中心点对于每一个对象Oj 下面的四种情况被考虑第一种情况 Oj当前隶属于中心点对象Oi 如果Oi被Oh所代替作为中心点且Oj离一个Om最近 i m 那么Oj被重新分配给Om 第二种情况 Oj当前隶属于中心点对象Oi 如果Oi被Oh代替作为一个中心点且Oj离Oh最近那么Oj被重新分配给Oh 2020 3 27 36 PAM算法第三种情况 Oj当前隶属于中心点Om m i 如果Oi被Oh代替作为一个中心点而Oj依然离Om最近那么对象的隶属不发生变化第四种情况 Oj当前隶属于中心点Om m i 如果Oi被Oh代替作为一个中心点且Oj离Oh最近那么Oi被重新分配给Oh 2020 3 27 37 PAM算法中心点是否应当被替换由代价函数决定代价函数定义为其中 Cjih表示Oj在Oi被Oh代替后产生的代价如果总代价是负的那么实际的误差将会减小 Oi可以被Oh替代如果总代价是正的则Oi不需被替换下面我们将介绍上面所述的四种情况中代价函数的计算公式其中Oi和Om是两个原中心点 Oh将替换Oi作为新的中心点 2020 3 27 38 PAM算法代价函数的四种情况第二种情况Oj被重新分配给Oh Cjih d j h d j i 第一种情况Oj被重新分配给Om Cjih d j m d j i 2020 3 27 39 PAM算法代价函数的四种情况第四种情况Oi被重新分配给Oh Cjih d j h d j m 第三种情况Oj的隶属不发生变化 Cjih 0 2020 3 27 40 PAM算法 PAM算法代价函数可以按如下方式理解计算各点到最近的中心点的距离计算各点到替换后的最近的中心点的距离比较替换后的距离和与替换前的距离和 2020 3 27 41 PAM算法算法5 2PAM k 中心点算法输入簇的数目k和包含n个对象的数据库输出 k个簇使得所有对象与其最近中心点的相异度总和最小 1 任意选择k个对象作为初始的簇中心点 2 REPEAT 3 指派每个剩余的对象给离它最近的中心点所代表的簇 4 REPEAT 5 选择一个未被选择的中心点Oi 6 REPEAT 7 选择一个未被选择过的非中心点对象Oh 8 计算用Oh代替Oi的总代价并记录在S中 9 UNTIL所有的非中心点都被选择过 10 UNTIL所有的中心点都被选择过 11 IF在S中的所有非中心点代替所有中心点后的计算出的总代价有小于0的存在THEN找出S中的用非中心点替代中心点后代价最小的一个并用该非中心点替代对应的中心点形成一个新的k个中心点的集合 12 UNTIL没有再发生簇的重新分配即所有的S都大于0 2020 3 27 42 PAM算法假如空间中的五个点 A 各点之间的距离关系如表1所示根据所给的数据对其运行PAM算法实现划分聚类设k 2 初始中心点为A B 2020 3 27 43 PAM算法第一步建立阶段计算非中心点到中心点之间的距离样本被划分为 A C D 和 B E 第二步交换阶段假定中心点A B分别被非中心点 C D E 替换根据PAM算法需要计算下列代价TCAC TCAD TCAE TCBC TCBD TCBE 2020 3 27 44 PAM算法我们以TCAC为例说明计算过程替换之前的中心点为A B 替换之后的中心点为B C a 替换之前A到中心点的最小距离为0 替换之后A到中心点的最小距离为1 代价函数CAAC 1 b CBAC c CCAC d CDAC e 替换之前E到中心点的最小距离为2 替换之后E到中心点的最小距离为2 代价函数CEAC 0 因此 TCAC CAAC CBAC CCAC CDAC CEAC 1 0 2 1 0 2 2020 3 27 45 PAM算法完成计算TCAC TCAD TCAE TCBC TCBD TCBE 选取一个最小的代价完成中心点的替换这样就完成了一次迭代在下一迭代中将用其他的非中心点 A D E 替换中心点 B C 找出具有最小代价的替换一直重复上述过程直到代价不再减小为止 2020 3 27 46 层次聚类算法层次聚类方法对给定的数据集进行层次的分解直到某种条件满足为止具体又可分为凝聚的层次聚类一种自底向上的策略首先将每个对象作为一个簇然后合并这些原子簇为越来越大的簇直到某个终结条件被满足分裂的层次聚类采用自顶向下的策略它首先将所有对象置于一个簇中然后逐渐细分为越来越小的簇直到达到了某个终结条件层次凝聚的代表是AGNES算法层次分裂的代表是DIANA算法 2020 3 27 47 AGNES算法 AGNES AGglomerativeNESting 算法最初将每个对象作为一个簇然后这些簇根据某些准则被一步步地合并两个簇间的相似度有多种不同的计算方法聚类的合并过程反复进行直到所有的对象最终满足簇数目算法5 3AGNES 自底向上凝聚算法输入包含n个对象的数据库输出满足终止条件的若干个簇 1 将每个对象当成一个初始簇 2 REPEAT 3 计算任意两个簇的距离并找到最近的两个簇 4 合并两个簇生成新的簇的集合 5 UNTIL终止条件得到满足 2020 3 27 48 AGNES算法两个簇的距离可以通过以下定义得到若采用最小距离的定义簇与簇的合并方式称为单链接方法 2020 3 27 49 AGNES算法假如空间中的五个点 A 各点之间的距离关系如表1所示其中A B是一个簇 C D E是一个簇计算这两个簇的最小距离与最大距离 2020 3 27 50 AGNES算法使用AGNES算法对下面的数据集进行聚类 2020 3 27 51 AGNES算法使用AGNES算法对下面的数据集进行聚类 l 4l 3l 2l 1l 0ABCDE 2020 3 27 52 AGNES算法使用AGNES算法对下面的数据集进行聚类 l 4l 3l 2l 1l 0ABCDE 2020 3 27 53 AGNES算法使用AGNES算法对下面的数据集进行聚类 l 4l 3l 2l 1l 0ABCDE 2020 3 27 54 AGNES算法使用AGNES算法对下面的数据集进行聚类 l 4l 3l 2l 1l 0ABCDE 2020 3 27 55 AGNES算法层次聚类方法的终止条件设定一个最小距离阈值D 如果最相近的两个簇的距离已经超过D 则它们不需再合并聚类终止限定簇的个数k 当得到的簇的个数已经达到k 则聚类终止 2020 3 27 56 AGNES算法性能分析 AGNES算法比较简单但一旦一组对象被合并下一步的处理将在新生成的簇上进行已做处理不能撤消聚类之间也不能交换对象增加新的样本对结果的影响较大假定在开始的时候有n个簇在结束的时候有1个簇因此在主循环中有n次迭代在第i次迭代中我们必须在n i 1个簇中找到最靠近的两个聚类另外算法必须计算所有对象两两之间的距离因此这个算法的复杂度为O n2 该算法对于n很大的情况是不适用的 2020 3 27 57 DIANA算法 DIANA DIvisiveANAlysis 算法最初将所有样本放入一个簇然后选择一个簇根据某些准则进行分裂分裂的过程反复进行直到所有的对象最终满足簇数目选择被分裂的簇可以使用簇的直径作为准则 2020 3 27 58 DIANA算法算法5 4DIANA 自顶向下分裂算法输入包含n个对象的数据库输出满足终止条件的若干个簇 1 将所有对象整个当成一个初始簇 2 REPEAT 3 在所有簇中挑出具有最大直径的簇C 4 找出C中与其它点平均相异度最大的一个点p并把p放入splintergroup 剩余的放在oldparty中 5 REPEAT 6 在oldparty里选择一个点q 计算到splintergroup中的点的平均距离D1 计算q到oldparty中的点的平均距离D2 保存D2 D1的值 7 选择D1 D2取值最大的点q 如果D1 D2为正把q 分配到splintergroup中 7 UNTIL没有新的oldparty的点被分配给splintergroup 8 splintergroup和oldparty为被选中的簇分裂成的两个簇与其它簇一起组成新的簇集合 9 END 2020 3 27 59 DIANA算法使用DIANA算法对下面的数据集进行聚类 2020 3 27 60 DIANA算法使用DIANA算法对下面的数据集进行聚类选择直径最大的簇选择最大簇中平均相异度最大的点 2020 3 27 61 DIANA算法使用DIANA算法对下面的数据集进行聚类选择最大簇中平均相异度最大的点splintergroup为A oldpartygroup为B C D E在oldparty里选择一个点q 计算到splintergroup中的点的平均距离D1 计算q到oldparty中的点的平均距离D2 保存D2 D1的值 2020 3 27 62 DIANA算法使用DIANA算法对下面的数据集进行聚类选择直径最大的簇选择最大簇中平均相异度最大的点splintergroup为A oldpartygroup为B C D E在oldparty里选择一个点q 计算到splintergroup中的点的平均距离D1 计算q到oldparty中的点的平均距离D2 保存D2 D1的值 2020 3 27 63 DIANA算法 splintergroup为A oldpartygroup为B C D E 在oldparty里选择一个点q 计算到splintergroup中的点的平均距离D1 计算q到oldparty中的点的平均距离D2 保存D2 D1的值 2020 3 27 64 DIANA算法 splintergroup为A B oldpartygroup为C D E 在oldparty里选择一个点q 计算到splintergroup中的点的平均距离D1 计算q到oldparty中的点的平均距离D2 保存D2 D1的值由于D2 D1均为负值因此没有新的oldparty的点被分配给splintergroup 一次分裂结束 2020 3 27 65 DIANA算法使用DIANA算法对下面的数据集进行聚类选择直径最大的簇选择最大簇中平均相异度最大的点 ABCDE AB CDE 2020 3 27 66 DIANA算法使用DIANA算法对下面的数据集进行聚类选择直径最大的簇CDE选择最大簇中平均相异度最大的点E ABCDE 2020 3 27 67 DIANA算法使用DIANA算法对下面的数据集进行聚类选择直径最大的簇CD ABCDE E CD C D 2020 3 27 68 DIANA算法使用DIANA算法与AGNES算法结果比较 ABCDE 2020 3 27 69 Birch算法 Birch算法是层次聚类算法之一该算法引入了聚类特征和聚类特征树 ClusteringFeatureTree 聚类特征树的每个节点都可以用它的聚类特征 CF 表示形式为 N LS SS N为簇中样本的个数 LS为n个点的线性和 SS为样本的平方和 2020 3 27 70 Birch算法计算三个红色节点的CF特征 2020 3 27 71 Birch算法簇AB的CF特征为 2 1 1 1 1 簇CDE的CF特征为 3 6 7 14 17 簇ABCDE的CF特征为 5 7 8 15 18 若簇A的特征为 NA LSA SSA 簇B的特征为 NB LSB SSB 合并以后的簇AB的特征为 NA NB LSA LSB SSA SSB 2020 3 27 72 CF 树 CF树的参数每个非叶子节点最多有B个分支每个叶子节点最多有L个CF分支每个CF分支的直径不超过阈值TthresholdT 2020 3 27 73 Birch算法 Birch算法大致可以分为两个步骤 BIRCH扫描数据库建立一颗存放于内存的CF 树它可以看作数据的多层压缩试图保留数据内在的聚类结构 BIRCH采用某个选定的聚类算法对CF 树的叶子节点进行聚类把稀疏的簇当做离群点删除而把稠密的簇合并为更大的簇 2020 3 27 74 CF 树的构建从根节点开始自上而下选择最近的孩子节点到达叶子节点后检查最近的元组Li能否吸收新增的样本Ent是更新CF值否是否可以添加一个新的元组是添加一个新的元组否则分裂最远的一对元组作为种子按最近距离重新分配其它元组更新每个非叶节点的CF信息如果分裂节点在父节点中插入新的元组检查分裂直到root合并在某个非叶子节点Nj处停止分裂发现Nj中最近的两个元组并合并 2020 3 27 75 新增样本被吸收识别合适的叶节点从根节点开始逐层下降查找最近的孩子节点直至也节点如果新增的样本放入某个叶子节点仍满足最大直径不超过阈值T 则新增样本被吸收 Root LN1 LN2 LN3 sc1 sc2 sc4 sc5 sc6 sc7 LN1 LN2 LN3 sc1 sc2 sc4 sc5 sc6 sc7 sc8 sc8 Newsubcluster B 3 2020 3 27 76 新增新的节点从根节点开始逐层下降查找最近的孩子节点直至也节点如果新增的样本不放入任何叶子节点不满足阈值T 检查是否可以新增节点节点数是否小于B Root LN1 LN2 LN3 sc1 sc2 sc4 sc5 sc6 sc7 LN1 LN2 LN3 sc1 sc2 sc4 sc5 sc6 sc7 sc8 sc8 Newsubcluster B 3 2020 3 27 77 CF 树新增节点后某个节点的子节点数超过了平衡因子B 选择最远的两个节点作为种子进行分裂 Root LN1 LN2 LN3 sc1 sc2 sc3 sc4 sc5 sc6 sc7 LN1 LN2 LN3 sc1 sc2 sc3 sc4 sc5 sc6 sc7 sc8 sc8 Newsubcluster 2020 3 27 78 CF 树选择最远的两个节点作为种子进行分裂按最近距离重新分配其它元组更新每个非叶节点的CF信息 Root LN1 LN2 LN3 sc1 sc2 sc3 sc4 sc5 sc6 sc7 LN1 LN2 LN3 sc1 sc2 sc3 sc4 sc5 sc6 sc7 sc8 sc8 Newsubcluster LN1 LN1 2020 3 27 79 CF 树选择最远的两个节点作为种子进行分裂按最近距离重新分配其它元组 Root LN1 LN2 LN3 sc1 sc2 sc3 sc4 sc5 sc6 sc7 LN1 LN2 LN3 sc1 sc2 sc3 sc4 sc5 sc6 sc7 sc8 sc8 Newsubcluster LN1 LN1 2020 3 27 80 Birch算法在构造完成CF 树以后 BIRCH采用某个选定的聚类算法对CF 树的叶子节点进行聚类把稀疏的簇当做离群点删除而把稠密的簇合并为更大的簇这些聚类算法可以是k means 或者分层凝聚法等 BIRCH算法试图利用可用的资源来生成最好的聚类结果通过一次扫描就可以进行较好的聚类故该算法的计算复杂度是O n n是对象的数目 2020 3 27 81 第五章聚类方法内容提要聚类方法概述划分聚类方法层次聚类方法密度聚类方法其它聚类方法 2020 3 27 82 密度聚类算法密度聚类方法的指导思想是只要一个区域中的点的密度大于某个域值就把它加到与之相近的聚类中去这类算法能克服基于距离的算法只能发现类球形的聚类的缺点可发现任意形状的聚类且对噪声数据不敏感但计算密度单元的计算复杂度大需要建立空间索引来降低计算量且对数据维数的伸缩性较差这类方法需要扫描整个数据库每个数据对象都可能引起一次查询因此当数据量大时会造成频繁的I O操作代表算法有 DBSCAN OPTICS DENCLUE算法等 2020 3 27 83 DBSCAN算法 DBSCAN Density BasedSpatialClusteringofApplicationswithNoise 一个比较有代表性的基于密度的聚类算法与划分和层次聚类方法不同它将簇定义为密度相连的点的最大集合能够把具有足够高密度的区域划分为簇并可在有噪声的空间数据库中发现任意形状的聚类 2020 3 27 84 DBSCAN算法定义5 3对象的临域给定对象在半径内的区域定义5 4核心对象如果一个对象的临域至少包含最小数目MinPts个对象则称该对象为核心对象例如在下图中 1cm MinPts 5 q是一个核心对象 2020 3 27 85 DBSCAN算法定义5 5直接密度可达给定一个对象集合D 如果p是在q的邻域内而q是一个核心对象我们说对象p从对象q出发是直接密度可达的例如在下图中 1cm MinPts 5 q是一个核心对象对象p从对象q出发是直接密度可达的 2020 3 27 86 DBSCAN算法定义5 6密度可达的如果存在一个对象链p1 p2 pn p1 q pn p 对pi D 1 i n pi 1是从pi关于和MitPts直接密度可达的则对象p是从对象q关于和MinPts密度可达的例如在下图中 1cm MinPts 5 q是一个核心对象 p1是从q关于和MitPts直接密度可达 p是从p1关于和MitPts直接密度可达则对象p从对象q关于和MinPts密度可达的 2020 3 27 87 DBSCAN算法定义5 7密度相连的如果对象集合D中存在一个对象o 使得对象p和q是从o关于和MinPts密度可达的那么对象p和q是关于和MinPts密度相连的定义5 8噪声一个基于密度的簇是基于密度可达性的最大的密度相连对象的集合不包含在任何簇中的对象被认为是噪声 2020 3 27 88 DBSCAN算法描述 DBSCAN通过检查数据集中每个对象的邻域来寻找聚类如果一个点p的邻域包含多于MinPts个对象则创建一个p作为核心对象的新簇然后 DBSCAN反复地寻找从这些核心对象直接密度可达的对象这个过程可能涉及一些密度可达簇的合并当没有新的点可以被添加到任何簇时该过程结束 2020 3 27 89 DBSCAN算法描述 DBSCAN算法描述算法5 5DBSCAN输入包含n个对象的数据库半径最少数目MinPts 输出所有生成的簇达到密度要求 1 REPEAT2 判断输入点是否为核心对象 3 IF抽出的点是核心点THEN找出所有从该点密度可达的对象4 UNTIL所有输入点都判断完毕5 REPEAT6 针对所有核心对象的邻域所有直接密度可达点找到最大密度相连对象集合中间涉及一些密度可达对象的合并 7 UNTIL所有核心对象的邻域都被遍历 2020 3 27 90 DBSCAN算法举例下面给出一个样本事务数据库见左表对它实施DBSCAN算法根据所给的数据通过对其进行DBSCAN算法以下为算法的步骤设n 12 用户输入 1 MinPts 4 2020 3 27 91 DBSCAN算法举例 2020 3 27 92 DBSCAN算法举例样本4可达样本10 样本10可达样本 4 9 10 12 因此样本4的可达点和集合与样本10的可达点的集合是密度相连的因此这两个可达点的集合可以合并为一个簇最终的聚类结果为 1 3 4 5 9 10 12 为一个簇而 2 6 7 8 11 为一个簇 2020 3 27 93 OPTICS算法在前面介绍的DBSCAN算法中有两个初始参数邻域半径和minPts E邻域最小点数需要用户手动设置输入并且聚类的类簇结果对这两个参数的取值非常敏感不同的取值将产生不同的聚类结果其实这也是大多数其他需要初始化参数聚类算法的弊端为了克服DBSCAN算法这一缺点提出了OPTICS算法 OrderingPointstoidentifytheclusteringstructure OPTICS并不显示的产生结果类簇而是为聚类分析生成一个的簇排序这个排序代表了各样本点基于密度的聚类结构 2020 3 27 94 OPTICS算法定义5 5核心距离只有核心对象才能定义核心距离对象p的核心距离是指是p成为核心对象的最小例如在下图中 2cm MinPts 5 q是一个核心对象 q的核心距离不是2cm 而是R 2020 3 27 95 OPTICS算法定义5 5可达距离对象q到对象p的可达距离是指p的核心距离和p与q之间欧几里得距离之间的较大值如果p不是核心对象 p和q之间的可达距离没有意义例如在下图中 2cm MinPts 5 q是一个核心对象请问对象s到对象q的核心距离为多少对象t到对象q的核心距离又是多少 2020 3 27 96 OPTICS算法描述算法 OPTICS输入样本集D 邻域半径给定点在邻域内成为核心对象的最小领域点数MinPts输出具有可达距离信息的样本点输出排序1创建一个有序队列有序队列用来存储核心对象及其该核心对象的直接可达对象并按可达距离升序排列和一个结果序列结果序列用来存储样本点的输出次序 2如果所有样本集D中所有点都处理完毕则算法结束否则选择一个未处理即不在结果序列中且为核心对象的样本点找到其所有直接密度可达样本点并把该核心对象放入结果序列检查这些密度直接可达的点如果该样本点不存在于结果序列中则将其放入有序队列中并按可达距离排序 3如果有序队列为空则跳至步骤2 否则从有序队列中取出第一个样本点即可达距离最小的样本点进行拓展并将取出的样本点保存至结果序列中如果它不存在结果序列中 2020 3 27 97 OPTICS算法描述 3如果有序队列为空则跳至步骤2 否则从有序队列中取出第一个样本点即可达距离最小的样本点进行拓展并将取出的样本点保存至结果序列中如果它不存在结果序列中 3 1判断该拓展点是否是核心对象如果不是回到步骤3 否则找到该拓展点所有的直接密度可达点 3 2判断该直接密度可达样本点是否已经存在结果序列是则不处理否则下一步 3 3如果有序队列中已经存在该直接密度可达点并且新的可达距离小于旧的可达距离则用新可达距离取代旧可达距离有序队列重新排序 3 4如果有序队列中不存在该直接密度可达样本点则插入该点并对有序队列重新排序 4算法结束输出结果队列中的有序样本点 2020 3 27 98 OPTICS算法下面给出一个样本事务数据库见左表对它实施OPTICS算法根据所给的数据通过对其进行OPTICS算法以下为算法的步骤设n 12 用户输入 2 MinPts 4 创建一个有序队列和一个结果序列选择一个未处理即不在结果序列中且为核心对象的样本点找到其所有直接密度可达样本点检查这些密度直接可达的点如果该样本点不存在于结果序列中则将其放入有序队列中并按可达距离排序 2020 3 27 99 OPTICS算法有序队列为空集结果序列为空集样本1是核心对象核心距离为2 因此我们把样本1作为我们选择的核心对象把样本1放入结果序列其直接密度可达的点包括样本 2 4 5 检查这些密度直接可达的点如果该样本点不存在于结果序列中则将其放入有序队列中并按可达距离排序样本 2 4 5 的可达距离都是2 排序后有序队列为 2 4 5 从有序队列中取出第一个样本点进行拓展并将取出的样本点保存至结果序列中 2020 3 27 100 OPTICS算法有序队列为 2 4 5 结果序列为 1 拓展样本2 它是核心对象把它放入结果序列样本2的核心距离是计算它所有直接可达的点包括对象 1 3 4 5 其中1在结果序列中跳过 3添加到有序队列 4 5 更新它们的可达距离 3 4 5 的可达距离分别是2 按可达距离进行排序有序队列为 4 5 3 结果序列为 1 2 拓展样本4 2020 3 27 101 OPTICS算法有序队列为 4 5 3 结果序列为 1 2 拓展样本4 它是核心对象把它放入结果序列样本4的核心距离

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘--聚类课件ppt.ppt

文档简介

温馨提示

最新文档

评论

数据挖掘--聚类课件ppt.ppt

文档简介

温馨提示

最新文档

评论

相关文档