0b924数据挖掘及应用第7讲聚类分析_第1页
0b924数据挖掘及应用第7讲聚类分析_第2页
0b924数据挖掘及应用第7讲聚类分析_第3页
0b924数据挖掘及应用第7讲聚类分析_第4页
0b924数据挖掘及应用第7讲聚类分析_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7 图•聚类分析基•数据类型与距离计•离群点检•聚类分析基•数据类型与距离计•离群点检一个好的聚类分析方产生高质量的聚类时能表现出高效数字型;二元类型,分类型/标称型,序数型,比例标度型等对 数据,参数很难决定,聚类的质量也很难控对空缺值、离群点、数据噪声不敏性的数据往往比较稀松,而且高度倾找到既满足约束条件,又具有良好聚类特性的数据分聚类要和特定的 释和应用相联•聚类分析基•数据类型与距离计•离群点检 …区间标度变二元变标称型、序数型和比例标度型变混合类型的变qq

id(i,j)q(| i

|

xj2

...|

Object aObjecti ac bd

d(i,j) babcad(i,j)b abpd(i,j)pp红绿蓝黄0100绿0010蓝比如:讲师 、正教授1.设第i个对象的f值为xif,则用它在值中的序rif代

r{1,...,M2.将每个变量的值域映射到[0,1]的空

rif Mf3.采用区间标度变量的相异度计算方法计算f的相异AeBtorAe- yif=将xif看作连续的序数型数据•聚类分析基•数据类型与距离计•离群点检划分方层次的方基于密度的方基于模型的方每个组至少包含一个每个对象属于且仅属于一个k中心点算自顶向下方法():开始将所有的对象置于一个簇中,在迭代的每一步,一个簇被为多个更小的簇,直到最终每个对象在一缺点:合并或的步骤不能被撤 优点:可以过滤掉“噪声”和“离群点”,发现任意形状的这种方法同时也用于自动的决定数据集中聚类的数随机选择k个对象,每个对象代表一个簇的初始均值或中计算每个簇的新均回到步骤2,循环,直到准则函数收

9879876543210 9876543210

98769876543210 9876543210

99876543210 用户必须首先给定簇不适合发现非凸形状的簇,或者大小差别很大的一个具有很 值的对象可能显著 数据的分平方误差函数将进一步严 这种影降低算法对离群E pj pC 首先随意选择初+p+ +p+ 1.重新分配给 2.重新分配给++p ++p 3.不发生变 4.重新分配给总代价为负,实际的绝对误差E将减少,Oj可以被Orandom所取总代价为正,则本次迭代没有变中心点较少的受离群点影k中心点方法:O(k(n-两种方法都要用户指定簇的数目 模型GaussianMixtureModel 每个样本点是k 模型代表了一个类(Component样本点在k 估计数据由每个Component生成的概率(并不是每个第i个Component生成的概率为 3、重新计算新生成的这个类与各个旧类之间的相似4、重复2和3直到所有样本点都归为一类,结束GroupAverage-middle:取两两距离的中不易受到噪声干倾向把大聚类分成小倾向球状聚受噪音或异常点影响比较偏向球形聚 首先使用树结构对对象进行层次划分,形成微簇,然后再聚基于簇之间的关综合簇的互联性和近邻DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)具有噪声的基于密度的聚类应 例如,ε=1cm,MinPts=5,q是一 对象 110240304421378

110240304421378点112无222无333无44553无新点加入簇6将点加入到簇C1中10,12}处理簇C1中的793无新点加入簇82无新点加入簇C1。簇C1完毕,继续遍历的963无782无新点加入簇21无通 距离和可达距离优先密度高的点汇根据数据构造一个Graph,Graph的每一个节点对应一出来,记为W。 中的一个向量,并使用K-是原来Graph中的节点亦即最初的个数据点分别所属的Minimum单点分割问 RatioNormalized如何选择 •聚类分析基•数据类型与距

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论