机器学习 课件 第8章 聚类_第1页
机器学习 课件 第8章 聚类_第2页
机器学习 课件 第8章 聚类_第3页
机器学习 课件 第8章 聚类_第4页
机器学习 课件 第8章 聚类_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第8章聚类《机器学习》胡晓8.1聚类基本理论

8.1聚类基本理论

相似性测度在聚类算法,样本间相似度通常需要采用两个样本之间的“距离测度(DistanceMetric,DM)”进行衡量。

常见距离:欧氏距离、曼哈顿距离、闵可夫斯基距离、值差异值测度8.1聚类基本理论类簇中心类簇中心,又称为簇质心,定义为簇内样本分布中心,如图8.1中每簇的中心点。然而,不同聚类算法定义各有差别,简单分为两种:K均值聚类簇中心

基于密度的类簇中心AlexRodriguez和AlessandroLaio在Science期刊文章中提出:类簇中心周围都是密度比其低的点,同时这些点距离该簇中心的距离相比于其他聚类中心最近。8.1聚类基本理论聚类算法评价指标

纯度(Purity)将每个簇内频数最高的样本类别作为正确的类簇,聚类熵

8.1聚类基本理论聚类算法评价指标同质性也叫均一性,一个类簇中仅有一个类别的样本,均一性最高同质性(Homogeneity)

相当于精确率,即被聚类的类簇中正确分类的样本数占该类簇中的样本数的比例,

8.1聚类基本理论聚类算法评价指标完整性(Completeness)同类别的样本被归类到同一聚类簇中,则满足完整性。相当于召回率,即每个聚类中正确分类的样本数占该类别样本的数量,

8.1聚类基本理论聚类算法评价指标兰德指数和调整兰德指数

8.2K均值聚类

8.3层次聚类层次聚类(hierarchicalclustering)是基于簇间的相似度的树形聚类算法。一般有两种划分策略:自底向上的凝聚策略和自顶向下的分拆策略。凝聚策略

分拆策略

初始时将每个样本点当做一个类簇,然后依据相似度准则合并相似度最大的类簇,直到达到终止条件。

8.4密度聚类

密度聚类(Density-BasedSpatialClustering)是一种基于密度的聚类算法。8.4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论