机器学习-聚类_第1页
机器学习-聚类_第2页
机器学习-聚类_第3页
机器学习-聚类_第4页
机器学习-聚类_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、机器学习聚类汇报人:杨光1. 1. 聚类任务聚类任务有一天老板给你一堆数据,然后他说,你给我分类(聚类)出来21. 1. 聚类任务聚类任务聚类算法是一种无监督学习,我们区分监督学习和无监督学习的方法是看IN数据有无标签(Label)。31. 1. 聚类任务聚类任务4 在实际工作中,我们需要处理很多数据,标签获取需要极大的人工工作量。1. 1.聚类任务聚类任务引言聚类算法会将数据集中的样本划分成为若干个通常不相交的子集,每一个子集我们称之为“簇”。在聚类过程自动形成簇结构后,我们会发现每个簇里会存在一些潜在的概念,比如“黄种人”、“白种人”,“女性”、“男性”,这些是我们事先未知的,这些概念也是

2、由使用者来把握和命名的。51. 1.聚类任务聚类任务引言62. 2.性能度量性能度量引言目标:目标:尽量使聚类结果的“簇内相似度高” 且“簇间相似度低”两类指标:两类指标:7外部指标:与某个“参考模型”比较内部指标:直接考察聚类结果(不利用参考模型)2. 2.性能度量性能度量引言外部指标:外部指标: 82. 2.性能度量性能度量引言92. 2.性能度量性能度量引言10内部指标:内部指标: 2. 2.性能度量性能度量引言113. 3.距离计算距离计算引言距离度量dist(.,.)需要满足一些性质:12非负性: dist( xi, xj)0同一性: dist( xi, xj)=0当且仅当xi=xj

3、对称性: dist( xi, xj)= dist( xj, xi)直递性: dist( xi, xj) dist( xi, xk)+dist( xk, xj)3. 3.距离计算距离计算引言闵可夫斯基距离:闵可夫斯基距离:当给定样本我们最常用的是“闵可夫斯基距离” p1时,“闵可夫斯基距离”公式满足上述4个性质。p=1时,“闵可夫斯基距离”即“曼哈顿距离”。p=2时,“闵可夫斯基距离”即“欧氏距离”。133. 3.距离计算距离计算引言有序属性:1,2,3闵可夫斯基距离无序属性:飞机,火车,轮船 VDM143. 3.距离计算距离计算引言153. 3.距离计算距离计算引言164.4.原型聚类原型聚类

4、 k-meansk-means引言174.4.原型聚类原型聚类 k-meansk-means引言184.4.原型聚类原型聚类 k-meansk-means引言194.4.原型聚类原型聚类 k-meansk-means引言204.4.原型聚类原型聚类 LVQLVQ引言214.4.原型聚类原型聚类 LVQLVQ引言224.4.原型聚类原型聚类 LVQLVQ引言234.4.原型聚类原型聚类 LVQLVQ引言244.4.原型聚类原型聚类 LVQLVQ引言255. 5.密度聚类密度聚类引言265. 5.密度聚类密度聚类引言275. 5.密度聚类密度聚类引言285. 5.密度聚类密度聚类引言295. 5.密度聚类密度聚类引言305. 5.密度聚类密度聚类引言316. 6.层次聚类层次聚类引言32给定聚类簇Ci,Cj,可以通过下面的式子来计算距离:6. 6.层次聚类层次聚类引言336. 6.层次聚类层次聚类引言34以西瓜数据集4.0为例,令AGNES算法一直执行到所有样本出现在同一个簇中,即k=1,可以得到下面这个树状图9.126. 6.层次聚

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论