《机器学习项目案例开发》课件 8.2聚类-DBSCAN_第1页
《机器学习项目案例开发》课件 8.2聚类-DBSCAN_第2页
《机器学习项目案例开发》课件 8.2聚类-DBSCAN_第3页
《机器学习项目案例开发》课件 8.2聚类-DBSCAN_第4页
《机器学习项目案例开发》课件 8.2聚类-DBSCAN_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能技术与应用8.DBSCAN聚类课程概况—基本情况PART01聚类算法DBSCAN算法概述DBSCAN参数DBSCAN流程DBSCAN优缺点DBSCAN概念DBSCAN聚类算法:Kmenas聚类缺点:

①K值难确定;②受初始值影响较大;③复杂度与样本规模呈线性关系;④很难发现任意形状的簇。聚类的应用:DBSCAN算法是密度聚类算法,所谓密度聚类算法就是说这个算法是,根据样本的紧密程度来进行聚类DBSCAN算法基本概念:r邻域:给定对象半径为r内的区域称为该对象的r邻域。如图,P对象在半径r内构成的圆就是该对象的r邻域,如图1。核心对象:如果给定对象r邻域内的样本点数大于等于MinPoints,则称该对象为核心对象;如图2:设置MinPoints的点为2,那么在对象p的e领域内有4个点,大于MinPoints,那么p对象就是核心对象。ε-邻域的距离阈值:设定的半径r直接密度可达:如果样本点q在p的r邻域内,并且p为核心对象,那么对象p-q直接密度可达,如图3。rrrDBSCAN概念DBSCAN算法基本概念:密度可达:若有一个点的序列q0、q1、…qk,对任意qi-qi-1是直接密度可达的,则称从q0到qk密度可达,这实际上是直接密度可达的“传播”,如图1,q-p密度直达,m-q密度直达,那么m-p密度可达。密度相连:若从某核心点p出发,点q和点k都是密度可达的,则称点q和点k是密度相连的,如图2:q-o是密度可达,p-o是密度可达,q-p是密度相连。在DBSCAN中那些样本可以看成一个类(也称簇)。即最大的密度相连的样本集合。DBSCAN概念密度可达与密度直达:图中MinPts=5,红色的点都是核心对象,因为其ϵ-邻域至少有5个样本。黑色的样本是非核心对象。所有核心对象密度直达的样本在以红色核心对象为中心的超球体内,如果不在超球体内,则不能密度直达。图中用绿色箭头连起来的核心对象组成了密度可达的样本序列。在这些密度可达的样本序列的ϵ-邻域内所有的样本相互都是密度相连的。DBSCAN概念DBSCAN算法基本概念:边界点:属于某一个类的非核心点,不能发展下线了,如图中B、C点就是边界点。噪声点:不属于任何一个类簇的点,从任何一个核心点出发都是密度不可达的,如图N点。A核心对象、BC边界点、N离群点DBSCAN概念DBSCAN流程:参数D:输入数据集:参数Ꜫ:指定半径MinPts:密度阀值DBSCAN工作流程参数选择:参数Ꜫ:半径ϵ,可以根据K距离来设定:找突变点K距离:给定数据集P={p(i);i=0,1,…n},计算点P(i)到集合D的子集S中所有点之间的距离,距离按照从小到大的顺序排序,d(k)就被称为k-距离。MinPts:k-距离中k的值,一般取的小一些,多次尝试可视化:https:///blog/visualizing-dbscan-clustering/https:///blog/visualizing-k-means-clustering/DBSCAN参数选择DBSCAN优缺点DBSCAN优缺点优势:

不需要指定簇个数擅长找到离群点(检测任务)可以发现任意形状的簇两个参数就够了缺点:缺点:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论