版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章聚类算法
无监督学习(UnsupervisedLearning)是指在样本标记信息未知的情况下,通过对样本的学习来找到数据本身的内在性质和规律。无监督学习可以用于数据分析或者监督学习的前处理,主要包含聚类(Clustering)、降维(DimensionalityReduction)、概率估计(ProbabilityEstimation)等。
其中聚类应用最为广泛,其基本思想是将样本中“相似”的样本聚为相同的类或簇,“不相似”的样本聚为不同的类。19.1聚类概述相似或者不相似的定义和标准不是固定的,而是根据数据本身的性质决定。依据形状聚类依据颜色聚类
依据不同的策略,可以设计不同的聚类算法,主要包括原型聚类、层次聚类以及密度聚类。29.1.1相似度1.样本相似度
常用的有距离(Distance)(闵可夫斯基距离(MinkowskiDistance)、马哈拉诺比斯距离(MahalanobisDistance))、相关系数(CorrelationCoefficient)、夹角余弦等。
聚类的核心概念是相似度,其度量方式有很多种,并直接影响聚类结果的好坏,具体哪一种更好取决于问题本身的特性。39.1.1相似度(1)闵可夫斯基距离(MinkowskiDistance)
49.1.1相似度
(2)马哈拉诺比斯距离(MahalanobisDistance)59.1.1相似度
(3)相关系数(相关系数绝对值越接近1表示样本越相似;越接近0表示样本越不相似)
(4)夹角余弦(夹角余弦的数值越接近1表示样本越相似;越接近0表示样本越不相似)69.1.1相似度(5)VDM(ValueDifferenceMetric)距离
79.1.1相似度(6)加权距离(WeightedDistance)
89.1.1相似度2.类(或簇)的相似度或距离
99.1.2
性能度量
聚类算法的性能度量是一种“有效性指标(ValidityIndex)”,评估类内样本的相似度,不同类别之间的相似度,用以评价聚类结果以及聚类算法的好坏。
109.1.2
性能度量
显然,DBI指数越小越好,DI指数越大越好119.2
原型聚类
129.2
原型聚类
算法流程:139.2
原型聚类
149.3
密度聚类
假设聚类结构可以通过样本分布的紧密程度确定,以数据集在空间分布上的稠密程度为依据进行聚类。
此类算法无需预先设定类别数量,因此适合于未知内容的数据集,代表算法有DBSCAN、OPTICS、DENCLUE等(本节只讨论DBSCAN)主要思想:
逐步检查数据集中的每个样本,如果其邻域内的样本点总数小于某个阈值,那么定义该点为低密度点;反之,如果大于该阈值,则称其为高密度点。如果一个高密度点在另外一个高密度点的邻域内,就直接把这两个高密度点划分为一个类别;如果一个低密度点在一个高密度点的邻域内,则将该低密度点加入距离它最近的高密度点的类别中;不在任何高密度点邻域内的低密度点,被划入异常点类别,直到最终处理整个数据集。基本概念:159.3
密度聚类DBSCAN算法
其核心是找到样本点的全部密集区域,并把这些密集区域当作不同的类别。如下图所示:
利用“邻域”(Neighborhood)的半径和最少点数(Minpoints,简记为Minpts)两个参数刻画样本分布的紧密程度。169.3
密度聚类将样本点分为以下三类:
179.3
密度聚类非密度相连(Non-densityConnected):如果两个点不属于密度相连关系,则两个点非密度相连。进一步定义四种样本点的关系:
189.3
密度聚类
任意选择一个没有类别的核心对象作为种子,然后找到所有这个核心对象能够密度可达的样本集合,即为一个类别。接着继续选择另一个没有类别的核心对象去寻找密度可达的样本集合,这样就得到另一个聚类簇,这样的得到都肯定是密度相连的,一直运行到所有核心对象都有类别为止。DBSCAN方法199.3
密度聚类
20
例:如下图所示:
9.3
密度聚类
219.3
密度聚类
229.3
密度聚类
239.3
密度聚类
249.3
密度聚类
259.3
密度聚类(2)可以在聚类的同时发现异常点,对数据集中的异常点不敏感。主要优点:主要缺点:(1)如果样本集的密度不均匀、聚类间距差相差很大时,聚类质量较差,这时DBSCAN聚类一般不适合。
269.4
层次聚类(假设类别之间存在层次结构,将样本聚到层次化的类别中)聚合(Agglomerative)/自下而上(Bottom-up)聚类——本节重点分裂(Divisive)/自上而下(Top-down)聚类
每个样本各分到一个类,之后将距离相近的两类合并,建立一个新的类别,重复此操作直到满足停止条件,得到层次化的类别。
将所有的样本分到一个类,之后将已有类中相距最远的样本分到两个新的类,重复此操作直到满足停止条件,得到层次化的类别。279.4
层次聚类Agglomerative聚类算法基本流程:
距离尺度:最短距离、最长距离、平均距离、Ward方差等对应算法:“单链接(Single-linkage)”、“全链接(Complete-linkage)”、“单链接(Average-linkage)”
、“Ward链接(Ward-linkage)”等289.4
层次聚类例:单链接Agglomerative聚类算法步骤:
299.4
层次聚类
309.4
层次聚类图解示例:Agglomerative聚类算法可在不同层次上对数据集进行划分,形成一个树状的聚类结构,可以指定类别数也可不指定。但Agglomerative聚类算法的时间和空间复杂度较高,不适合解决大型数据集聚类问题。319.5
本章小结
DBSCAN算法,不需要指定类别的数量,聚类的形状可以是任意的,能找出数据中的噪音,对噪音不敏感,算法应用参数少。但对于密度不均匀的样本集、聚类间距差相差很大的样本集,聚类质量较差,一般不适合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南省物流行业劳动合同样本3篇
- 2024年度土地抵押贷款合同书(2024版)3篇
- 2024年度土地储备项目配套地契协议合同书(含基础设施)3篇
- 学前教育学生实习报告1000字3篇
- 蒸汽管道安装施工方案
- 2024年度供应链金融延期还款保障协议3篇
- 2024年家具代购服务代理合同样本3篇
- 2024年01月福建海峡银行总行审计稽核部2024年诚聘英才笔试历年参考题库附带答案详解
- 2024年吴堡县县医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 2024年新型绿色环保建筑材料研发与应用合同范本3篇
- 上证50ETF期权隐含尾部风险信息对未来收益的预测研究
- 手拉葫芦安全使用培训课件
- 部编版九年级语文上册《丑奴儿博山道中壁》说课稿
- 《论语》中英对照(理雅各译)
- 2023年南京银行招聘人员笔试历年难、易错考点试题含答案附详解
- 2023年生态环境综合行政执法考试参考题库(400题)
- 化学中考模拟试题双向细目表
- 乔木、灌木种植专项施工方案
- 中职园林专业实训(校编)教案
- 继承法智慧树知到答案章节测试2023年中南财经政法大学
- 基础心电图诊断与应用智慧树知到答案章节测试2023年中山大学
评论
0/150
提交评论