版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析是一个较为严密的数据分析过程。从聚类对象数据源开始到得到聚类结果的知识存档,共有四个主要研究内容聚类分析过程:
1984年,Aldenderfer等人提出了聚类分析的四大功能:一是数据分类的进一步扩展;二是对实体归类的概念性探索;三是通过数据探索而生成假说;四是一种基于实际数据集归类假说的测试方式。在很多情况下,样本数据集并没有分类,即每一个数据样本都没有分类标签。一般而言,聚类指将没有分类标签的数据集,分为若干个簇的过程,是一种无监督的分类方法。实际上,很难对聚类下一个明确的定义。2001年,Everitt等人甚至指出提出聚类的正式定义不仅困难而且也没有必要,因为聚类分析本身是一种建立在主观判断基础上的相对行之有效的方法。Hansen也已经作了数学上的阐述,给定一个数据样本集:
这里,Xj表示一个向量,称为样本点或者样本;
Xjd表示一个变量,通常称为属性、特征、变量或维等。划分聚类将数据集分为K个簇,需满足:而层次聚类是将数据集构建成一种树状的结构,即:由于聚类分析属于一个交叉研究领域,融合了多个学科的方法和技术,故可以从多种角度、多个层次来分析现有的聚类分析算法。Agarwal关于数据聚类的经典长文从统计模式识别的视角总结了1999年之前的经典模式聚类方法;QianZhou从聚类标准、聚类表示及算法框架角度分析了多个流行的聚类算法;Grabmeier和Rudolph从数据挖掘的角度(如相似度和距离度量的严格区分、应用到聚类中的相关优化标准等)分析了一些聚类方法,还讨论了IBM公司的智能挖掘器(IntelligentMiner)中聚类算法的使用演示等等。传统的聚类算法大致可以分为划分聚类方法、层次聚类方法、密度聚类方法、网格聚类方法、模型聚类方法等。近年来,量子聚类方法、谱聚类方法、粒度聚类方法、概率图聚类方法、同步聚类方法等也流行起来。聚类算法的研究已经开展了几十年,迄今为止,已公开发表了近千种聚类算法,但没有一种聚类算法敢声称是通用的、普适的。
聚类算法的分类聚类算法一般可以用基于划分、基于层次、基于密度、基于网格、基于模型、基于图等方式来进行分类。基于划分的聚类算法基于划分的聚类算法通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类。多数基于划分的聚类算法都是非常高效的,但需要事先给定一个在聚类分析前难以确定下来的聚类数目。k-means算法和
FCM(FuzzyCMeans)算法是该类型中最著名的两个算法。K-Means聚类基于层次聚类算法层次聚类方法使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构图,其时间复杂度至少为T=O(n2logn)。层次聚类算法通常分为两种:第一种是凝聚的层次聚类算法,它首先把每个数据点看作是一个聚类,然后以一种自底向上的方式通过不断地选择最近邻居聚类对的合并操作,最终可以构造出一棵代表着该数据集聚类结构的层次树。第二种是分裂的层次聚类算法,它首先把所有的数据点看作是一个聚类,然后以一种以自顶向下的方式通过不断地选择最松散簇进行分裂操作,最终可以构造出一棵代表着该数据集聚类结构的层次树。
基于密度的聚类算法基于划分的聚类算法通常更适合于发现凸形聚类簇,但对于任意形状的聚类簇,它就显得有些力不从心了。基于密度的聚类算法试图通过稀疏区域来划分高密度区域以发现明显的聚类和孤立点,主要用于空间型数据的聚类。DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)算法就是一个最为著名的基于密度的聚类算法。
DBSCAN对参数设置的敏感表现基于网格的聚类算法基于网格的聚类算法是一种基于网格的具有多分辨率的聚类方法。它首先将数据集的分布空间划分为若干个规则网格(如超矩形单元)或灵活的网格(如任意形状的多面体),然后通过融合相连的带数据概要信息的网格来获得明显的聚类。显然,几乎所有的基于网格的聚类算法都属于近似算法,它们能处理海量数据。这类算法的优点是处理时间与数据点的数目无关、与数据的输入顺序无关,可以处理任意类型的数据。其缺点是处理时间与每个维度上所划分的单元数相关,一定程度上降低了聚类的质量和准确性。STING(STatisticalINformationGrid)算法和CLIQUE(CLusteringInQUEst)是基于网格的聚类算法的典型代表。
CLIQUE算法基于模型的聚类算法基于模型的聚类算法借助于一些统计模型来获得数据集的聚类分布信息。该方法假定数据集是由有限个概率分布模型共同作用生成的。在这种方法中,多变量的高斯分布混合模型应用最为广泛。其中,Fish提出的
COBWEB、Gennarim提出的CLASSI、Cheeseman和Stutz提出的AutoClass是较为有名的几个模型聚类方法。在实际应用中,有时使用基于模型的聚类算法或其他聚类算法来获取数据集的聚类中心点集,然后再用学习向量化方法来构造分类器。
基于图的聚类算法采用图聚类方法进行聚类分析时,首先是建立与具体问题相适应的图。图的结点代表被分析数据的基层单元,图的边代表基层单元数据之间的相似性度量(或相异性度量)。通常,每个基层单元数据之间都会有一个度量表达,这样可以保持数据集的局部分布特性。图聚类方法是以数据集的局部连接特征作为聚类的主要信息源,因而易于处理局部数据的特性。Karypis提出的变色龙算法也可看作是一种图聚类算法。
小数据聚类和大数据聚类然而,在大数据时代背景下,随着数据量的不断增加及其数据形态的日益多样化,聚类算法的应用更加广泛;同时对算法本身也提出了更高的要求。ZHANGYonglai,ZHOUYaojian依据有效数据量10字节为阈值,将聚类算法分为小数据聚类和大数据聚类两大类。小数据聚类主要体现的是聚类的基本思想,而大数据聚类的思想主要体现在理念、体系结构与架构等几个方面,至于底层聚类的具体实现算法,其实与小数据聚类算法并没有本质上的差别。换言之,大数据聚类的具体实施算法依然采用小数据聚类技术。
21世纪是一个信息化、数据化和知识化的时代,信息技术正改变着人类社会的方方面面。随着数据挖掘的兴起,聚类方法开始用于分析实际问题中经常出现的具有多种类型属性和复杂分布结构的数据集。现如今,聚类研究及其应用领域非常广泛,已经应用到多个领域,如机器学习、模式识别、图像处理、信息检索、IP地址定位等。聚类算法是伴随着统计学、计算机学与人工智能等领域的发展而逐步发展起来的科学,因此,当这些领域有比较快速
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山西公务员面试模拟14
- 山西公务员面试模拟52
- 第3章 一元一次不等式 浙教版数学八年级上册单元培优测试卷(含答案)
- 2024年工程机械买卖合同样本
- 2024年旅行社餐厅合作协议合同
- 建筑机电工程质量通病与预防措施
- 湖北公务员面试模拟23
- 二手车标准买卖合同范本2024年
- 广东行政职业能力模拟32
- 2024年酒销售合同
- 论十大关系全文
- ASTM-E505 标准图谱参考资料 标准讲义
- 三年级上册语文课件-《24司马光》(共15张PPT) 人教部编版
- 尺骨冠状突骨折护理查房课件
- 高校辅导员培训PPT课件:学生常规管理及技巧
- 仿写教学案例
- 《逻辑的力量》课件-统编版高中语文选择性必修上册
- 中小学教师高级职称晋升英语学科全英讲课答辩真题
- (新版)餐饮服务食品安全考试题库(含答案)
- 部编版语文五年级上册八单元集体备课
- 江苏省常州市各县区乡镇行政村村庄村名居民村民委员会明细
评论
0/150
提交评论