一种多粒度增量属性的聚类方法_第1页
一种多粒度增量属性的聚类方法_第2页
一种多粒度增量属性的聚类方法_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种多粒度增量属性的聚类方法

1基于密度峰值聚类的聚类算法聚类分析是研究对象分类的统计分析方法,是数据结构中最重要的概念。作为一种非监督的挖掘算法技术手段,它被广泛应用于许多实际应用中。它的优点是它不需要标记数据信息,因此计算量是可以增加的。现在数据的规模、种类、速度和复杂度都远远超过了人脑的认知能力,如何有效完成对大数据的认知,给传统聚类算法也带来了巨大挑战近年来,对大数据有效信息的获取需求越来越高,增量式方法在数据挖掘中尤其是在聚类分析中变得非常流行,解决动态数据集的聚类逐渐成为一个新的研究方向.如今,研究者们已经提出了一些增量聚类算法,ZhangC不过上述的增量聚类研究都是基于数据对象增加而出现的,目前针对属性向量增长的研究相对较少.属性就是概念的内涵,是针对对象不同角度的认识.在实际生活中第一次观察某一对象,并不能得到其全部的信息,随着研究的深入,对于该对象不同方向的认识会更加的清晰,对于这种对象属性增长的情况,目前并没有很好的方法对其进行处理.基于这样的一个问题,随着人工智能的兴起,粒计算在数据挖掘领域应用越来越多,专家学者们也就发现了粒计算与聚类分析之间的相关关系数据的井喷导致单纯的粒度计算已经不能对数据进行有效地挖掘,有些学者开始考虑将多个粒度的思想与聚类算法相结合来处理问题.ZhangHB随着大数据时代的来临,数据和环境无时无刻不在发生变化,传统的粒度聚类算法,其往往只能适用于静态数据集的聚类,在处理动态的增量数据时将造成前期聚类结果可靠性的丧失,而如果重新进行聚类必然会造成效率低下和计算资源的急速增长本文以粒计算等处理不确定性问题的方法,提出一种多粒度增量属性的聚类方法对数据属性增长的聚类问题进行求解.本方法利用密度峰值算法2相关定义2.1不确定性集u的归一化处理设有n个待聚类数据对象,每个数据对象由l个属性粒来表示,根据实时数据构造矩阵:在不确定性的数据集U中,属性粒为m显而易见,不同的粒可能具有不同的量纲,因此需要对属性粒进行归一化处理,相应的计算公式,如公式(1)所示:其中i∈[1,n],j∈[1,l].粒度层g如图1所示,在粒度的增量过程中,g2.2基于不同粒度增量属性的聚类方法本文提出的多粒度增量属性聚类方法流程如图2所示.如图2中所示,本文的多粒度增量属性聚类方法首先利用初始聚类算法(初始聚类算法(ICM)详细描述在2.1节)将初始的粒度g算法1.多粒度增量属性聚类方法(Multi-GranularityIn-crementalAttributeClusteringMethod,MGIAC)3基于密度峰值聚类算法的多粒度增量属性聚类算法人们在分析问题时往往从不同的角度、不同的层次触发,其主要是大脑在多次处理同一问题时,随着时间环境等变化,会自行的分析并利用经验和专业知识去刻画与对象与之相应的认识,即每一次看待同一个问题,在上一次认识的基础上都可能出现新的发现.本文所提出的多粒度增量属性聚类算法分为两个部分:第一部分为初始聚类(图2中矩形虚线部分),主要采用密度峰值聚类算法3.1初始集合在本文中初始聚类文献算法2.初始聚类算法(Initialclusteringmethod,ICM)3.2增量属性聚类在实际生活中,人们对于不同事物的认识,往往是渐进式的,首先是对于一个对象的模糊刻画,然后随着时间和环境的改变,出现了不同方面的认知,使得对象的认识更加的清晰,即人类认知不是机械的掌握一个粒度上,而是通过对每个粒度的信息的掌握,以多粒度的处理方式将信息进行细化、更新,达到了对事物的结构化认识.同时长期与你生活的人,往往在很多地方有着相似性,例如从事的职业或者生活习惯等,那么在对于外界而言,可以把你们认为是同一类人,由此我们将这两种思想,借鉴到我们的增量属性聚类算法中.在这项工作中,随着时间或环境的变化,在某一时刻出现了新的属性粒集合g利用公式(2)计算G然后统计对象x算法3.增量属性聚类算法(Incrementalattributecluste-ringmethod,IAC)4密度峰值聚类算法的时间本文的算法采用C++语言并在工具VisualStudio2012上实现,所有实验都在内存为8GRAM、CPU频率为2.70GHz计算机上运行.在本节中,在UCI上的一些真实数据集验证了本文提出的方法.表2给出了关于数据集的信息.Iris如表3所示,以Iris为例,首先利用密度峰值聚类算法如表3中所示,Time(MGIAC)表示本文的多粒度增量属性聚类算法从初始聚类然后经过一次或数次增量属性聚类的有运行时间,而Time(DPC)则是利用密度峰值算法对应增加属性次数的重复聚类所相加的时间(如Iris的Time(DPC)为利用密度峰值聚类算法重复聚类两次的时间).从表3中数据得本文提出的多粒度增量属性聚类算法的时间优于密度峰值聚类时间(Time(MGIAC)<Time(DPC));同时如表3所示,单次的增量聚类的时间也同样优于密度峰值聚类算法在相应的数据集上计算的时间(Time对于Iris、Lvst、Heart、Contraceptive这4个数据集,由表3可得本文的多粒度增量属性的聚类方法其聚类精度Acc(MGIAC)略优于完整数据集在密度峰值聚类算法计算下的聚类精度Acc(DPC).其中我们认为,MiceProtein数据集偏差的原因在于该数据集每个对象间的距离比较接近,并且类簇相对较多,使得本文方法的聚类结果较差.5基于增量属性的属性增长聚类方法,基于ui在生活中,对于事物的发现都是渐进式的.很多时候,第一次的观察往往不能完全的描述出事物的特性,而第二次观察一般不会抛弃第一次观察出现的特性,其都是建立在第一次基础上来做出评价的.针对对象数目未改变,而描述对象的粒随着环境与时间的出现递增的研究,目前涉及的比较少.因此本文针对这样属性增长的情况,提出了一种多粒度增量属性的聚类方法,与一般增量聚类方法不同,该方法针对属性粒增长的情况,通过对邻域对象类簇归属的统计,以此推测增量后对象

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论