![基于优化粒计算下微粒子动态搜索的K-medoids聚类算法_第1页](http://file4.renrendoc.com/view/4043f81649441029a85b1411c0b939bb/4043f81649441029a85b1411c0b939bb1.gif)
![基于优化粒计算下微粒子动态搜索的K-medoids聚类算法_第2页](http://file4.renrendoc.com/view/4043f81649441029a85b1411c0b939bb/4043f81649441029a85b1411c0b939bb2.gif)
![基于优化粒计算下微粒子动态搜索的K-medoids聚类算法_第3页](http://file4.renrendoc.com/view/4043f81649441029a85b1411c0b939bb/4043f81649441029a85b1411c0b939bb3.gif)
![基于优化粒计算下微粒子动态搜索的K-medoids聚类算法_第4页](http://file4.renrendoc.com/view/4043f81649441029a85b1411c0b939bb/4043f81649441029a85b1411c0b939bb4.gif)
![基于优化粒计算下微粒子动态搜索的K-medoids聚类算法_第5页](http://file4.renrendoc.com/view/4043f81649441029a85b1411c0b939bb/4043f81649441029a85b1411c0b939bb5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于优化粒计算下微粒子动态搜索的Kmedoids聚类算法 宋红海 颜宏文摘 要:K-medoids算法具有对初始聚类中心敏感,聚类准确度不高及时间复杂度大的缺点。基于此,文中提出一种优化的K-medoids算法;该算法在已有的粒计算初始化基础上进行了改进,以对象之间的相似性作为判断依据,结合最大最小法初始化聚类中心,能有效地获取最佳或近似最佳的聚类中心;在优化的粒计算前提下,提出了基于微粒子动态搜索策略,以初始中心点作为基点,粒子内所有对象到其中心的平均距离为半径,形成一个微粒子;在微粒子内部,采用离中心点先近后远的原则进行搜索,能有效地缩小搜索范围,提高聚类准确率。实验结果表明:在UCI多
2、个标准数据集中测试,且与其他改进的K-medoids算法比较分析,该算法在有效缩短收敛时间的同时保证了算法聚类准确率。关键字:聚类;K-medoids算法;粒计算;相似性;微粒子动态搜索文献标志码: A :TP301.6:2095-2163(2016)02-Novel K-medoids clustering algorithm based on dynamic search of Microparticlesunder optimizedgranular computingSONG Honghai,YAN Hongwen( Institute of Computer and Communic
3、ation Engineering, Changsha University of Sciences and Technology, Changsha Hunan 410114, China)Abstract:The K-medoids algorithm has the disadvantage of sensitivity to cluster center initialization, low clustering accuracyand high the time complexity. So this paper proposes an optimized K-medoids al
4、gorithm; this algorithm has been initialized on the basis of granular computing which takes the similarity between objects as the basis to judge, and combined with the maximum and minimum cluster center initialization method the best or near-best cluster centercan be effectively accessed; Under the
5、precondition of optimization of granular computing, the paper puts forward the dynamic search strategy based on the microparticles, the initial center as a base, all objects within the particles to an average distance of the center of the radius, form a microparticle; In microparticles inside, using
6、 the first after nearly far from the center of the principle of search, can effectively narrow the search, increase the clustering accuracy. Tested on a number of standard data sets in UCIand compared with other improved K-medoids algorithm, the experimental results show that this new algorithm reud
7、uces the convergence time effectively and improves the accuracy of clustering.Key word:clustering; K-medoids algorithm; granular computing;similarity; microparticles dynamic search0 引言聚类就是将拥有不同属性的事物划分成不同类的过程,不依赖于先验信息,只需考虑数据本身的特征属性以及数据间的相互关系1,同一类内的事物属性具有高质的相似性,不同类之间的属性则具有高度不相似性。作为一种重要的数据分析方法,聚类已经成为一种
8、实用开发工具,广泛地应用到数据挖掘、模式识别、信息检索和图像处理等领域。在时下经典的聚类算法中,K-medoids算法具有了较为普遍应用性。算法优点是实现思想简单,搜索能力强等,但也存在对初始化聚类中心敏感,时间复杂度较高,精确度不高等问题。针对这一特征状况,有大量学者提出了许多改进的算法:文献2-4提出了运用粒计算的思想来初始化 K-medoids 聚类中心,从而降低了时间复杂度,增强了局部搜索能力,但由于粒子多会表现出一定的随机性,使得准确率未获提高;文献5提出了一种改进粒计算的K-medoids算法,在相当程度上改善了K-medoids算法对初始化聚类中心敏感的问题,但因其搜索能力不强,
9、导致精确度也未见可观增长;,进一步地,文献6则提出一个基于最小支撑树的初始化聚类中心方法,有效解决了初始化敏感的问题,但却增加了时间复杂度;另外,文献7-8又采用相异度矩阵来记录样本之间的距离,增强了局部搜索能力,同时降低了时间复杂度。综上可知,各研究文献从不同方面对K-medoids算法实施了改进与优化,并已取得了一定的成果,但也存在明显的局限性,具体就是时间复杂度和准确度不能兼顾:有些以增加时间复杂度为代价来提高准确度,有些是以牺牲准确度来降低时间复杂度;还有一些则只是针对某种特定的数据。基于此,在现有粒计算的基础上,本文提出了一种基于优化粒计算初始化,微粒子动态搜索的K-medoids算
10、法。1 传统的K-medoids算法K-medoids聚类算法根据K-means算法的思想改进而来9,是一种划分的方法,能够有效地处理异常数据和噪声数据,且具良好的鲁棒性。算法中采用欧氏距离来衡基于粒计算初始化步骤如下:3 算法的改进3.1 粒计算的改进基于粒计算初始化的步骤6改进如下:前2个初始化中心保持不变,仍然分别是粒子密度最大粒子的中心和距密度最大粒子最远且密度最大的粒子的中心,记为 和 ;对于剩下的粒子不是以欧氏距离作为依据,而是以对象间的相似度为依据,结合最大最小法,分别计算出剩余粒子的中心与 的相似度,记为 ,取 ,例如取第三个初始化中心时,分别计算出 ,则 ,依次类推,得到 个
11、初始化聚类中心。4.2基于微粒子动态搜索基于改进的粒计算初 始化后,同一粒子中的对象具有高密度和高相似度,即同一粒子中的对象很大程度上可能属于同一簇,可以判定与初始化中心相近的对象是最优聚类中心的候选集。因此,提出一种基于微粒子动态搜索的策略。3.2.1 新概念粒子中对象到其中心的平均距离,对其数学定义可表述为:其中, 是粒子 中对象 与中心 的欧氏距离, 是粒子 所包含对象的个数。定义5 微粒子:以某一对象为基点,粒子中所有对象到粒子中心的平均距离为半径r,这样包含若干个对象的封闭区域。3.2.2 微粒子搜索过程以初始化中心 为基点,粒子 中所有对象 的平均距离 为半径,这样形成的圆区域内所
12、包含的对象为一个微粒子;在微粒子内,以离初始化中心点 最近的对象作为新的聚类中心,根据准则函数可进行如下判断:若新的准则函数 小于原准则函数 ,即 ,则用新的聚类中心点代替原中心点;再以新的聚类中心点为基点, 为半径,形成新的微粒子,在新的微粒子中应用上述搜索策略。若新的准则函数 大于原准则函数 ,即 ,则中心点不变;采取先近后远的原则,以离初始化中心点 次近的对象作为新的聚类中心点,计算准则函数。依此类推,直至找到最佳聚类中心。在粒计算有效初始化的前提下,基于微粒子动态搜索,缩小了寻找最佳聚类中心的范围,提高了搜索的效率。改进算法的实现过程可具体描述如下:综上所述,实验从改进算法的准确率和收
13、敛时间两个方面,与其他算法进行了对比。由实验可知文中算法能够收敛于最佳中心或最相似中心,提高了聚类的准确率和缩短了其运行的时间,尤其在相对较大的数据集上,文中算法的聚类效果明显优于其他算法。5 结束语K-medoids算法具有对初始聚类中心敏感,聚类准确度不高及时间复杂度大的缺点。文中提出了一种新的K-medoids算法,该算法采用改进的粒计算来克服K-medoids算法对初始化敏感问题,使用基于微粒子动态搜索策略改善了K-medoids算法全局搜索的能力,提高了算法精确度,同时也缩短了其收敛的时间。文中算法与其他改进的K-medoids算法作了对比,通过对比验证了文中算法的可行性与有效性。R
14、eference:1马儒宁,王秀丽,丁军娣.多层核心集凝聚算法J.软件学报,2013,23(3):490-506.2王永贵,林琳,刘宪国.基于改进粒子群优化的文本聚类算法研究J计算机工程,2014,40(11):172-177.3马箐,谢英娟.基于粒计算的K-medoids 聚类算法J.计算机应用,2012,32(7):1973-1977.4姚丽娟,罗可,孟颖.一种基于粒子群的聚类算法J.计算机工程与应用,2012,48(13):150-153.5潘楚,罗可.基于改进粒计算的 K-medoids 聚类算法J.计算机应用,2014,34(7):1997-2000.6李春生,王耀南.聚类中心初始化
15、的新方法J.控制理论与应用,2010,27(10):1436-1440.7陶新民,徐晶,杨立标等.一种改进的粒子群和 K均值混合聚类算法J.电子与信息学报,2010,32(1):93-97.8HAE-SANG,PARK,CHI-HYUCKJ.Asimpleand fastalgorithmforK-medoidsclusteringJ.ExpertSystems with Applications,2008,36(2):3336-3341.9Han Jiawei,Kamber M.数据挖掘:概念与技术M.范明,译.北京:机械工业出版社,2012:293-297.10张雪萍,龚康莉,赵广才.基于 MapReduce的 K-medoids并行算法J.计算机应用,2013,33(4):1024-1035.11王国胤,张清华,胡军.粒计算研究综述J.智能系统学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度建筑行业农民工劳动合同规范范本
- 2025年婚庆婚礼现场婚礼用品租赁与配送合同模板
- 辽宁2025年辽宁科技学院招聘高层次和急需紧缺人才83人笔试历年参考题库附带答案详解
- 贵州2025年中共贵州省委政策研究室(省委改革办)所属事业单位招聘2人笔试历年参考题库附带答案详解
- 湖北2025年湖北省水利水电科学研究院院属企业招聘11人笔试历年参考题库附带答案详解
- 2025年中国墙体锚固钉市场调查研究报告
- 2025年中国光弹应力冻结箱市场调查研究报告
- 2025至2031年中国非标自动化机械行业投资前景及策略咨询研究报告
- 2025至2031年中国远距离求生电珠行业投资前景及策略咨询研究报告
- 2025年等离子电视机项目可行性研究报告
- (正式版)HGT 6313-2024 化工园区智慧化评价导则
- 单县烟草专卖局QC课题多维度降低行政处罚文书出错率
- 毫针刺法(全)教学课件
- 金风科技-风电产业集团-供应商现场作业基础安全考试附答案
- 公共关系学完整教学课件
- 人工智能机器人科学小报手抄报简报
- 三年级下册美术课件-第1课 灯彩辉映|浙美版 (共19张PPT)
- 硫酸铵废水MVR蒸发结晶
- 原子物理学第五章-多电子原子:泡利原理
- 35kV输电线路工程旋挖钻孔专项施工方案
- 固定资产借用登记表
评论
0/150
提交评论