完整版数据聚类试验报告附代码_第1页
完整版数据聚类试验报告附代码_第2页
完整版数据聚类试验报告附代码_第3页
完整版数据聚类试验报告附代码_第4页
完整版数据聚类试验报告附代码_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(完整word版)数据聚类实验报告(附代码)实验题目 数据聚类实验 1实验目的(1)了解常用聚类算法及其优缺点;(2)掌握k-means聚类算法对数据进行聚类分析的基本原理和划分方法。(3)利用k-means聚类算法对"ch7冶5以「’数据集进行聚类实验。(4)熟悉使用matlab进行算法的实现。2实验步骤算法原理聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高,所以在对大规模数据进行聚类时被广泛应用。目前,许多算法均围绕着该算法进行扩展和改进。k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。k-means算法的处理过程如下:首先,随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下:E=£E|p—mp,这里E是数据集中所有对象的平方误差的ii=1puCi总和,p是空间中的点,m'是簇Ci的平均值。该目标函数使生成的簇尽可能紧凑独立,使用的距离度量是欧几里得距离,当然也可以用其他距离度量。本实验便采用k-means聚类方法对样本数据对象进行聚类。该方法易实现,对不存在极大值的数据有很好的聚类效果,并且对大数据集有很好的伸缩性。(完整word版)数据聚类实验报告(附代码)算法流程本实验采用的是k-means聚类算法,类中心的选择基于簇中对象的平均值。(1)获取用户的类中心数目k和具有n个对象的数据集;(2)任意选取k个对象作为初始的簇中心;(3)根据簇中对象的平均值,将每个对象重新赋给最类似的簇;(4)更新簇的平均值,即类中心,重新计算每个簇中对象的平均值;(5)如果新的平均值发生改变,转至(2)步;(6)新的平均值不在发生改变,算法聚类结束。2.2算法流程选择k值,选取k个对象作为平均值

(完整word版)数据聚类实验报告(附代码)新的平均值改变N图1k-means算法流程图k-means算法流程图,如图1所示。k-means算法中的k,由用户输入,最终得到的类别数即为用户输入的数目。聚类过程中,涉及到初始类中心的选择。在程序中,对于类中心,是选择前k个作为初始类中心,对于数据的组织,前卜个数据有较大差别,可以提高程序的运行效率和分类结果的准确率。3实验结果分析在实验中,利用k-means聚类算法对“ch7访5上乂1”数据集进行聚类实验。当k=3时,k-means算法聚类效果如图2所示:图2k=3时聚类交燥

(完整word版)数据聚类实验报告(附代码)当k=4时,k-means算法聚类效果如图3所示:图3k=4时聚类效果K-means聚类算法的收敛性和初值的选取有关。初始的聚类中心的不同,对聚类结果没有很大的影响,而对迭代次数有显著的影响。数据的输入川顺序不同,同样影响迭代次数,而对聚类结果没有太大的影响。4实验结论K-means聚类算法对于类别数的选择k值有较高的要求如果类别数较少则不能区分数据。K-means聚类算法找出平均误差最小的k个划分。当结果簇是密集的,而簇与簇之间的区别明显时,它的效果较好。该算法只有在簇的平均值被定义的情况下才能使用。对于初始类中心的选择,特别重要。对于分类的准确度和距离影响明显。而且该算法对孤立点是敏感的。所以如果数据集中存在有极大值的对象,应该消除这种敏感性。5实验心得体会1、初始值可的选取

(完整word版)数据聚类实验报告(附代码)K-means聚类算法对于类别数目的选择,需要使用该算法的人员对于数据分类有一定的了解,并且可以根据观察部分原始抽样数据,得出该样本数据的大致类别数目,否则,应用该方法的聚类可能会出现较大的错误率。2、初始类中心的选取初始类中心的选择对聚类的准确度有较大的影响。在初始类中心的选择时,最好选择两两距离较大,且能代表不同数据样本类别的点作为初始的类中心点。参考文献[1]数据挖掘:概念与技术/(加)韩家炜,(加)坎伯(Kamber,M.)著;范明等译.-北京:机械工业出版社,2001.8.[2]效琴,戴汝源.数据挖掘中聚类分析的技术方法[订.微计算机信息,2003,19(1).[3]贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13.[4]孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1):48-61.[5]冯晓蒲,张铁峰.四种聚类方法之比较切.微型机与应用,2010,16.附录(源代码)Matlab%K-means算法主程序k=3;x=[0,2240.624x=[0,2240.6240.0670.0430.7490.5020.6270.5410.7490.5020.6270.5410.5570.5410.8471.0000.5570.5410.8471.0000.1100.5020.0510.0430.1100.5020.0510.0430.7220.4590.6630.5840.7220.4590.6630.5840.7760.4160.8310.8310.7760.4160.8310.8310.1960.6670.0670.043(完整word版)数据聚类实验报告(附代码)0.6120.3330.6120.5840.4160.8120.8750.4160.8120.8750.5840.0670.0820.6120.0550.5570.5410.1650.2080.0270.3760.6390.3760.6670.2080.3060.7100.1960.0000.6120.5020.1370.4160.4710.0820.6940.4160.4160.8310.3610.3760.4160.3330.3060.7920.3610.4160.6120.4160.3880.7490.5290.0820.9450.2510.6270.6240.5920.6670.0670.0430.6120.4980.8120.7100.0860.0430.4240.3760.6940.7920.0670.00

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论