基于划分方法的聚类分析_第1页
基于划分方法的聚类分析_第2页
基于划分方法的聚类分析_第3页
基于划分方法的聚类分析_第4页
基于划分方法的聚类分析_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、南京信息工程大学 滨江学院 实验(实习)报告实验(实习)名称基于划分方法的聚类分析实验(实习)日期2011610指导教师 闫雷鸣专业软工(动画)年级 2008 班次 (1 )班 姓名王圆媛 学号 20082358002 得分实验目的(1 )学习聚类分析的基本概念、各种数据类型、聚类方法的分类。(2 )学会典型的划分方法 K均值和K中心点算法的基本原理、特点、优缺点。(3)应用 Weka软件,学会导入数据文件,并对数据文件进行预处理。(4 )学会并应用划分方法中 K均值和K中心点算法对数据集进行聚类分析。、实验准备:Ban k-data三、实验要求:用划分方法中K均值和K中心点算法对数据集进行聚

2、类分析四、实验内容:4.1相关知识聚类分析中的"类”(cluster )和前面分类的"类”(class )是不同的,对 cluster更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇,使得同一个簇的实例聚集在一个簇中心的周围,它们之间距离的比较近; 而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说,这个距离通常指欧氏距离。聚类分析中使用最常见的K均值(K-means )算法。K 均值聚类方法的步骤如下。(1 ) K均值算法首先随机的指定K个簇中心。(2 )将每个实例分配到距它最近的簇中心,得到K个簇;(3)计分别计算各簇中所有实例的均值,把它们

3、作为各簇新的簇中心。重复(2)和( 3),直到 K 个簇中心的位置都固定,簇的分配也固定。上述 K 均值算法只能处理数值型的属性, 遇到分类型的属性时要把它变为若干个取值 0 和 1 的属性。 WEKA 将自动实施这个分类型到数值型的变换,而且 Weka 会自动对数值型 的数据作标准化。Weka 中列出了很多聚类算法。 对于 EM 实现, 用户可指定需要产生多少聚类, 否则所 用的算法可通过交叉验证来决定,在这种情况下,折的数量固定为10 (除非训练实例小于10 个)。用户可指定循环次数的最大值,并且为正常的密度计算设定可允许的最小标准差。 SimpleKMeans 使用 k 均值来聚类数据;

4、聚类的数量通过一个参数设定。 Cobweb 实现了 用于名词属性的 Cobweb 算法和用于数值性属性的 Classit 算法。 FarthestFirst 实现 Hochbaum 和 Shmoys 远端优先遍历算法。 MakeDensityBaseCluster 是一个元聚类器, 它包装一个聚类算法, 使其返回一个概率分布和密度。 它为每个聚类拟合一个离散分布, 或 一个对称的正态分布。4.2 实验操作( 1 )在开始程序 (或者桌面图标) 中找到 WEKA3.6.2 ,单击即可启动 WEKA ,启动 WEKA时会发现首先出现的一个命令提示符。接着将出现如下Weka GUI Chooser

5、界面。Tehn COE Oiodsrt(2)选择GUI Chooser中的探索者(Explorer )用户界面。点击预处理( Preprocess )功能按钮的,Open file,选择其中的"bank-data ”数据作关联规则的分析。打开"bank-data.csv”,可以看至U" Current relation ”、“Attributes ” “Selected attribute三个区域。(3 )对于原始数据“bdaka.csv ”的预处,删去属性id ” AR保存格式后,修改属性“children为分类型。这样得到的数据文件为ban0a条实例。,含Cl

6、uster ”选项卡。点击Choose ”在随后打开的层级式菜单中的选择SimpleKMea ns WEK这是实现(4)用"Explorer”打开刚才得到的"ban k.arff",并切换到K均值的算法。点击旁边的文本框,修改"numClusters"6为说明我们希望把这 600条实例聚成6类,即K=6。下面的“seed ”参数是要设置一个随机种子,依此产生一个随机数,用来得到K均值算法中第一次给出的K个簇中心的位置,先设定为10。(7)选中“ Cluster Mode ”的“ Use trainingset ",点击“Start”按

7、钮,观察右边Clusterer output给出的聚类结果。也可以在左下角Result list中这次产生的结果在新窗口中浏览结果。上点右键,"View in separate wi ndow(8)实验结果:结果中有这么一行字样:Within cluster sum of squared errors: 1604.7416683433223这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。“ seed ”参数的变化,导致得到的这个数值也发生变化。通过多尝试变化seed值,并取使得数值最小的seed 值。接下来“Clusterce ntroids:”之后列出了各个簇中心的位

8、置。对于数值型的属性,簇中心就是它的均值(Mean );分类型的就是它的众数(Mode),也就是说这个属性上取值为众数值的实例最多。对于数值型的属性,还给出了它在各个簇里的标准差(Std Devs )。最后的“Clustered In sta nces”是各个簇中实例的数目及百分比。为了观察可视化的聚类结果,在左下方“ Result list 列出的结果上右击,点“ Visualize cluster assignments弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标,第二行的color ”是散点图着色的依据,默认是根据不同的簇Cluster给实例标上不同的颜色。可以在这里点“Save ”把聚类结果保存南RFF文件。在这个新的 ARFF文件中,“ instance_number ”属性表示某实例的编号,“Cluster ”属性表示聚类算法给出的该实例所在的簇。4.3 扩展学习(1 )选择其他数据集来对其进行k-means 聚类分析,并对其聚类结果进行分析研究。(2 )通过对其参数的修正完善加深理解k-means 聚类分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论