版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上甘肃政法学院本科生实验报告(2)姓名: 学院:计算机科学学院专业:信息管理与信息系统 班级: 实验课程名称:数据挖掘实验日期: 指导教师及职称: 实验成绩:开课时间:20132014 学年 一 学期甘肃政法学院实验管理中心印制实验题目Weka的数据聚类分析小组合作姓名班级学 号一、实验目的1、了解和熟悉K均值聚类的步骤 2、利用Weka中提供的simpleKmeans方法对数据文件进行聚类分析,更深刻的理解k均值算法,并通过对实验结果进行观察分析,找出实验中所存在的问题。二实验环境Win 7环境下的Eclipse三、实验内容在WEKA中实现K均值的算法,观察实验结果并
2、进行分析。四、 实验过程与分析一、实验过程1、添加数据文件打开Weka的Explore,使用Open file点击打开本次实验所要使用的raff格式数据文件“auto93.raff”2、选择算法类型点击Cluster中的Choose,选择本次实验所要使用的算法类型“SimpleKMeans”3、得出实验结果选中“Cluster Mode”的“Use training set”,点击“Start”按钮,观察右边“Clusterer output”给出的聚类结果如下:= Run information =Scheme: weka.clusterers.SimpleKMeans -N 2 -S 10
3、Relation: sInstances: 93Attributes: 23 Manufacturer Type City_MPG Highway_MPG Air_Bags_standard Drive_train_type Number_of_cylinders Engine_size Horsepower RPM Engine_revolutions_per_mile Manual_transmission_available Fuel_tank_capacity Passenger_capacity Length Wheelbase Width U-turn_spa
4、ce Rear_seat_room Luggage_capacity Weight Domestic classTest mode: evaluate on training data= Model and evaluation on training set =kMeans=Number of iterations: 5Within cluster sum of squared errors: 282.733Cluster centroids:Cluster 0Mean/Mode: Chevrolet Midsize 19.0732 26.3171 1 1 5.9024 3.522 173.
5、8537 4965.8537 1964.2683 0 18.6049 5.561 193.7805 108.6098 72.3415 41.6341 29.0202 15.5178 3517.561 1 23.4512Std Devs: N/A N/A 2.3916 3.0368 N/A N/A 1.261 0.9015 50.3232 581.2098 370.73 N/A 2.4903 1.0735 11.1232 5.2435 2.9632 1.9462 2.772 2.4527 358.6609 N/A 10.2372Cluster 1Mean/Mode: Ford Small 24.
6、9615 31.2692 0 1 4.2301 1.9942 120.1538 5528.8462 2622.3077 1 15.1346 4.7115 174.8654 100.2692 67.0385 36.8462 26.891 12.6069 2722.3077 0 16.4019Std Devs: N/A N/A 6.0746 5.7467 N/A N/A 0.7301 0.5047 40.8149 484.7019 377.1753 N/A 3.0204 0.848 11.2599 5.5735 2.4968 2.338 2.7753 2.3975 492.4971 N/A 7.9
7、863Clustered Instances0 41 ( 44%)52 ( 56%)4、修改Seed值5、得出修改Seed值后的实验结果= Run information =Scheme: weka.clusterers.SimpleKMeans -N 2 -S 8Relation: sInstances: 93Attributes: 23 Manufacturer Type City_MPG Highway_MPG Air_Bags_standard Drive_train_type Number_of_cylinders Engine_size Horsepower
8、RPM Engine_revolutions_per_mile Manual_transmission_available Fuel_tank_capacity Passenger_capacity Length Wheelbase Width U-turn_space Rear_seat_room Luggage_capacity Weight Domestic classTest mode: evaluate on training data= Model and evaluation on training set =kMeans=Number of iterations: 6Withi
9、n cluster sum of squared errors: 282.733Cluster centroids:Cluster 0Mean/Mode: Chevrolet Midsize 19.0732 26.3171 1 1 5.9024 3.522 173.8537 4965.8537 1964.2683 0 18.6049 5.561 193.7805 108.6098 72.3415 41.6341 29.0202 15.5178 3517.561 1 23.4512Std Devs: N/A N/A 2.3916 3.0368 N/A N/A 1.261 0.9015 50.32
10、32 581.2098 370.73 N/A 2.4903 1.0735 11.1232 5.2435 2.9632 1.9462 2.772 2.4527 358.6609 N/A 10.2372Cluster 1Mean/Mode: Ford Small 24.9615 31.2692 0 1 4.2301 1.9942 120.1538 5528.8462 2622.3077 1 15.1346 4.7115 174.8654 100.2692 67.0385 36.8462 26.891 12.6069 2722.3077 0 16.4019Std Devs: N/A N/A 6.07
11、46 5.7467 N/A N/A 0.7301 0.5047 40.8149 484.7019 377.1753 N/A 3.0204 0.848 11.2599 5.5735 2.4968 2.338 2.7753 2.3975 492.4971 N/A 7.9863Clustered Instances0 41 ( 44%)1 52 ( 56%)6、对上述实验结果进行分析7、显示散点图我们在左下方“Result list”列出的结果上右击,点“Visualize cluster assignments”。弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标,第二行的”col
12、or”是散点图着色的依据,默认是根据不同的簇“Cluster”给实例标上不同的颜色。二、实验分析 本次实验采用的数据文件是“1993 New Car Data ”。通过观察本次实验的实验结果观察,我们可以知道:1、Number of iterations: 5,意味着本次实验把这93条实例聚成了5类,即K=52、Within cluster sum of squared errors: 282.733这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。如果把“seed”参数改一下,得到的这个数值就可能会不一样。我们应该多尝试几个“seed”,并采纳这个数值最小的那个结果。3、Cluster centroids:”之后列出了各个簇中心的位置。对于数值型的属性,簇中心就是它的均值(Mean),如cluster0的数值型变量Manufacturer的均值19.0732;分类型的就是它的众数(Mode),如cluster0的分类型变量Drive_train_type的众数为1,也就是说这个属性上取值为众数值1(有1个孩子)的实例最多。对于数值型的属性,还给出了它在各个簇里的标准差(Std Devs)。 最后的“Clu
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中语文++第4课《古代诗歌四首+观沧海》课件++统编版语文七年级上册
- 职场心理学:成功背后的人格与能力
- 企业营销战略的思考
- 大卫·科波菲尔(节选) 课件-2024-2025学年高中语文统编版(2019)选择性必修上册
- 论如何做好职业生涯规划
- 山东省清单与定额计算规则比较表
- 大学生空虚心理调查问卷
- 股权激励对公司股东归属感的提升作用研究分析
- 股权融资对企业社会责任规划的提升影响研究分析
- 心理健康专题课件18设计心理学
- 工期管理培训课件
- 鼻骨骨折的护理查房课件
- 车辆钳工高级理论知识资源库
- 设计项目挂靠协议
- 螺钉钢板断裂原因分析课件
- 朋友借车免责协议
- IT行业档案管理制度的软件开发与源代码管理
- 宠物露营项目创业计划书
- 有中国特色的社会主义道路教案及反思
- 石英砂 二氧化硅含量的测定 重量法
- 实验室安全教育:规范操作确保实验安全
评论
0/150
提交评论