版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘之莺尾(IRIS)-1 -第一部分概述(5) . class:类型(分类型),取值如下-Iris Setosa山莺尾-Iris Versicolor变色莺尾-Iris Virginica维吉尼业莺尾4.试验中我们采用bezdekIris.data数据集,对比(08-Mar-1993)和bezdekIris.data数据集(14-Dec-1999),可知前者的第35个 实例4.9,3.1,1.5,0.1,Iris-setosaffi第38个实例4.9,3.1,1.5,0.1,Iris-setosa后者相应 的修改为:4.9,3.1,1.50.2,Iris-setosa和4.9,3.1,1
2、.4,0.1,Iris-setosa第二部分 将UCI提供的数据转化为标准的ARFF数据集1.将数据集处理为标准的数据集,对丁原始数据,我们将其拷贝保存到TXT文档,采用UltraEdit工具打开,为其添加届性信息。如图:irisl.arff J iris.arff bezdeklris.bd XQ II II II II I一1。I II II IL LI -2。IL L1 IL L J JI 34L L J JIL L J JIL LmJ JI tI II hI II I1 1I II II-6Q I1sepallength sepal-width petal-length petal-w
3、idth class2Iris-sec osa39f3.0f1.4f0*2fIri3-setosa4Ixis-setaaaEIris-setoaaIxis-setasa7S.4,3.9,1.7,0.4,Iris-setasa2. (1)将bezdekIris.txt文件导入Microsoft Office Excel(导入时,文本类型选择 文本文件),如图:牛名值):新建源豆Z1.数据挖掘目的:根据已有的数据信息,寻找出莺尾的届性之间存在怎样的关联 规则。2.数据源:UCI提供的3.数据集的届性信息:(1). sepal length in cm(2). sepal width in cm(3
4、). petal length in cm(4). petal width in cm150个实例,每个实例有萼片长度(单位:厘米)萼片宽度(单位:厘米)花瓣长度(单位:厘米)花瓣宽度(单位:厘米)5个届性。(数值型)( 数 值型)UCI发布的iris.data数据集文本文件(*. txt; #. prn; *. csv;彳| Excel(* 由三) 网页(*. htm -数据挖掘之莺尾(IRIS)-2 -Lotus -2-3Paradox艾1牛DB豺*文伴鼠心曰数据挖掘之莺尾(IRIS)-3 -(2)下一步,设置分隔符号,如图:(3)得到的XLS格式数据如图:C6 A 1.4ACD_EL s
5、epal-lengthsepal-widthpetal T engthpetal-width75. 13.51.40.2 Iris-setoea4. 931. 40. 2 Iris-setosa14. 73. 2L30. 2 Iris-setosa4.63. 11. 50. 2 Iris-setosa53 61L 4一10,2Iris-setosa5. 43, 9L ?0, 4 Iris-setosa34. 63. 41. 40. 3 Iris-setosaa53. 4L50. 2 Iris-setosa04. 42,91.40.2 Iris-getoeai4. 93. 11. 50. 1 I
6、ris-setosaF5. 431.50.2 Iris-setosa4.在Excel中将其另存为CS呻式文件(CSV格式的文件和XLS格式文件一样), 保存的路径为C:Program FilesWeka-3-6,方便对其进行转化为weka标准的arff格式文件,如图:5.采用weka的Simple CLI模块输入命令:java weka.core.converters.CSVLoaderbezdekIris.csv bezdekIris.arff将CSV文件转化为标准ARFF文件。成功完成的 提示信息:Finished redirecting output to bezdekIris.arff
7、。得到的数据集如图所示:数据挖掘之莺尾(IRIS)-4 -0daua5.1,3.5,1.4,0.2rIriB-Betosa4.9,3,1.4,0.2,Iris-fl&tDsa4.7,3,2,l-3,0.2firis-s&tosa4T6f3-lf1.5f0.2fIris-setosa5f3,l,4,0 class=Iris-setosa 41 conf:(1)2. petal-length=(-inf-1.59 37 = class=Iris-setosa 37 conf:(1)3. petal-length=(-inf-1.59 petal-width=(-inf-0.34 3
8、3 = class=Iris-setosa 33 conf:(1)4. petal-width=(1.06-1.3 21 = class=Iris-versicolor 21 conf:(1)5. petal-length=(5.13-5.72 18 = class=Iris-virginica 18 conf:(1)6. sepal-length=(4.66-5.02 petal-width=(-inf-0.34 17 = class=Iris-setosa 17 conf:(1)7. sepal-width=(2.96-3.2 petal-width=(-inf-0.34 15 = cla
9、ss=Iris-setosa 15 conf:(1)8. petal-length=(3.95-4.54 26 = class=Iris-versicolor 25conf:(0.96)9. petal-width=(1.78-2.02 23 = class=Iris-virginica 22conf:(0.96)3.1得到的关联规则结果如图:Dest mles found;3.2这样我们一共产生了9条规则,分析如下:(1)对丁规则1,可以得到的知识为:当花瓣宽度小丁等丁0.34厘米(petal-width 0.34)时,此莺尾为山莺尾,规则的置信度为1,支持度为41/150=0.273。(2
10、)对丁规则2,可以得到的知识为:当花瓣长度小丁等丁1.59厘米(petal-length 1.59)时,此莺尾为山莺尾,规则的置信度为1,支持度为37/150=0.247。(3)规则3其实是规则1和2的交集,演化。(4)对丁规则4,可以得到的知识为:花瓣宽度在1.06厘米到1.3厘米之间(1.06 petal-width 1.3)时,此莺尾为变色莺尾,规则的置信度为1,支持度为21/150=0.14。(5)对丁规则5,可以得到的知识为:conf:(1)conf: (1)cla53=Iri3-3etD5a 33conf:(1)conf:(L)class-Iris-setoaa 17COQ:(1)
11、con:数据挖掘之莺尾(IRIS)-6 -花瓣长度在5.13厘米到5.72厘米之间(5.13 petal-lengthv 5.72)时,此莺尾为维吉尼业莺尾,规则的置信度为1,支持度为18/150=0.12。(6)规则6是规则1的演化。(7)规则7是规则1的演化。(8)对丁规则8,可以得到的知识为:花瓣长度在3.95厘米至U 4.54厘米之间(3.95Vpetal-lengthw4.54)时,此莺尾为变色莺尾,规则的置信度为0.96,支持度为25/150=0.167。(9)对丁规则9,可以得到的知识为:花瓣宽度在1.78厘米到2.02厘米之间(1.78petal-width2.02)时,此莺尾
12、为维吉尼业莺尾,规则的置信度为0.96,支持度为22/150=0.147。3.3将规则总结如下表:单位:CM v 0.341.06VW 1.31.78VW 2.02花瓣宽度petal-width山莺尾变色莺尾维吉尼亚莺尾 V 1.593.95VW 4.545.13VW 5.72花瓣长度petal-length山莺尾变色莺尾维吉尼亚莺尾3.4从这些规则中我们可以知道,判断莺尾届丁那一种类,应该从花瓣的长度和 宽度上进行考虑。第四部分 采用聚类对ARFF数据集进行处理1.参数相应设置为weka.clusterers.SimpleKMeans -N 3 -A weka.core.EuclideanD
13、istance-R first-last -I 500 -S 800设置分为3个簇,距离公 式采用欧几里德距离公式, 随机种子数依次为100, 200, 300.800, Clustermode”设置为classes to clusters evalution以便对比进行评估,并且勾选Storeclusters for visualization”SeedWithin cluster sum ofsquared errors:Cluster 0Iris-virginicaCluster 1Iris-setosaCluster 2Iris-versicolorIncorrectly cluste
14、redinstances :10010.89225290446121396 ( 64%)33 ( 22%)21 ( 14%)63.042%数据挖掘之莺尾(IRIS)-7 -2006.98221647378523439 ( 26%)50 ( 33%)61 ( 41%)17.011.3333 %3007.12275017294385152 ( 35%)50 ( 33%)48 ( 32%)18.012 %4006.98221647378523439 ( 26%)50 ( 33%)61 ( 41%)17.011.3333 %50010.92513068267596394 ( 63%)35 ( 23%)
15、21 ( 14%)59.039.3333 %6006.98221647378523439 ( 26%)50 ( 33%)61 ( 41%)17.011.3333 %7007.12275017294385252 ( 35%)50 ( 33%)48 ( 32%)18.012%8006.98221647378523439 ( 26%)50 ( 33%)61 ( 41%)17.011.3333 %2.我们知道Within cluster sum of squared errors是评价聚类好坏的标准,数值越 小说明同一簇类实例之间的距离越小,聚类的结果也就越好。从这个表中我们可以知道当seed取值为2
16、00,400,600,800时,其Within cluster sum of squared errors值相同,且为最小,这时的聚类效果最好,这样我们就找到了最好的聚类方案。3.1将seed取值为800,其聚类效果如图所示:图4-1 seed-800聚类效果图注:口表示预测与真实不相符合,x表示预测与真实相符合,那么x越多表示 聚类的效果越好。3.2运行结果如下:=Run information =Scheme:weka.clusterers.SimpleKMeans -N 3 -A weka.core.EuclideanDistance -Rfirst-last -I 500 -S 800
17、Relation:bezdekIrisX.: Clusita* (HgJ害1. lu LIi!2B_iiib4E Ohfe )C14ur: ClMlLtr 04MI)Cluttefef Vi&ualize: 19J2J0 - SimpleKM段 佰 命畋蜘国Jit HrClux etlur数据挖掘之莺尾(IRIS)-8 -Instances:Attributes:1505sepal-length sepal-width petal-length petal-widthIgnored:classTest mode:Classes to clusters evaluation on tra
18、ining data=Model and evaluation on training set kMeansNumber of iterations: 6Within cluster sum of squared errors: 6.982216473785234Missing values globally replaced with mean/modeCluster centroids:AttributeFull Data(150)Cluster# 0 (61)1 (50)2(39)-=sepal-length5.84335.88855.006;-6.8462sepal-width3.05
19、732.73773.4283.0821petal-length3.7584.39671.4625.7026petal-width1.19931.4180.2462.0795Clustered Instances061( 41%)150( 33%)239( 26%)Class attribute: classClasses to Clusters:0 1 2 - assigned to cluster0 50 0 | Iris-setosa47 0 3 | Iris-versicolor14 0 36 | Iris-virginicaCluster 0 - Iris-versicolorClus
20、ter 1 - Iris-setosa数据挖掘之莺尾(IRIS)-9 -Cluster 2 - Iris-virginicaIncorrectly clustered instances : 17.011.3333 %4.1如果将seed取值改为100,其效果如图:1: ClulLkr1: lUOhfei)C14Ut CLMLUCHM)F*!- L 1AM,JiUirLlsikrDpnnLV* 携暗蛆匚1员1税版酒*1讣&9:2泗0-旬中|04皓1西血*如跄数据挖掘之莺尾(IRIS)-10 -D _C1U3tEXlC11XX E&1-3UFC1US.E1图4-2 seed-10
21、0聚类效果图分析结论:此图与图4-1seed-800聚类效果图的相比,其聚类效果有很大的劣势。这样我们就必须对SimpleKMeans算法的参数做相应调整,可以使聚类效果达到 最佳。注:口表示预测与真实不相符合,x表示预测与真实相符合,那么x越多表示 聚类的效果越好。4.2运行结果如下:Run informationScheme:weka.clusterers.SimpleKMeans -N 3 -A weka.core.EuclideanDistance -Rfirst-last -I 500 -O -S 100Relation:bezdekIrisInstances:150Attribut
22、es:5sepal-length sepal-width petal-lengthpetal-widthIgnored:classTest mode:Classes to clusters evaluation on training dataModel and evaluation on training setkMeansNumber of iterations: 4Within cluster sum of squared errors: 10.892252904461213Missing values globally replaced with mean/modecluscerZcluscerZElgsr/数据挖掘之莺尾(IRIS)-11 -Cluster centroids:AttributeFull Data(150)Cluster# 0(96)1(33)2(21)-=sepal-length5.84336.31465.16974.7476sepal-width3.05732.89583.63032.8952petal-length3.7584.974
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024定制版二手家电电机销售协议细则版B版
- 2024年工程款支付附加连带责任担保条款合同版
- 2024年专业售后服务合作协议范例版
- 2024年个人贷款分期还款详细合同版B版
- 2024委托贴牌生产协议例本
- 2024垃圾桶项目采购合同
- 2024年事业单位教师职务聘用合同书版B版
- 2024年中医医院工会综合服务协议版B版
- 2024年专业市场摊位租赁协议简本一
- 2024年度光纤熔接工程协议一
- 2024年《艺术概论》知识考试题库(附答案)
- DL∕T 1919-2018 发电企业应急能力建设评估规范
- 内蒙古鄂尔多斯市达拉特旗达拉特旗第一中学2023-2024学年高一下学期7月期末考试 语文试题
- 2024山东聊城市临清市招聘征集部分高校本科毕业生入伍14人历年(高频重点提升专题训练)共500题附带答案详解
- 自然资源价格评估通则 TD/T 1061-2021
- DZ/T 0462.4-2023 矿产资源“三率”指标要求 第4部分:铜等12种有色金属矿产(正式版)
- CHT 3006-2011 数字航空摄影测量 控制测量规范(正式版)
- 体育俱乐部管理智慧树知到期末考试答案章节答案2024年成都文理学院
- 新能源车更换电池合同范本
- 预防和伺服伺服系统故障模式
- FQC终检方法培训
评论
0/150
提交评论