数据挖掘试验报告_第1页
数据挖掘试验报告_第2页
数据挖掘试验报告_第3页
数据挖掘试验报告_第4页
数据挖掘试验报告_第5页
免费预览已结束,剩余18页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘Weka实验报告姓名学号_指导教师开课学期2015至2016学年2学期完成日期2015年6月12日1.实验目的基于 http: /ml/datasets/Breast+Cancer+WiscOnsin+%28Ori-ginal%29 的数据,使用数据挖掘中的分类算法,运用 Weka 平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试。2 .实验环境实验采用Weka平台,数据使用来自/ml/Datasets/Br-e

2、ast+Cancer+WiscOnsin+%28Original%29主要使用其中的 BreastCancerWisconsin(Original)DataSet 数据。Weka 是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。 Weka 使用 Java 写成的, 并且限制在 GNU 通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka 提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。3 .实验步骤3.1 数据预处理本实验是针对威斯康辛州(原始

3、)的乳腺癌数据集进行分类,该表含有Samplecodenumber(样本代码),ClumpThickness.(丛厚度),UniformityofCellSize(均匀的细胞大小) , UniformityofCellShape (均匀的细胞形状) , MarginalAdhesion(边际木连),SingleEpithelialCellSize(单一的上皮细胞大小),BareNuclei(裸核),BlandChromatin(平淡的染色质),NormalNucleoli(正常的核仁),Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为 1-10,分类中 2 代表良性,

4、4代表恶性。通过实验,希望能找出患乳腺癌客户各指标的分布情况。该数据的数据属性如下:1. Samplecodenumber(numeric),样本代码;2. ClumpThickness(numeric),丛厚度;3. UniformityofCellSize(numeric)均匀的细胞大小;4. UniformityofCellShape(numeric),均匀的细胞形状;5. MarginalAdhesion(numeric),边际粘连;6.SingleEpithelialCellSize(numeric),单一的上皮细胞大小;7.BareNuclei(numeric),裸核;8.Blan

5、dChromatin(numeric),平淡的染色质;9 .NormalNucleoli(numeric),正常的核仁;10 .Mitoses(numeric),有丝分裂;11 .Class(enum),分类。122 数据分析由 http:/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori-ginal%29 得到一组由逗号隔开的数据,复制粘贴至 excel 表中,选择数据一一分列一一下一步一一逗号一一完成,该数据是有关乳腺癌数据集,有 11 个属性,分别为 Samplecodenumber 样本代码) ,ClumpThi

6、ckness 丛厚度) , UniformityofCellSize(均匀的细月 fi 大小) , UniformityofCellShape (均匀的细胞形状) , MarginalAdhesion(边际粘连),SingleEpithelialCellSize(单一的上皮细胞大小),BareNuclei(裸核),BlandChromatin(平淡的染色质),NormalNucleoli(正常的核仁),Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的数据没有属性,所以手工添加一行属性名。Weka 分类数据需把 excel 保存为一个 csv 文件。1.1.1.csv-.arf

7、f将 CSV 专换为 ARFF 最迅捷的办法是使用 WEK 所带的命令行工具打开 weka,之后出现 GUI 界面,如图 1 所示:(图 1)点击进入“Exploer”模块,要将.csv 格式转换为.arff 格式,点击 openfile.,打开刚保存的“乳腺癌数据集.csv”,点击“Save.,将文件保存为“乳腺癌数据集.csv.arff”如图 2 所示:QWekaExploreir(图 2)图 3 中显示的是使用“Exploer”打开“乳腺癌数据集.csv.arff”的情况如图 3 所示:(图 3)3.2.2 数据预处理很明显发现,所用的数据都是(numeric)数值型的,需要将数值型离散

8、化,将“ClumpThickness”,“UniformityofCellSize”,“UniformityofCellShape,“MarginalAdhesion”,“MarginalAdhesion”,“BareNuclei”“BlandChromatin,NormalNucleoli,Mitoses,Class”离散化。我们需要借助 Weka 中名为“Discretize”的 Filter 来完成。在区域 2 中点“Choose,出现一棵“Filter 树”,逐级找到“weka.filters.unsupervised.attribute.Discretize”点击,即可得到如下所示的

9、图,如图 4 所示:(图 4)现在“Choose旁边的文本框应该显示“Discretize-B10-M-0.1-Rfirst-last”。如图箭头所示,点击这个文本框会弹出新窗口以修改离散化的参数。我们需将第1,2,3,4,5,6,7,8,9,10 项离散化,其中第一项为 id,可移除。把 attributeIndices 右边改成“1,2,3,4,5,6,7,8,9,10。我们把这两个属性都分成 10 段,于是把“bins”改成“10”。其它不变。点“OK”回到“Explorer,可以看到“ClumpThickness”,UniformityofCellSize,UniformityofCe

10、llShape”,MarginalAdhesion”,“MarginalAdhesion”,“BareNuclei”,“BlandChromatin”,“NormalNucleoli,“Mitoses”,已经被离散化成分类型的属性。经移除后剩 10 项属性,其中一项如图 5 所示,10 项属性可视化如图 6 所示:SaiEiL一QWIIML.QPTI。瓯grMBh”IfafaKii.*iSim.FU-Qi-sAiseieti-B10-.0-R1,2.包c0研,Pi.anet10RH0V(图 5)(图 6)在进行数据搜集和整理的过程中,我们发现如果属性的类型为数值型的话,在做关联分析时将不能得到

11、结果,可以比较图 3 和图 5,图 3 是数值型,图 5 是数据离散化之后的。因为关联分析无法处理数值型数据,因此,我们进行了数据离散处理后使得需要分析的数据变为分类型,这样就可以关联分析得以顺利进行。因此通过预处理数据可以提高原数据的质量,清除数据噪声和与挖掘目标无关的数据,为进一步的挖掘工作莫定可靠的基础。3.3 数据分类算法针对这些有关乳腺癌数据集,主要分别采用的分类方法是决策树算法、K均值算法、朴素贝叶斯分类算法。由于该数据集有 10 个属性,则下文中对每个属性进行分类的步骤大致相同,由于篇幅原因,只截取其中两个属性,现在就所选截屏属性作中明,选第一项 ClumpThickness(丛

12、厚度)和第九项 Mitoses(有丝分裂)。3.3.1决策树分类用“Explorer”打开刚才得到的“乳腺癌数据集.csv.af”,并切换到“Class”。点“Choosef 按钮选择“tree(weka.classfiers.trees.j48),这是 Weka 中实现的决策树算法。选才 CCross-Validatioinfolds=10,选择图中箭头指向选择属性,然后点击“start”按钮。得到结果如图 7 和图 8 所示:0WekaExplorerFriir4csdsfy匚usttr|JLwQcidinnttributtsVisusliz*CLu-lkfh*11CfewvitJW-C0

13、.25-H219:23:10-tr*c.J41:37:1319.37:25trtes.J4Strnas.J4S1937:33-tn白九J42137-33-118:37:44-tres.J4S19.37:50tFEKS.J48193302trAS.J4S1936OS-triJ4iS19:44:4S-trfleE.J4S=.Stz-atiiedcroas-vaLid-at.ian-=Sjcrary.Csrr-eeclyClassifiedIZLacanceB1B226-D3724IneonrectLyClafsxfied.Inatanczes51773.9626%Keppsstatintiu口.1

14、2Meanatsoluizeerror0.1611RDG!Qneansquarederrar0.3109Relative也无)与亡&rr&r9ml.ML&3tnXa-tivEac(uar-eCFEO-C1Q5-SBl4TorsiMust%安ofInaT.anccs=口et-LleaAeeuraeyByCLAAJ=TPRaucFfRdtc*PrecisionCCAIIF-HeitsiarcRDCJ0.TS30.3740.3570.7930.493a.Po.020*015o.agi0.020.D330.4OL口“a.OSS0.0930.046O.D20J0,0-750,03

15、0.2140.0750.1110,50.1310.123Q.1950.131a.1570 20力290.0170.0B30.029a.D43a.Sr-a口0-!pomgaoo.osio-ioe3的的0,094G,0Or0100/f|qiClasBifieronArut(图7)(图 8)这个是针对第一项 ClumpThickness 丛厚度和第九项 Mitoses 有丝分裂项运用 C4.5 决策算法得到误差分析的结果,分析可知总共有 699 个数据进行分类,ClumpThickness(丛厚度)其中 102 个为正确分类,正确分类率为 26.03726%,517个为错误分类,错误分类为 73.9

16、268%而第九项 Mitoses 有丝分裂项也是分析 699 个数据,其中正确分类有 579 个数据,正确率为 82.8326%,错误分类的有 120 个,错误分类的有 17.1674%根据混淆矩阵,被错误分类实例很多,错综复杂,如图 9 所示:CTonfLisienMatrix=abcf?h1j-ledas115412111002001a =1(-inf-1,913S101e00Q021b二1(i.9-2,e,525716o12c7Ic-T(2.e-3-739111611213061d=1(3*7-4.*49215e171291Ie=,(4.6-5-5ve0307112111If =1(5*

17、5-6.41212i400229Ig =4-7印,1口5i51142261h =,(7*3-8.2*nr0132r.rQ8Ii -*(B.2-9-1,2012557131331j -1(9.1-inf)(=ConfusionMatrix=abcdef7hi1classifieda,33S1140000Q00a- -1(-inf0口Q1b= =,(1.9-2T25559411102c1(2.E-3.71651172433Q31(3,7-4,6*012z1361102e= =(4.6-5*5T014512213Q2f= =1(5.5-6,412014704513q= =f

18、(-4-7.3,1QQ3323E08h一一1(7,3-8,2110001010203i二二1(5.2-9.1,00Q4301204Ej= =1(9,1-inf)T(图 9)3.3.2贝叶斯分类在刚才进行决策树分类的的那个页面,点“Choose按钮选择bayeS,再选择 Cross-Validatioinfolds=10,同样选择图中箭头指向选择属性,然后点击start”按钮:为了与上面决策树作比较,贝叶斯也选择第一项第一项 ClumpThickness 丛厚度和第九项 M 让 oses 有丝分裂项,得到结果如下图 10,11 所示:(图10)=DerailedBy2G:W:4-trees.J4

19、S20:15:14-hay-85HaivaBnyitE16:33-trEJ4SCorrectlyClassifiEdInstanceaInccrrctlyCia3sifiEdInstancesKappsmratimtlLUMtanabsoluteerrorRootmanscpiaiederrorfelatiwabacluizeerr-DtRootrelativeerrorTotalNumber&fIftataacea46723225K0,0e590.2104Ua.T6SBIiLt8ie2i6996.8O9733-1&D3SEETFRateETRatePrecisionRecal

20、lF-Bfetia口工tROCf0.752C.1250.9670.75E0-55O.t0.1710,104o.oe0.1710.1090/0.4240.120.1450,4240.22口.f0.0830.0290.0480-0S3CL061a.0G.皿000o.t00.0010000/00.007000o.r1250.0030.3330.12S0,1S2o.rj00000J*ClassSt*twQIX0(图11)这个是针对第一项 ClumpThickness 丛厚度和第九项 Mitoses 有丝分裂项运用贝叶 斯 算 法 得 到 误 差 分 析 的 结 果 , 分 析 可 知 总 共 有 69

21、9 个 数 据 进 行 分 类 ,ClumpThickness(丛厚度)其中 198 个为正确分类,正确分类率为 28.3262%,501 个为错误分类, 错误分类为 71.6738%而第九项 Mitoses 有丝分裂项其中正确分类有 467个数据,正确率为 66.8097%,错误分类的有 232 个,错误分类的有 33.1903%=根据混淆矩阵,被错误分类实例很多,相对来说,ClumpThickness 丛厚度用两种方法混淆程度差不多,错综复杂,而 Mitoses 有丝分裂项用贝叶斯分类明显混淆矩阵要比用决策树方法混淆率要低,中间第六项到就第九项明显混响不是很多,如图 12所示。基于以上两种

22、分析,建议用贝叶斯分类方法分类,降低混淆率,提高正确率。=ConfusionMatrix=abcdefqh14-7,310QD31石7127|h=(7.3-E.2)00Q110130S|i-T(8.2-9.1T000063717234|-T(9.1-inf=Matrix=中bcdeqhiJibk,选择 Cross-Validatioinfolds=10,然后点击“start”按钮:同样选择图中箭头指向选择属性,然后点击“start”按钮:为了与上面决策树和贝叶斯作比较,K 最近邻算法分类也选择第一项 ClumpThickness 丛厚度和第九项 Mitoses 有丝分裂项,得到结果如下图 13

23、,14 所示:9tfK.Huptuit/lI.TBk-E1-W0fweka.core.neiEhbowrsearch.LineairNNSeurch-Ac0re.EuclidleuiDist_Rirs1-11VCl-asifilestinoOSupplied-1CFOSS-VHJidalimFoldsIDPercentagespl1166CFTeia.lMitosis2DIQ.49-/&J4320:15:14-b屯yi口经廿力好”20:13:33-trees.J4S20:29:09-hayE.ITiaiVEa.ysOK69fi:1(5.5-fi.10:1i&.l-i+00B11

24、100.2220*=ratifiedeross-validatlon=Sunwry=CaEZ-ecElyClassifnedInsrancea19127.3247*InearrecElyClBasifi-ed.Inszatitfrs50E72.753%Kapp*statistic0,1358M.eanabsoluteerror0.1531RaonreansquarederIDE-0-3227F.RelfiEtve总士士白士90+53fil*Rostrelativesquarederror109,88521TotalSwnierofInstancea599=DetailedByClass=TFR

25、a.urPRatePrecisionRecallf-MeafluxeROCI.690.3S7白.336cu/g。川5工口口曲80*10.04.0 x057Qu0.102o.ioe0,1470.1020,120.!O.QBS0.0l0.1S-6o.oss0.1120.!0.2B9口,一.269-0-135修.3130.269口=M650.Q270.33302650.295QBI*.j111FCla-EBifierOutp以匕(图 13)(图 14)这个是针对第一项 ClumpThickness丛厚度和第九项 Mitoses有丝分裂项运用 K最近邻算法得到误差分析的结果,分析可知总共有 699 个

26、数据进行分类,ClumpThickness(丛厚度)其中 191 个为正确分类,正确分类率为 27.3247%,508 个为错误分类,错误分类为 72.6753%而第九项 Mitoses 有丝分裂项其中正确分类有 546个数据,正确率为 78.1116%,错误分类的有 153 个,错误分类的有 21.8884%根据混淆矩阵,被错误分类实例很多,相对来说,ClumpThickness丛厚度与前两个算法混淆程度差不多,错综复杂,甚至比前两个更要复杂,而 Mitoses有丝分裂项用 K 最近邻算法明显混淆矩阵要比用决策树方法和贝叶斯方法混淆率要低,中间第四项到就最后明显混响不是很多,如图 15 所示

27、:=ConfusionMatrix=abcdefgiiij-classifiedas100221131Q0021a=T(-inf-1,9362513100021b=ri,g-2町635111110013131c=,m.714201S7S12104Id-1(3.7-4.61444121035129211e=7(4.-5.5171328910031f.T(5.5-6.4)10221133191g=(6.4-7.3*0244843101101h=(7.3-6.2100115002231i-7(S.2-9.15411219311212Ij-T(9.1-inf)*-CcnisianMatrixabcde

28、fghijclassifiedas53a=1-inf-L.9273211000011b=r(1-9-2.81271320000001=12.B-3.7J*72200010001d-1(3.7-4,651000000001e=14.6-5,500011000011f=5-6.年70100010001g=116.4-7.3)1610Q100000Ih=1(7.3-e.2rOOOOOOflOOOIi-1(6,2-9.1)1100121000001j=T(9.1-inf(图 15)3.4 三种分类方法结果比较综上所述,分析三种算法的正确率和错误率,同样针对 699 的数据,C

29、lumpThickness(丛厚度)用三种算法正确分类个数分别为 102 个、198 个、191 个,正确分类率分别为 26.03726%28.3262%27.3247%,错误分类个数分别为 517 个、501个、508 个,错误分类率分别为 73.9268%、71.6738%72.6753%=第九项 Mitoses 有丝分裂项用三种算法正确分类分别为 579 个、467 个、546,正确率分别为82.8326%66.8097%78.1116%,错误分类的分别为 120 个、232 个、153 个,错误分类的有 17.1674%33.1903%、21.8884%为便于比较,将上述数据统卜表中,

30、如表 1 所小:决策树贝叶斯K最近邻算法ClumpThickness止确率26.03726%28.3262%27.3247%,ClumpThickness标准误差0.31090.31190.3227Mitoses止确率82.8326%66.8097%78.1116%Mitoses标准误差0.17550.21040.1989(表 1)比较结果分析:根据上述数据,我们模型好坏的评价标准 Rootmeansquarederror(均方差):越小越好。针对 ClumpThickness(丛厚度),贝叶斯不仅有最高的准确率和相对较好的标准误差,而且比较三种分类方法的混淆矩阵(如图 9、12、15),混淆

31、率相对来说也是最低的,其他两种方法的正确率都不及贝叶斯高,而且其他属性也可能错综复杂。针对 Mitoses(有丝分裂),决策树方法不仅有最高的完美正确率,而且有较好的标准误差, 但这种完美的背后, 很有可能是以其他属性较大错误率作为代价,这点可以从三个分类算法的混淆矩阵中得到印证(如图 9、12、15);而朴素贝叶斯分类算法的准确率相对较低,而标准误差也较高,综合评价可以得知,当前最好的分类算法是 K 最近邻算法。综上所述:针对 ClumpThickness(丛厚度)分类,选择贝叶斯分类算法,而 Mitoses(有丝分裂)选择 K 最近邻算法。(其中 ClumpThickness 标准误差和

32、Mitoses 标准误差如下图 16,17 所示)。CcrrectlyZlasflifiedInstancesIncorrectlyClassifiedInstancesKappastatisticMeanabsoluteerrorRoocme己口squarederrorRelativeabsoluteerrorRootrelativesquarederrorIctalMuirberofInstanceaCorrectlyCLasaiiidIrtstinceflInccirrectLyClassifiedInstanceaKappastatisticMeanabsoluteerrorRootm

33、eansquarederrorRelativeabaaLuteerrcrRcotrelativesquarederrcrTotalNumberofInstancesCorrectlyClasaifiedInstanceaIncorrectlyClassifiedInstancesKappaatatigticMeanabsoluteerrorRootmeansquarederrrRelativeabsoluteerrorRoot18226.0372上51773.9G28*0.120.16110.3109L93.3143105.esit69919828.3262M50171,C73E+0.1476

34、0.151137,5202106.1925%69919127.3247士SOB72.57S3号0.13580.1563口.3227*90,5361%109.BSS2%99(图16)CorrectlyClassifiedInaranceaIncorrectlyClaasifiedInstancesKappasratiaticMeanabsoluteerrorRootireansquarederrorRelativeabsoluteerrorRootrelativescpiarederrorTotalNumberatInstances579S2.2326*12017.1674%00,0616017

35、CQ,970S16*99*97671699CorrectlyClasaifiedIncancesincorrectlyClassifielInstancesappastatisticteanabaolureerroricotmeansquarederrorRelativeabsoluteerrorloctrelativesquarederrorrctaiNmnber=fInstances467CG.B097%23233.1903毫0.25970.0590,2104103.763B%119.e4B2%E99relativeaquarsdeirorTotalKuirterofInstancesCo

36、rrectlyClisaifiedInstancesInccrrectlyClassifiedInatanceaKappastatisticMeanatsoluLeerrorRootmean5guarederrorRelativescaoluteerrcrRootrelativesquarederrorTotalMuzrterofInstancea(图17)4 .三种算法在进行测试的性能比较要进行性能比较,则需比较这 10 项属性的预测,同上文一样,这里只比较第一项 ClumpThickness 丛厚度和第九项 M 计 oses 有丝分裂项,点“moreoptions”按钮,选勾选“outpr

37、ediction,其他不勾选,然后点击“OK”按钮如图 18 所示:。WekaExplorerPreprocessClassifyClusterAssociateSelectat.tributesClassifi丁匚konsu工EM-K1一*OA,vweka.core,xieigilkBo-uirseKi-clx-LxnClassifieroutputentropyevalu.a.f.1oikme-3.suj-esOutputIStorepredictiexis*rvisuaJ_iza.tionOutputadditiaB?TOS&EQ6ED&TO&O*+1T”7 丁工

38、t:6tg*fQiSOIDF9(rQi+T-juj-prli?T-3B3):ST口EEI-fr9T&TrODD+5-91&.E-B-Z3.1.二军4tagao990tJiS0&0*+T-JUT-li!fc:T-eEl.:9TETEFLNMD一1QP1511P+=E,tTym写工0D00+T-T61?OT-3SibSPU口Q+FTFr工习KTR*T9DTB0Z9TD0010T&frJ0*+T-JUT-1STC-BZ)t:ZT00Q0+T8-ETtl+i8T、TFfcIETT19口口SSTOSZOO9&J0*+T-JUT-I4.STBeBEn应01tJTQL

39、EIParimQT+X-JUT-JiTT-flrEl1ES辱SSIaO99EP.9ECTLOGP+甘) -fr5SITDeOEOETSOT+J-JUT-h.,!”.=心“CT口LOIJ0LET。frfrExt*话二牛?F1:&9E0B0gGEOEE。口Etsg+T-JUT-J*f-tB).二,S白白口口LOSJCl*60JO!?1ZJO+Atrfr-jLC)n;&fr己QQQ99Q(J+T-JUT-P”工gaQ+Ae-rxtgtJb=*zS900aozoggoaOiSJ&O*+T-JUT-p!fc?Tfr-4:Tu.oizn-q:TJ.ETpAnmciwqcjxdaJ.OJ.Z3psq-DTP-S-xdJr,Pinq.DP*f-zcurLV皿 p?000占MPN。0P?0fl+0?00*0?00+0?0D+0?0D+0360t-jui-J,it二一;U1营七00000D00TTl*O9Ba0vt-JUI-1,-TI-JUT-)-T3Z00BEOO000000T-jni-),T官0QQQQQQ00Q一孑口工一).TI-JUT-.T网网00000000询 3t-JUl-j,iTI-JUT-)*t6T000000000S66J0I-JUT-)-IST000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论