2024年数据挖掘实验报告_第1页
2024年数据挖掘实验报告_第2页
2024年数据挖掘实验报告_第3页
2024年数据挖掘实验报告_第4页
2024年数据挖掘实验报告_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《数据挖掘》Weka试验汇报姓名_學号_指导教師開課學期至年2學期完毕曰期6月12曰1.试验目的

基于+Cancer+WiscOnsin+%28Ori-ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能對数据集進行分类,對算法成果進行性能比较,画出性能比较图,此外针對不一样数量的训练集進行對比试验,并画出性能比较图训练并测试。2.试验环境

试验采用Weka平台,数据使用来自east+Cancer+WiscOnsin+%28Original%29,重要使用其中的BreastCancerWisc-onsin(Original)DataSet数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大學開发。Weka使用Java写成的,并且限制在GNU通用公共证書的条件下公布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器學习以及数据挖掘软件。Weka提供了一种统一界面,可結合预处理以及後处理措施,将許多不一样的學习算法应用于任何所給的数据集,并评估由不一样的學习方案所得出的成果。3.试验环节3.1数据预处理本试验是针對威斯康辛州(原始)的乳腺癌数据集進行分类,该表具有Samplecodenumber(样本代码),ClumpThickness(丛厚度),UniformityofCellSize(均匀的细胞大小),UniformityofCellShape(均匀的细胞形状),MarginalAdhesion(边际粘连),SingleEpithelialCellSize(單一的上皮细胞大小),BareNuclei(裸核),BlandChromatin(平淡的染色质),NormalNucleoli(正常的核仁),Mitoses(有丝分裂),Class(分类),其中第二项到第拾项取值均為1-10,分类中2代表良性,4代表惡性。通過试验,但愿能找出患乳腺癌客户各指標的分布状况。该数据的数据属性如下:1.Samplecodenumber(numeric),样本代码;2.ClumpThickness(numeric),丛厚度;3.UniformityofCellSize(numeric)均匀的细胞大小;4.UniformityofCellShape(numeric),均匀的细胞形状;5.MarginalAdhesion(numeric),边际粘连;6.SingleEpithelialCellSize(numeric),單一的上皮细胞大小;7.BareNuclei(numeric),裸核;8.BlandChromatin(numeric),平淡的染色质;9.NormalNucleoli(numeric),正常的核仁;10.Mitoses(numeric),有丝分裂;11.Class(enum),分类。3.2数据分析由+Cancer+WiscOnsin+%28Ori-ginal%29得到一组由逗号隔開的数据,复制粘贴至excel表中,选择数据——分列——下一步——逗号——完毕,该数据是有关乳腺癌数据集,有11個属性,分别為Samplecodenumber(样本代码),ClumpThickness(丛厚度),UniformityofCellSize(均匀的细胞大小),UniformityofCellShape(均匀的细胞形状),MarginalAdhesion(边际粘连),SingleEpithelialCellSize(單一的上皮细胞大小),BareNuclei(裸核),BlandChromatin(平淡的染色质),NormalNucleoli(正常的核仁),Mitoses(有丝分裂),Class(分类),由于复制粘贴過来的数据没有属性,因此手工添加一行属性名。Weka分类数据需把excel保留為一种csv文献。3.2.1.csv->.arff将CSV转换為ARFF最迅捷的措施是使用WEKA所带的命令行工具。打開weka,之後出現GUI界面,如图1所示:(图1)點击進入“Exploer”模块,要将.csv格式转换為.arff格式,點击openfile...,打開刚保留的“乳腺癌数据集.csv”,點击“Save...”,将文献保留為“乳腺癌数据集.csv.arff”如图2所示:(图2)图3中显示的是使用“Exploer”打開“乳腺癌数据集.csv.arff”的状况.如图3所示:(图3)3.2.2数据预处理很明显发現,所用的数据都是(numeric)数值型的,需要将数值型离散化,将“ClumpThickness”,“UniformityofCellSize”,“UniformityofCellShape”,“MarginalAdhesion”,“MarginalAdhesion”,“BareNuclei”,“BlandChromatin”,“NormalNucleoli”,“Mitoses”,“Class”离散化。我們需要借助Weka中名為“Discretize”的Filter来完毕。在区域2中點“Choose”,出現一棵“Filter树”,逐层找到“.Discretize”點击,即可得到如下所示的图,如图4所示:(图4)目前“Choose”旁边的文本框应當显示“Discretize-B10-M-0.1-Rfirst-last”。如图箭頭所示,點击這個文本框會弹出新窗口以修改离散化的参数。我們需将第1,2,3,4,5,6,7,8,9,10项离散化,其中第一项為id,可移除。把attributeIndices右边改成“1,2,3,4,5,6,7,8,9,10”。我們把這两個属性都提成10段,于是把“bins”改成“10”。其他不变。點“OK”回到“Explorer”,可以看到“ClumpThickness”,“UniformityofCellSize”,“UniformityofCellShape”,“MarginalAdhesion”,“MarginalAdhesion”,“BareNuclei”,“BlandChromatin”,“NormalNucleoli”,“Mitoses”,已經被离散化成分类型的属性。經移除後剩10项属性,其中一项如图5所示,10项属性可视化如图6所示:(图5)(图6)在進行数据搜集和整顿的過程中,我們发現假如属性的类型為数值型的话,在做关联分析時将不能得到成果,可以比较图3和图5,图3是数值型,图5是数据离散化之後的。由于关联分析無法处理数值型数据,因此,我們進行了数据离散处理後使得需要分析的数据变為分类型,這样就可以关联分析得以顺利進行。因此通過预处理数据可以提高原数据的质量,清除数据噪声和与挖掘目的無关的数据,為深入的挖掘工作莫定可靠的基础。3.3数据分类算法针對這些有关乳腺癌数据集,重要分别采用的分类措施是决策树算法、K均值算法、朴素贝叶斯分类算法。由于该数据集有10個属性,则下文中對每個属性進行分类的环节大体相似,由于篇幅原因,只截取其中两個属性,目前就所选截屏属性作申明,选第一项ClumpThickness(丛厚度))和第九项Mitoses(有丝分裂)。3.3.1决策树分类用“Explorer”打開刚刚得到的“乳腺癌数据集.csv.arff”,并切换到“Class”。點“Choose”按钮选择“tree(weka.classifiers.trees.j48)”,這是Weka中实現的决策树算法。选择Cross-Validatioin

folds=10,选择图中箭頭指向选择属性,然後點击“start”按钮。得到成果如图7和图8所示:(图7)(图8)這個是针對第一项ClumpThickness丛厚度和第九项Mitoses有丝分裂项运用C4.5决策算法得到误差分析的成果,分析可知總共有699個数据進行分类,ClumpThickness(丛厚度)其中102個為對的分类,對的分类率為26.03726%,517個為錯误分类,錯误分类為73.9268%。而第九项Mitoses有丝分裂项也是分析699個数据,其中對的分类有579個数据,對的率為82.8326%,錯误分类的有120個,錯误分类的有17.1674%。根据混淆矩阵,被錯误分类实例诸多,錯综复杂,如图9所示:(图9)3.3.2贝叶斯分类在刚刚進行决策树分类的的那個页面,點“Choose”按钮选择“bayes”,再选择Cross-Validatioin

folds=10,同样选择图中箭頭指向选择属性,然後點击“start”按钮:為了与上面决策树作比较,贝叶斯也选择第一项第一项ClumpThickness丛厚度和第九项Mitoses有丝分裂项,得到成果如下图10,11所示:(图10)(图11)這個是针對第一项ClumpThickness丛厚度和第九项Mitoses有丝分裂项运用贝叶斯算法得到误差分析的成果,分析可知總共有699個数据進行分类,ClumpThickness(丛厚度)其中198個為對的分类,對的分类率為28.3262%,501個為錯误分类,錯误分类為71.6738%。而第九项Mitoses有丝分裂项其中對的分类有467個数据,對的率為66.8097%,錯误分类的有232個,錯误分类的有33.1903%。根据混淆矩阵,被錯误分类实例诸多,相對来說,ClumpThickness丛厚度用两种措施混淆程度差不多,錯综复杂,而Mitoses有丝分裂项用贝叶斯分类明显混淆矩阵要比用决策树措施混淆率要低,中间第六项到就第九项明显混响不是诸多,如图12所示。基于以上两种分析,提议用贝叶斯分类措施分类,減少混淆率,提高對的率。(图12)3.3.3K近来邻算法分类在刚刚進行决策树分类和贝叶斯分类的的的那個页面,點“Choose”按钮选择“laze->ibk”,选择Cross-Validatioin

folds=10,然後點击“start”按钮:同样选择图中箭頭指向选择属性,然後點击“start”按钮:為了与上面决策树和贝叶斯作比较,K近来邻算法分类也选择第一项ClumpThickness丛厚度和第九项Mitoses有丝分裂项,得到成果如下图13,14所示:(图13)(图14)這個是针對第一项ClumpThickness丛厚度和第九项Mitoses有丝分裂项运用K近来邻算法得到误差分析的成果,分析可知總共有699個数据進行分类,ClumpThickness(丛厚度)其中191個為對的分类,對的分类率為27.3247%,508個為錯误分类,錯误分类為72.6753%。而第九项Mitoses有丝分裂项其中對的分类有546個数据,對的率為78.1116%,錯误分类的有153個,錯误分类的有21.8884%。根据混淆矩阵,被錯误分类实例诸多,相對来說,ClumpThickness丛厚度与前两個算法混淆程度差不多,錯综复杂,甚至比前两個更要复杂,而Mitoses有丝分裂项用K近来邻算法明显混淆矩阵要比用决策树措施和贝叶斯措施混淆率要低,中间第四项到就最终明显混响不是诸多,如图15所示:(图15)3.4三种分类措施成果比较综上所述,分析三种算法的對的率和錯误率,同样针對699的数据,ClumpThickness(丛厚度)用三种算法對的分类個数分别為102個、198個、191個,對的分类率分别為26.03726%、28.3262%、27.3247%,,錯误分类個数分别為517個、501個、508個,錯误分类率分别為73.9268%、71.6738%、72.6753%。第九项Mitoses有丝分裂项用三种算法對的分类分别為579個、467個、546,對的率分别為82.8326%、66.8097%、78.1116%,錯误分类的分别為120個、232個、153個,錯误分类的有17.1674%、33.1903%、21.8884%。為便于比较,将上述数据统一下表中,如表1所示:决策树贝叶斯K近来邻算法ClumpThickness對的率26.03726%28.3262%27.3247%,ClumpThickness原则误差0.31090.31190.3227Mitoses對的率82.8326%66.8097%78.1116%Mitoses原则误差0.17550.21040.1989(表1)比较成果分析:根据上述数据,我們模型好壞的评价原则Rootmeansquarederror(均方差):越小越好。针對ClumpThickness(丛厚度),贝叶斯不仅有最高的精确率和相對很好的原则误差,并且比较三种分类措施的混淆矩阵(如图9、12、15),混淆率相對来說也是最低的,其他两种措施的對的率都不及贝叶斯高,并且其他属性也也許錯综复杂。针對Mitoses(有丝分裂),决策树措施不仅有最高的完美對的率,并且有很好的原则误差,但這种完美的背後,很有也許是以其他属性较大錯误率作為代价,這點可以從三個分类算法的混淆矩阵中得到印证(如图9、12、15);而朴素贝叶斯分类算法的精确率相對较低,而原则误差也较高,综合评价可以得知,目前最佳的分类算法是K近来邻算法。综上所述:针對ClumpThickness(丛厚度)分类,选择贝叶斯分类算法,而Mitoses(有丝分裂)选择K近来邻算法。(其中ClumpThickness原则误差和Mitoses原则误差如下图16,17所示)。(图16)(图17)三种算法在進行测试的性能比较要進行性能比较,则需比较這10项属性的预测,同上文同样,這裏只比较第一项ClumpThickness丛厚度和第九项Mitoses有丝分裂项,點“moreoptions...”按钮,选勾选“outprediction”,其他不勾选,然後點击“OK”按钮如图18所示:(图18)得到性能测试成果如下,图19分别為第一项ClumpThickness丛厚度用决策树措施、贝叶斯、K近来邻算法预测的成果,图20分别為第九项Mitoses有丝分裂项用决策树措施、贝叶斯、K近来邻算法预测的成果,由于数据属性的项诸多且数据量很大,重要截取了前25项左右的成果。成果如下:(图19)分析第一项ClumpThickness丛厚度。性能分析应當包括两個部分,一种部分是测试速度,另一种部分是测试的质量。由于本次使用所使用的数据量一般,不是诸多,在测试速度的對比上相差太少,無法進行精确的分析。而在测试质量上,可以從上述数据中很明显得到,在“error”(錯误项),决策树和K近来邻算法诸多加号,這阐明錯误率很大,從而导致分类质量的減少;而對于“probabilitydistribution”(概率分布项),决策树和K近来邻算法分布很混乱,前六项属性的概率分布波動较大,而贝叶斯与其相比,“error”(錯误项)几乎無“+”,阐明其錯误率相對其他两种措施,贝叶斯的錯误率減少诸多,并且在“probabilitydistribution”(概率分布项),上,分布很整洁,因此從性能角度上讲,贝叶斯算法略胜一筹。(图20)观测图20,分析第九项Mi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论