数据挖掘实验报告_第1页
数据挖掘实验报告_第2页
数据挖掘实验报告_第3页
数据挖掘实验报告_第4页
数据挖掘实验报告_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习与数据挖掘实验报告第一部分:实验综述一、实验工具介绍WEKA是新西兰怀卡托大学开发的开源项目,全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysi)。WEKA是由JAVA编写的,它的源代码可通过http://www.cs.waikato.ac.nz/ml/wek/得到,是一款免费的,非商业化的机器学习以及数据挖掘软件。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的学习算法,包括对数据进行预处理,分类,回归,聚类,关联规则以及在新的交互式界面上的可视化。数据挖掘就是通过分析存在于数据库里的数据来解决问题,WEKA的出现使得数据挖掘无需编程即可轻松搞定。二、实验环境搭建在PC机上面安装java运行环境即JDK环境,然后安装WEKA。三、实验目的(1)探索数据集大小与C4.5模型的精度之间的关系。(2)探索属性的个数对数据集大小与C4.5模型精度之间关系的影响。四、实验理论依据测试分类模型精度的方法依据如下表所示。PredictedclassActualclassClass=yesClass=noClass=yesa(TP)b(FN)Class=noc(FP)d(TN)Accuracy=(a+d)/(a+b+c+d)五、实验思路(1)为探索数据集大小与C4.5模型精度之间的关系,采用实例数据集的训练集进行测试。对数据集进行多次筛选采样,通过移除不同百分比的数据实例形成大小的训练集(wake设置为Filter.filters.unsupervised.instance.RemovePercentage,在分类测试中采用usetrainingset方法进行测试,并记录测试模型的精度,在实验过程中不改变属性值得个数。换用不同的数据集,重复该实验过程,并记录实验结果,最后进行实验分析总结得出实验结论。(2)为探索属性的个数对数据集大小与C4.5模型精度之间关系的影响,使用一个数据集,采用一个带筛选器的分类器。对该数据集的属性进行随机抽样筛选,并对处理后的训练集进行测试,采用Cross-validation方法,并记录测试结果。修改属性抽样的百分比,重复进行实验,记录实验结果,最后进行分析总结得出实验结论。六、实验使用数据记录及相关信息实验使用数据集的文档后缀为日市格式。数据集名称实例个数属性值个数sick377230segment231020splice319062letter200017anneal89839

第二部分:实验过程及部分截图以sick.arff数据集为例,给出实验具体过程,重复实验的数据集实例只给出实验结果。实验一、测试数据集的大小与C4.5模型精度的关系。(1)选用sick.arff数据集,该数据集有3772个实例,30个属性,无缺省值。如下图。。WekalExplare-rIilttrChooseIFofieCurrentrelation.KeLatioiL:乩Ix.5t-SiTiCtIilttrChooseIFofieCurrentrelation.KeLatioiL:乩Ix.5t-SiTiCt5:3772(jp&nHL..UndoEdit...5electedattributeHane:ageHiding:]WHistiiict:03Type.iririerLCMge:5也%)Class]tyClusternSSDClS.teSelectatti:batesVisualizehreprocesES-t5.ii.3ticAttributee(2)使用筛选器对数据集进行无监督随机抽取,随机抽取300个实例数据作为新的训练集。S-t5.ii.3tic进入Classify选项,选择Classifier为weka.classifers.trees.J48测。试选项testoptions为usetrainingset方法。(4)点击start按钮,可得训练集大小为300对应的模型精度为98.3%。0.1E1lflicrogpgIsiftEtAA&£fL{r嶷LaaI0.1E1lflicrogpgIsiftEtAA&£fL{r嶷LaaIEW+虬..]JCw'』如[邮!-\lQ1Fvrg心■iplil[06~Iwi-loptionsCcrrettlyClwailfledJiaafanctsIccciEtctlvClA-3-alfiedIzimbjue♦Ux«ItrtiEktaest^29S96-3333Il.MfilI(5)改变随机筛选的数据集的训练集大小重复实验并记录结果Clui-sify-■!s1<*O.4SKSL£1»rW*-C-w£得下表。训练集大小300400500800120015002000250030003500模型精度98.23%99.25%98.41%99.26%99.25%98.6%99.45%99.12%99.8%99.68%目前我们得到的实验结果如上。在该实验过程中筛选设置,分类设置都相同,变化的只有随机选择的数据集即训练集的大小,故可认为该实验粗略的表明了数据集大小与模型精度的关系。实验二、属性的个数对数据集大小与C4.5模型精度之间关系的影响。(1)打开数据集splice.arffo(2)进入Classify设置Classifer为weka.classifers.meta.FilteredClassifer其选项设置如下图。QwekaenericObjjectEdQwekaenericObjjectEditorwuJ.awni.Ei$上-二.F£1EieirA-hcutClassforrunninganar&itrar^classifierondatathathasMor«=Deenthroughanarbitraryfilter.Ua.bl±11.xebOpaiL.■“5qlw“□££Cozke(3)对数据集进行交叉验证cross-validation测试。(4)记录实验数据,并设置筛选器参数,改变抽取的实验属性值个数。(5)重复进行实验,并记录结果如下表。属性个数(%)102030405060708090100模型精度(%)63.3270.7874.9274.2676.6780.6587.3687.4991.9494.07

以上为一次实验结果,多采用几个数据集进行测试,并记录实验结果。第三部分:实验记录数据实验一、数据集大小与模型精度关系。对segment.arff数据集重复进行实验一所得实验记录如下表所示。训练集大小300500900120015001700180021002310模型精度98.33%99.4%99.0%99.08%99.2%99.2%99.3%99.04%98.91%实验二、属性个数对数据集大小与C4.5模型精度之间关系的影响。对多个数据集重复进行实验二所得实验记录结果如下表所示。属性比例名称10%20%30%40%50%60%70%80%90%100%segment61.3872.1681.9482.1292.7789.2296.5394.5091.6996.58sick93.8796.3196.7996.6896.7993.8693.8796.2697.3496.65anneal76.9476.1678.7377.8381.2985.4187.1982.1884.0790.09第四部分:实验总结一、数据集大小与模型精度的关系。在保持属性值个数不变,使用J48分类器,通过对数据集随机选择形成不同大小的训练集,通过实验,可得如下结论。(1)训练集较小时,精度上下波动。(2)随着训练集的增大,模型精度,总体趋势为增长趋

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论