数据挖掘6个实验实验报告_第1页
数据挖掘6个实验实验报告_第2页
数据挖掘6个实验实验报告_第3页
数据挖掘6个实验实验报告_第4页
数据挖掘6个实验实验报告_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中南民族大学

计算机科学学院综合实验报告姓名年级专业软件工程指导教师学号序号实验类型综合型成绩评定评语:教师签名:年月日2016年12月10日

年级14级专业软件工程班级2班组号实验室日期实验名称实验内容分项内容实验级别l.Weka环境熟悉;决策树(1)2.决策树(2)3.关联规则,聚类分析4.KDD案例5.属性相关性,神经网络(1)6.神经网络(2)小组成员姓名学号组内分工自我评分教师评分实验1、Weka环境熟悉;决策树(1)分项实验目的(1)熟悉Weka软件的环境和基本用法;(2)掌握ARFF数据文件的编制方法;(3)学习应用Weka软件建立决策树的方法,并理解决策树的剪枝和未剪枝的分类效果。一、具体题目:1、参照教材19-22页内容,熟悉Weka软件的安装及使用环境;2、在记事本程序中编制ColdType-training.arff,ColdType-test.arff3、打开Weka软件,并参照教材1.9.2,1.9.3小节,完成相关操作,并理解相应处理结果。实验要求4、根据教材表2.1所提供的数据集T,基于Weka软件,应用C4.5法建立决策树,预测某个学生是否决定去打篮球。要求:(1)采用arff文件来完成;(2)分别完成决策树剪枝和未剪枝的情况。二、系统平台:Weka3.6实验原理步骤{算法流程}1.加载了实验原理步骤{算法流程}1.加载了ColdType-training.arff文件后的WekaExplorer界面:一、使用Weka建立决策树模型1、准备数据:在记事本程序中编制ColdType-training.arff,ColdType-test.arff。2、加载和预处理数据。3、建立分类模型。(选择C4.5决策树算法)4、分类未知实例二、使用Weka进行聚类1、准备数据:使用ColdType.csv文件作为数据集。2、加载和预处理数据。3、聚类(用简单K-均值算法)4、解释和评估聚类结果三、完成感冒类型的相关操作及相应处理结果感冒类型诊断分类模型输出结果:Sore-throat=Yes|Cooling-effect=Good:Viral(2.0)|Cooling-effect=Notgood:Bacterial(4.0/1.0)|Cooling-effect=Unknown:Bacterial(1.0)Sore-throat=No:Viral(3.0)NumberofLeaves:4Sizeofthetree:6Timetakentobuildmodel:0.02seconds===Evaluationontrainingset======Summary===CorrectlyClassifiedInstancesIncorrectlyClassifiedInstancesKappastatisticMeanabsoluteerrorRootmeansquarederrorRelativeabsoluteerrorRootrelativesquarederrorTotalNumberofInstances910.80.150.273931.0345%55.8694%109010%%===DetailedAccuracyByClass===TPRateFPRate0.833010.167WeightedAvg.0.90.067PrecisionRecallF-Measure10.8330.9090.810.8890.920.90.901ROCAreaClass0.9380.9380.938ViralBacterial===ConfusionMatrix===ab<--classifiedas51|a=Viral04|b=Bacterial分析:①该输出结果给出了决策树的结构,该决策树共有六个节点,其中四个节点为叶子。该决策树的检验数据为训练数据,检验的结果为分类的正确实例数占90%,分类错误的实例数占10%。由最后的混淆矩阵可看出,有5个实际为Viral的实例,正确的分到了Viral类中;有4个实际为Bacterial的实例也被正确的分类到了Bacterial类中;但是有一个实际为Viral的实例却被错误的分到了Bacterial类中。②通过分类正确率可对分类模型的质量进行初步评估,因本例中该值为90%,可以认为模型的性能较好。但是本例中使用的数据为训练数据,所以模型在未来的未知数据中所表现的性能还不能通过现在的分类正确率进行评估。感冒类型诊断决策树:

[£WekaClassifierTreeVisuallzer:20:23:30-tree...TreeYLewSore-throat■=Good'■=NO'■=Good'■=NO'4.感冒类型诊断聚类结果:Clustercentroids:Cluster#AttributeFullData01(10)(5)(5)Increased-lymYesYesNoLeukocytosisYesNoYesFeverYesYesYesAcute-onsetYesYesNoSore-throatYesNoYesCooling-effectGoodGoodNotgoodGroupYesYesNoTimetakentobuildmodel(fulltrainingdata):0seconds===Modelandevaluationontrainingset===ClusteredInstances05(50%)15(50%)

CourseNoC5.0)Weka:Instanceinfc四.应用C4.5算法建立决策树,预测某个学生是否决定去打篮球。分析:由上图可知,这个被错误分到簇Clusterl中的是实例7。Plot:20:4&:58-SimpleKMeana(ColdT^pE-trInatance:7未剪枝的决策树:国W己k宙ClassifierTreeVisuallizer:21:09:21-trees.JInstancenumberCourseNoC5.0)Weka:Instanceinfc四.应用C4.5算法建立决策树,预测某个学生是否决定去打篮球。分析:由上图可知,这个被错误分到簇Clusterl中的是实例7。Plot:20:4&:58-SimpleKMeana(ColdT^pE-trInatance:7未剪枝的决策树:国W己k宙ClassifierTreeVisuallizer:21:09:21-trees.JInstancenumberIiige自非日一LymLEuliDcytaaiaFeverAcute-onaetGq-q-1ing-e^ec.tSeou-PCold-typeViralClusterclusterl-Sunn/Yes(5.0)''二Rain''NoC5.0/2.0)'urseather剪枝后的决策树:国WekaClassifierTreeVisualizer:21:09:21-trees」..'No(5.0)'-Sunny''二Rain'7es(5.0)1'No(5.0/2.0)1通过本次实验,我掌握ARFF数据文件的编制方法,并且学会了应用Weka软件建立决策树的方法,并理解决策树的剪枝和未剪枝的分类效果。实验收获分析:由上图可知,未剪枝和剪枝的决策树是一样的,理论上应该是有差别的,可能因为此例中数据量过少,所以它们的差别没有显现出来。实验分项2、决策树(2)(1)进一步熟悉Weka软件的环境和基本用法;实(2)学习应用Weka软件建立决策树的方法,并理解决策树的剪枝和未剪枝的分类验效果。目的一、具体题目:1、对例2.3进行验证。使用来自UCI的Creditscreeningdatabase数据集,应用weka的J48算法建立2棵决策树,分别为剪枝和未剪枝的情形。2、对以上问题,分别米用usetrainingset和cross-validation方式进行验证。实验3、理解决策树算法的不稳定性:将表2.1中的第3条实例的Play属性值由Yes改要为No,再进行相同的决策数训练,比较生成的分类模型。求二、系统平台:Weka3.6实验原理一、使用来自UCI的Creditscreeningdatabase数据集,应用weka的J48步算法建立的决策树。骤(1.用usetrainingset验证算法未剪枝的决策树:流程),+(Vau)'(130.0/3.0),1'(0.0),输出结果:===Classifiermodel(fulltrainingset)===J48unprunedtree===Evaluationontrainingset======Summary===CorrectlyClassifiedInstances65594.9275%IncorrectlyClassifiedInstancesKappastatisticMeanabsoluteerrorRootmeansquarederrorRelativeabsoluteerrorRootrelativesquarederrorTotalNumberofInstances===DetailedAccuracyByClass===350.89690.08660.20617.5277%41.4557%6905.0725%TPRateFPRateClassPrecisionRecallF-MeasureROCArea0.9250.031+0.9590.9250.9420.9770.9690.0750.9420.9690.9550.977-WeightedAvg.0.9490.0560.950.9490.9490.977

===ConfusionMatrix===ab<--classifiedas28423|a=+12371|b=-剪枝后的决策树:1^-]WekaClassifierTreeVisualizer:21:40:40-treesJ...一■+(27.24/8.:C'+I,+('(5.(1,+-■+(27.24/8.:C'+I,+('(5.(1,+-(3.6/0.16),'-(30.'+(2.0)1===Classifiermodel(fulltrainingset)===J48prunedtree===Evaluationontrainingset======Summary===CorrectlyClassifiedInstances62690.7246%IncorrectlyClassifiedInstances649.2754%Kappastatistic0.8125Meanabsoluteerror0.1564Rootmeansquarederror0.2781Relativeabsoluteerror31.6573%Rootrelativesquarederror55.9554%

TotalNumberofInstances690===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.9020.0890.8910.9020.8960.937+0.9110.0980.9210.9110.9160.937-WeightedAvg.0.9070.0940.9070.9070.9070.937===ConfusionMatrix===ab<--classifiedas27730|a=+34349|b=-2.用cross-validation验证未剪枝的决策树:输出结果:*t未剪枝的决策树:输出结果:*tAA15,'十(2.0),■'-(2'+(2.0)1暨E'+(2.09/0.09}1===Classifiermodel(fulltrainingset)===J48unprunedtree===Stratifiedcross-validation======Summary===CorrectlyClassifiedInstances56581.8841%IncorrectlyClassifiedInstances12518.1159%Kappastatistic0.6314Meanabsoluteerror0.202Rootmeansquarederror0.3982Relativeabsoluteerror40.8871%Rootrelativesquarederror80.1346%TotalNumberofInstances690===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.7720.1440.8120.7720.7910.819+0.8560.2280.8240.8560.840.819-WeightedAvg.0.8190.190.8190.8190.8180.819===ConfusionMatrix===ab<--classifiedas23770|a=+55328|b=-剪枝后的决策树:

0.819-WeightedAvg.0.8190.190.8190.8190.8180.819===ConfusionMatrix===ab<--classifiedas23770|a=+55328|b=-分析:由剪枝和未剪枝的结果可以看出,未剪枝的决策树尽管得到了更高的分类正确率,但是因其决策树宽度较大、分支较多,对于结果的解释能力较弱,分类的一般化程度较低。通过本次实验,我进一步掌握了Weka软件建立决策树的方法,并理解决策实验树的剪枝和未剪枝的分类效果。收获

实验分项3、关联规则,聚类分析(1)进一步熟悉Weka软件的环境和基本用法;实(2)学习应用Weka软件生成关联规则的方法;验目(3)学习应用Weka软件进行K-means聚类分析的方法。的一、具体题目:1、根据教材表2.3所提供的数据集,基于Weka软件,应用Apriori算法建立关联规则。要求:(1)米用arff文件来兀成;(注意文件头部的@relation,@attribute,@data等信息不能缺省)(2)将表2.3的数值型数据改为分类类型数据。实验2、对教材表2.6的数据集,应用Weka软件进仃K-means聚类,注意先建立要求一个arff文件。3、对教材习题2-10题,进行上机验证。二、系统平台:Weka3.6实验原理1.根据教材表2.3所提供的数据集,基于Weka软件,应用Apriori算法建立关联规则。步骤输出结果:算法流程AprioriMiniirmnsupport:035(3instanceaJMiniirmnmetric<ccrnzidence>:Numbercz-cyclesperzonnEd:13Generatedsetsczlar^eitems-ets:SiseczsetcfLargeitemsetsL(1:LargeItenisetsL[1J:日口oJi=05BDok=L5Sneaker=05SnEaker=l5Earphone=03Earphone=l7□VD=1eJuice=O3Juice=l7既日Erule?1.BDQt=IJ2.Bdq]t=CJBoak=LBoQk=LJuice=14==>DVZJ=14373=14==>Juice=14DV3=14==>Esrph&ne=lEarphone=l4==>373=15.Sneaker=0DVD=14==>Ear-phcne=lfi,SnEalier-=0Eatphcrne=l4==>J7J=17.Earphane=1Juice=14==>DVD=14conz:⑴c&nz!⑴conf:(!)conf:(1Jconz:(1jGonz;(1)cont:(1)..10.Earphane=03==>Juice=13Juice=03==>EarptLDne=L3Sneaker=lJuice=13==>373=18111:(1)CDnz-:(1)3conf:(If分析:由以上输出结果可知,支持度阈值为0.35,置信度阈值为0.9,以及生成的关联规则有10条,置信度都为100%。2、对教材表2.6的数据集,应用Weka软件进行K-means聚类,注意先建立一个arff文件。①K-means聚类的输出结果:Clujtet:centro±dLs=AttrJ-buteFullDataTimetakentoJoutild.mrs-delffnul1xrainiiiardaiza)0.02sec-o-n-dsClLLS-ceInsxmnue岸分析:由输出结果可知,实例被分为0,1两个簇,分别有3个和2个实例,每个簇中心值分别为(4.1667,4.3333)和(1.5,1.25),与计算结果吻合。②K-means聚类的可视化输出结果:cJ-iia*t!&□c=li_is™taEl3、使用打篮球数据集进行K-means无指导的聚类,检查聚类结果输出结果:3(£0%)2[4Q=t)3,13・14,1GA74:・3333Cl.AEE£O1OlUTJfizhrdeJ_aneva]_liiationont^rain.in.gset礼:Inste^numi'ber(Uum.)Y:工tirum)Co-louir:ClusterO^oanJSeieatZustolziqt|圣|WalesClustersrVisu^li^s-:21:25:35-£impleKM^an&(...R.-.C...OpeziSiflLVC!PJ-ot:tclxisd

实验分项4、KDD案例实验的学习应用Weka软件进行KDD案例分析的基本步骤;学习通过K-means聚类算法对输入属性进行评估的方法。实验要求一、具体题目:参照教材3.3小节,基于Weka软件,完成KDD过程模型和分析任务。要求:(1)采用arff文件来完成;(2)数据源基于UCI的CreditScreeningDatabase.arff。实验第1部分:使用Weka进行有指导的学习训练,选择C4.5算法实验第2部分:基于无指导聚类技术,对输入属性进行评估二、系统平台:Weka3.6

1、使用KDD过程模型,通过建立信用卡筛选分类模型,对申请信用卡用户进行评估,决定是否接受其信用卡申请。通过实验重点掌握KDD的数据准备、建模和评估过程,了解和体会KDD的迭代过程。①分类模型训练结果:===Evaluationontestsplit======Summary===实验原理步CorrectlyClassifiedInstancesIncorrectlyClassifiedInstancesKappastatisticMeanabsoluteerrorRootmeansquarederrorRelativeabsoluteerrorRootrelativesquarederrorTotalNumberofInstances198370.68010.20320.341841.0193%68.4314%23584.2553%15.7447%骤(===DetailedAccuracyByClass===算法流程)TPRateFPRateClass0.7520.079+0.9210.248Precision0.8910.811RecallF-Measure0.7520.8160.9210.862ROCArea0.8930.893-WeightedAvg.0.8430.170.8480.8430.8410.893===ConfusionMatrix===ab<--classifiedas8227|a=+10116|b=-分析:通过输出结果,得出检验集分类正确率为84.3%,是个不算太差的结果,可以用于评估新申请信息卡客户。②聚类结果:dustercent-roids:FullDataClusterff0(51S>1<172)b匕bb4S0(69%)35€(€8%)124i72%)m力口(3典)L62(31承4S{<l7%J31.5fi8232«55292S«fi027十,-11・8S33+/-12.44S4+/-9.27S8-75S75-10093.72S14-7-4.978?+/-4,4-6?此Quy口525<T时511(14£0%)y1^3(23%)7(1%)490%)i■-(g0(□%)2{1%)ta<爵)0(□%)0(0%)2.属性评估Weka检测出的缺失属性值SelMlube七it』at4tri/bll*tLTnm.e:AjSType:ITonLiriiaJ-eeing;'9tlDietltict:14-Uniq.ue:0(0%)Uq.1I_a.lia1CoiUTL-t13742日303cc4L459510EkEl飞m33771dm5:AlS0?oni.)~V:i.an£izeAll1折I■178■£■j*llltall分析:由图可知,Missing显示该属性具有9个缺失值实验分项5、属性相关性,神经网络(1)实验实验目的(1)理解评估的原理,掌握属性相关性的计算。(2)理解BP神经网络的基本原理,掌握应用BP算法建立前馈神经网络的方法和步骤。一、具体题目:1.根据5.4节的5.4.1小节,基于Excel的correl函数计算属性相关性,并使用散点图来查看属性相关性,对结果进行分析。2.参照教材6.2.3小节,基于weka软件,使用BP算法创建有指导的分类模型。1.1使用MSExcel的CORREL函数计算属性相关性实验原理步骤(算法流程)实验原理步骤(算法流程)00.511.522.51.2使用散点图检查属性相关性Petal_width和Petal_length的散点图:PetaT_lengfhPetal_width和Sepal_width的散点图:

Sepal_width分析:在以上两个散点图中,根据相关系数和散点图可以判断Petal_with和Petal_length两个属性之间具有较强的正相关性,Petal_with和Sepal_with两个属性之间没有相关性。2.1应用BP算法建立前馈神经网络①解释训练结果Timetiakentobuildmodel:0«35seconds=—Fr-edictionsontrainingset:inst#ractuialrpr?edict.-edPerror100.2130.213210.794-0.206310.794-C.206400.7940.794===Evaluationontrainingset======Sinranary===CorrelatiDncoefficientMeanabsoluteerror0..57730..3549Rootmeansquared,error~U..Reliativeiabsoluteerror70™9762%Root,reliativesqusarederror87.2128%TotialNumberofInstiances4分析:从上图的输出结果可以看到,结果并不理想RMS为0.4361,4个检验集实例,2个属于XOR等于1的类实例分类正确,而2个属于XOR等于0的类实例中的一个分类错误,另一个的计算输出值为0.213,并不能清晰地确定属于哪个类。2.2结果不理想,更改结构,调整参数,重复实验.第二次实验的XOR神经网络GUI界面:Ro.t4|100O0|Mamnxi'tum第二次实验XORClassifier的输出结果:Tiretajrentotuildmodel:0,11g-econds=PredicLLDD^od.Ltiialiijaec=CDir-eLotiDDCDeffiGieztHearabsoluteerroi结果令人满意。分析:结果显示如以上两图,通过观察,实验的RMS为0,所有检验集实例分类正确,Edooh□NumOFEpoch.isErrorpEpdcLl■OE.cczreansquaiederrorE-elativeabsoluteerrorBootrelaLivesquaKderrc-rTniflLffurbeiorl口日mce日ius-ii1actualrprecLictedPerrsr000211D311D4000=Evaluationontrailingaet==Swrary=实验收获通过本次实验,我理解了评估的原理,掌握属性相关性的计算。并且理解了BP神经网络的基本原理,掌握了应用BP算法建立前馈神经网络的方法和步骤。实验分项6、神经网络(2)实(1)继续深入理解人工神经网络

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论