数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘_第1页
数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘_第2页
数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘_第3页
数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘_第4页
数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

TT£蠡护kITtc丁 K-blTa VTT£蠡护kITtc丁 K-blTa V数据挖掘实验报告学号实验名称课程数据挖掘实验一:数据准备实验类型实验名称课程数据挖掘实验一:数据准备实验类型实验目的:(1) 掌握利用文本编辑软件生成ARFF文件的方法;(2) 掌握将EXCEL表格文件转换为ARFF文件的方法;(3) 掌握数据的预处理方法。实验要求:(1)将下列表格中的数据利用文本编辑软件生成 ARFF文件:姓名出生日期性别婚否工资职业信用等级黄大伟1970.05.08男3580教师优秀李明1964.11.03男是4850公务员优秀张明明1975.03.12女是职员优秀覃明勇1981.07.11男是2980职员良好黄燕玲1986.05.08女否2560工人一般表中没有填上的数据为缺失数据。请列出你编辑 ARFF文件并在WEKA中打开该文件。(2) 将EXCEL表格文件“bankdata.xiS专换为ARFF文件的方法,并将它另存为ARFF文件“bankdata.arff在WEKA中打开该文件,写出操作过程。(3)数值属性的离散化:在WEKA中打开ARFF文件“bankdata.arf对属性“age”和“income”分别按等宽分箱和等深分箱进行离散化为三个箱。给出分箱的结果。实验结果:(1)@relationbooki@attribute姓名{黄大伟,'李 明',张明明,覃明勇潢燕玲}@attribute出生日期{1970.05.08,1964.11.03,1975.03.12,1981.07.11,1986.05.08}@attribute性别{男,女}

@attribute婚否{是,否}©attribute工资numeric@data黄大伟,1970.05.08,男,?,3580李’,1964.11.03,男,是,4850张明明,1975.03.12,女,是,?覃明勇,1981.07.11,男,是,2980黄燕玲,1986.05.08,女,否,2560(2)先把bankdata.xls转化为CSV文件格式得到bankdata.csv,再在WEKA中打开,再另存为ARFF格式,就可以得到bankdata.arff。即3.寸tankdata二出]3.寸tankdata二出]阳让F砖oEtEkcJ.[IZLKE转换为I「二 KFbankdata芋aMicrosoftOffice...ICXj30KBliaiikdat^AifFDatafile30KB,再转换得在WEKA中打开如下:Cirvnnir亠]「LOtK«L4tiCT-:bu:Jzd.b.t-d.IxstcLCtz:&4JD=-Cirvnnir亠]「LOtK«L4tiCT-:bu:Jzd.b.t-d.IxstcLCtz:&4JD=-il5-HU*t■«!.寸tz:SouAllJ-r.Ttz-tL■i■=ex31—trfiuti4LjfiPHl牙5&■arrq匚电如Lircn*=aral9iav-#_a<LZTltranl4ctLD匚•CT匕尊口11:'1—11jtr骷.IlliALww l& jHuhwui $TiHcui ,丄巳335 1引也抚' 'll.-tisClu3pcFWg) VJ[Vin^^E-BALLIkMbH吐:50T璋a:l-nncj-LzKn^T±:D4tana:伍欝IIlzziti^:C〔京)(3)对age按等宽进行离散化分箱如下:hhni曲iDUuElUK眶Th血Ighhni曲iDUuElUK眶Th血Ig沖il1EH-trSClazEQxtD2iJf^TnL=E~azinni}{■口nBi“z-=Me.LiliclIp 333lUuLLlL15512PC431333丹...2142UUdl'C50c&ccen-i...LSIaoHiTtinrt糸Sif]^Ct.#4猷F.riVit卓V-ltf1>C.HiisireQiifntily|.e:NntiaJLtllIYiqVPnCfllt'lV”:VisiiaIirt丄11对income进行等深离散化分箱如下:No.LabelCount1£0320c.02'(SO取g一4-311...£0020c.03'C31tE1.35-in£)^eoc.oBistinct:3Type:NominalUnique:0CfTR)Selectedattributeflame:LiLccmerflisEing:0(0旳200pepCKori)7[Ifi5ualijeAIL200pepCKori)200实验名称实验二:关联规则挖掘实验类型综合性实验实验名称实验二:关联规则挖掘实验类型综合性实验实验目的:(1) 掌握WEKA关联规则挖掘中的数据准备方法。(2) 掌握WEKA关联规则挖掘中的参数设置方法。(3) 掌握关联规则挖掘结果的分析。实验要求:(1)将下列事务数据库转换为二元表格形式(以项目作为属性,在某个事务中,该项目出现则取值为yes,不出现则取值为n0。)并生成ARFF文件格式。CustomerCommoditiesC1milk,egg,bread,chipsC2egg,popcom,chips,beerC3egg,bread,chipsC4milk,egg,bread,popcorn,chips,beeiC5milk,bread,beerC6egg,bread,beerC7milk,bread,chipsC8milk,egg,bread,butter,chipsC9milk,egg,butter,chips(2) 选择关联规则算法并设置相关参数。(3) 运行算法,输出频繁项集及强关联规则。(4) 从挖掘结果来看,你发现了什么有兴趣的规则?

实验结果:Customermilkeggbreadchipspopcornbeerbutterc1yesyesyesyesnononoc2noyesnoyesyesyesnoc3noyesyesyesnononoc4yesyesyesyesyesyesnoc5yesnoyesnonoyesnoc6noyesyesnonoyesnoc7yesnoyesyesnononoc8yesyesyesyesnonoyesc9yesyesnoyesnonoyes将文件保存为“yes-no.csv”,在WEKA中打开yes.csv文件,然后save为yes-no.a市即生成ARFF文件格式。⑵打开数据文件:用 “Explorer打开yes-no.arff后,切换到“Associate选项卡。选择算法:默认关联规则分析是用 Apriori算法。点“Choose按钮在弹出的窗口中可以选择关联规则算法。参数设置:单击 “Choose按钮右边的文本框会弹出参数设置对话框,可以修改默认的参数,弹出的窗口中点“More可以看到各参数的说明。设置如下图:outpiitltemSetsFdsesigfiificiaceLeveloutpiitltemSetsFdsesigfiificiaceLevelVhFdEsVh-1.0(3)运行算法单击“Start按钮开始关联分析,输出频繁项集及强关联规则。■■■bct<llc4fkciLctjCFCtodfl-■-■■■bct<llc4fkciLctjCFCtodfl-■-AprioEisuKpocV:C.2(4uetric<continences;LL日WMinierotcyclespecfomed:IfI.3.4.6.7.«.9.10.be^E=no5I.3.4.6.7.«.9.10.be^E=no5==>chLpa=Y±35be己匸=nt5==>popcotm=n。Epa(puoEi=inDl)uttei=no5==>btead^yesSS55popcoEii-nDbeec-no5-■>chips-yeschips-^esbeer-no5pcpMra-nochip3=¥e3popcorn^no5*■>b?er=to5 chipa=y^3f)cp«i;ii=nobeer^yes4==>butteE=no4<cor:f:[I)>lift:(2.B6)leT:D*16i[31conv:{3.25J<ccnf;U)>lift:(3,S6)lev:(0,15)[3]canv;(3,25)<ccn£:[i)>lt£t:(2.36)Lev:(0.15)[3]conv:(3.2;)<confI(1)><confI(L.)><conf:(ij><confi(i3>li£c;life:life:llC':£厨引lev:(0.16)[3]conv!(X25)lev:(0.16)[3]conv:(3*25)4)lev;(0.19)[3]conv:(3.75)4) (0.19)[3]conv:(3.75Jmilk=763EHg=Yies4==>chip3=Ye34iiiilk=yesbutter=np4==>tteadpez4<ccnf:(1)>lift:(2.36)lev:(0.13)[2]coiiv:(2.6)<conf:(!)>lift:(2.BSJlev:(O.l3)[2]conv:[2.&J<conf:(LJ>lifv:2»e5ilev:(0.13)[2]cqztv:[3-6)SizeofsetoElargeiteia^etsL(i):£SizeoEseto£largeiteioBe^L(E):$LZEotsetoflacgeits20^ST:sL⑶;SizeatsetoflargeitemaetjL[4):3(jtneratedsetsofIfiigeItensets:BestExilesfound:(4)我发现本来在我们看来毫无联系的事物,经过分析发现它们有着密切联系。实验名称实验三:分类知识挖掘实验类型综合性实验实验名称实验三:分类知识挖掘实验类型综合性实验实验目的:(1) 掌握利用决策树(C4.5算法)进行分类的方法。(2) 掌握利用朴素贝叶斯分类的方法。实验要求:(1)对数据集bankdata.arff利用决策树(C4.5算法)进行分类,给出得出的决策树及分类器的性能评价指标,并利用建立的分类模型对下列表中给出的实例进行分类。agesexregionincomemarriedchildrencarsave_actcurrent_actmortgagepep21MALETOWN5014.21NO0YESYESYESYES42MALEINNERCITY17390.1YES0NOYESYESNO59FEMALERURAL35610.5NO2YESNONONO45FEMALETOWN26948NO0NOYESYESYES58FEMALETOWN34524.9YES2YESYESNONO30MALEINNERCITY27808.1NO3NONOYESNO(2)对数据集bankdata.arff利用朴素贝叶斯分类方法进行分类,给出分类模型的参数及分类器的性能评价指标,并利用建立的分类模型对上表中给出的实例进行分类。实验结果:(1)Eehueip*】和伽Eehueip*】和伽riDftUICCh:鼻匸tILbUECS;«oalinh&ielaDsiCisED^tcccD<J4a-COiKZ,加臥Ec^oninrcHa氈匸ledchiiaEttcar9EXVCactCUTEOltbctHOC匕观《P卑TtfltudcI10-£oldcCCAj-v&l1datLonTtfltudcIciutici«£utei(EUJlriAiiiLLjgAec|■■■J49prunedchlldtSR<•LI cmidEn<■0I I kutiel•nI I Iuors#I I IudgigeIlli-lU;•Tt5act-Maiiled=iciIaivt4tt•MoIlUdDBeY£5VO:■VO¥EStI2.0)

■tfO(^3.0)<•i-isne.iI I I ege<-41:HOI I I AU*>41j7E£IIJJjCLibc?£1506,£;(11,0/1.C)(S.O/l-fl)HO(ZQ.O)I •惬弊ras|25hO/3.O|iCt-TK;H?(Il^TO/UrOlI I I I II4#Auj rh和h I ri I 4ajKw>2订吓Jijo2Q4TI b I I Mtwe-nsI'OS(ZJ.DltI.OiIpIHn_U[-TEtinJ(llf^Lria.AII <U.lllAtL> flI I Lkcuc R" iSM4_iIII 414JiinI I I屮耳g曲I I Xcu >ISaSQ.VJefe&l*4n>II UU4H<-■穷 P4P iwroK>iau4.]I Imil4T«<<■心 B WWMIlI p diuh出">丄I I IiJKVKP竝白*■山itt电IIIuuw> Ita<0.ili2.at.TZ&411I.D/3.DbRkLce4£lum<I***f«4Ullt4<[M«-V«lldtU4a-1■■■di1..FTf7«ci*fi17EI-Hnri4-riTrue—■litfdZxteiJ.rC14d*itudLii±utte«dn*4nhtM«JuE*timKflHaJE^Kxrd.■IxA±BU丄此1艸 *Tldf阳"tTCHUirJ<ll4TrttTEnW4P 14T«ihShe.±11.KjqlujIjm理』111*3^11皿ElQtErHdl•.iHi■,LMA.SKH.aw*rp.s1«f.4L«?*C・CJt-A«7A-9:>*»Ii-->IHE;eIB?T帥TH'£Q009七SL'&5t"曲甜4ibLSE\沱曲'M9<»'O

S«»'O

诂STD0宾MCIf1..!■—V£Q009七SL'&5t"曲甜4ibLSE\沱曲'M9<»'O

S«»'O

诂STD0宾MCIf1..!■—Vi亡非-ChC'DT--T«l*卜T丽2bti[HHC>Xig闫謂[f.?J>IHI'lX'll(hl£>t=iszEarnX如UDTBnjCQJ・•・

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论