




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库与数据挖掘试验指导书东北石油大学计算机与信息技术系王浩畅试验一Weka试验环境初探一、试验名称:二、试验目的:wekaWeka环境。三、试验要求生疏weka的应用环境。了解数据挖掘常用算法。四、试验平台五、试验数据六、试验方法和步骤1、首先,选择数据集weather.nominal.arffExplorer,进入主界Openfile...weather.nominal.arff文件,2中的“Edit”可以看到相应的数据:选择上端的Associate选项页,即数据挖掘中的关联规章挖掘选项,此处要做的是从上述数据集中查找关联规章。点击后进入如下界面:2weather.arff,数据集中的类别换成数字。选择上端的AssociateAssociate选项卡中Start按钮为灰色的,也就是说这个时候无法使用AprioriApriori算法不20-300-10就可以应用Apriori算法了。Weka供给了良好的数据预处理方法。第一步:选temperrature12条不同的内容,最小值为6〔单位:华氏摄氏度,下同85,选择过滤器“choose者在同行的空白处点击一下,即可弹出过滤器选择框,逐级找到Weka.filters.unsupervised.attribute.DiscretizeExplorer”面板即可。Choose”旁边的文本框应当显示“Discretize-B10-M-0.1-Rfirst-last把attributeIndices2,333More”查看。点“OK”回到“Explorertemperature”和“humidity”已经被离散化成为分类型的属性。假设想放弃离散化可以点“Undotemperature属性信息如下显示:Humidity属性变成如下样式:3、在Classify,Cluster,Associate选项中分别尝试不同算法。七、通过试验,把握Weka的使用一、试验名称:二、试验目的:知实例进展推测,推测的准确程度来衡量所建立模型的好坏。三、试验要求1Weka2、把握关联规章算法得出结论,对问题进展总结。四、试验平台五、试验数据12car,save_act,current_act,mortgage,pep600六、试验方法和步骤1、翻开WEKA界面如下:界面中有四个选择 SimpleCLC,Explorer,ExplorerARFFOpenfilebank-data.arff可以观察数据中的属性,选择属性从右边可以看到它的取值范围1〕CSVARFFCSVARFFWEKAWEKA的主程序,消灭GUI后可以点击下方按钮进入相应的模块。我们点〔上方是不能写字的〕输入框写上javaweka.core.converters.CSVLoaderfilename.csv>filename.arff即可完成转换。Viewer”模块,我们可以用它翻开一个CSVARFFCSVARFF文件亦可。文件进展离散化:用UltraEdit〔或者其它文本编辑器〕对其进展编辑:@attributechildrennumeric@attributechildren{0,1,2,3}然后用discretizeageincomeid设置。七、通过试验,要求同学在关联规章信息猎取试验中解决以下问题,并递交完整的试验报告对于非xlsARFFARFF在算法出来的lift排前1的规章中,如: 1.age=52_maxsave_act=YEScurrent_act=YES113==>income=43759_max61 conf:(0.54)<lift:(4.05)>lev:(0.08)[45]conv:(1.85)请说明其中113、61、conf:(0.54)都表示什么含义?NaïveBayes的信息猎取一、试验名称:二、试验目的:BayesBayes对的未知实例进展推测,推测的准确程度来衡量所建立模型的好坏。三、试验要求1Weka2NaïveBayes得出结论,对问题进展总结。四、试验平台五、试验数据1bank-data.arf,12car,save_act,current_act,mortgage,pep6002、将含有600个实例的“bank-data.csv”文件中取出300个实例用做训练300503pep值用?表示。1、数据预备〔1〕bank-data.csvarff文件“bank-data.csv.arff“ID”属性不需要的去掉。把“Children”属性转换成分类型的两个值“YES”和“NO”。练数据集,并保存为文件。从后300条数据里抽取50“pep”属性都设为缺失值,并保存为文件。2、训练过程用“Explorer”翻开训练集,观看一下它是不是依据前面的要求处理好了。切换到“Classify”选项卡。点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里。树型框下方有一个“Filter...”按钮,点击可以依据数据集的特性过滤掉不适宜的算法。我们数据集的输入属性中有“Binary”〔即只有两个类的分类型Class是“Binary”的;于是我们勾选“Binaryattributes”“Numericattributes”和“Binaryclass”。能选用。右边的文本框,弹出窗口为该算法设置各种参数。查看参数说明,点“Capabilities”是查看算法适用范围。这里我们把参数保持默认。看左中的“TestOption”。我们没有特地设置检验数据集,为了保证〔overfitting〕的现象,我们有选上“Cross-validation”并在“Folds”框填上“10”。点“Start”Bayesoutput”“Resultslist”消灭了一个工程显示刚刚的时间和算法名称。〕右键点击“Resultslist”刚刚消灭的那一项,弹出菜单中选“Visualizetree”,可以看到可视化结果。3、测试过程留意待推测数据集和训练用数据集各个属性的设置必需是全都的。在“TestOpion”中选择“Suppliedtestset”,并且“Set”成要应用模型的数据集,这里是“bank-new.arff”文件。右键点击“Resultlist”中刚产生的那一项,选择“Re-evaluatemodeloncurrenttestset”。右边显示结果的区域中会增加一些内容,Class缺失值,那这些内容是无意义的,我们关注的是模型在数据集上的推测值。点击右键菜单中的“Visualizeclassifiererrors”,将弹出一个“Save”按钮,Arff〔5〕〔predictedpep这个属性上的值就是模型对每个实例的推测值 “Edit”按钮可以查看这个数据集的内容。七、通过试验,要求同学在贝叶斯信息猎取试验中解决以下问题,并递交完整的试验报告1、在数据预处理中,通过转换与否的试验比较,推断是否肯定要把“Children”属性转换成分类型的两个值“YES”“NO”。2、在算法选择时,点击“Choose”按钮后可以看到哪些分类的算法分门别类的列在一个树型框里?将些数据截图,在试验报告中进展详解。3、点击“Choose”右边的文本框,弹出窗口为该算法设置各种参数。点“Capabilities”报告中详解的参数设置状况。4“Classifieroutput”中的模型准确度等,将这些数据截图,在试验报告中进展详解。5、假设你的模型准确度不高,你是怎样通过修改算法的参数来提高准确度?一、试验名称:二、试验目的:的未知实例进展推测,推测的准确程度来衡量所建立模型的好坏。三、试验要求1WekaWeka出结论,对问题进展总结。四、试验平台五、试验数据1bank-data.arf,12car,save_act,current_act,mortgage,pep6002、将含有600个实例的“bank-data.csv”文件中取出300个实例用做训练300503pep值用?表示。六、试验方法和步骤1、数据预备〔1〕bank-data.csv”文件转化为arff文件bank-data.csv.arff“ID”属性不需要的去掉。把“Children”属性转换成分类型的两个值“YES”和“NO练数据集,并保存为文件。属性都设为缺失值,并保存为文件。2、训练过程“Explorer”翻开训练集,观看一下它是不是依据前面的要求处理好了。切换到“Classify”选项卡。ChoosetreeJ48。ChooseJ48地设定这些参数的默认值。TestOption成的模型的准确性而不至于消灭过拟合〔overfitting〕的现象,我们有必要承受10折穿插验证〔10-foldcrossvalidation〕来选择和评估模型,选上Cross-validation”并在“Folds”框填上“1点“StartBayesoutput”中。同时左下的“Resultslist”消灭了一个工程显示刚刚的时间和算法名称。〕右键点击“ResultslistVisualizetree最大化,然后点右键,选“Fittoscreen3、测试过程留意待推测数据集和训练用数据集各个属性的设置必需是全都的。在“TestOpion”中选择“SuppliedtestsetSet用模型的数据集,这里是“bank-new.arff”文件。oncurrenttestsetClass些内容是无意义的,我们关注的是模型在数据集上的推测值。点击右键菜单中的“VisualizeclassifiererrorsArff〔5〕predictedpep按钮可以查看这个数据集的内容。这里我们解释一下“ConfusionMatrix”的含义。===ConfusionMatrix===ab<--classifiedas7464|a=YES30132|b=NOpep“YES74“YES64NOpepNO”的实例,有30YES132“NO74+64+30+132=300数,而(74+132)/3000.68667正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明推测得越好。七、通过试验,要求同学在决策树试验中解决以下问题,并递交完整的试验报告1、在数据预处理中,通过转换与否的试验比较,推断是否肯定要把“Children”属性转换成分类型的两个值“YES”“NO”。2、点击“Choose”右边的文本框,弹出窗口为该算法设置各种参数。点“Capabilities”报告中详解的参数设置状况。3IFTHEN4“Classifieroutput”中的模型准确度等,将这些数据截图,在试验报告中进展详解。5、假设你的模型准确度不高,你是怎样通过修改算法的参数来提高准确度?一、试验名称:二、试验目的:对的未知实例进展推测,推测的准确程度来衡量所建立模型的好坏。三、试验要求〔BP〕学习算法。应用Weka软件,学会导入数据文件,并对数据文件进展预处理。四、试验平台五、试验数据bank-data.arf六、试验方法和步骤在开头程序〔或者桌面图标〕中找到WEKA3.6,单击即可启动WEKA,启动WEKA时会觉察首先消灭的一个命令提示符。接着将消灭如下WekaGUIChooser界面。选择GUIChooser中的探究者〔Explorer〕用户界面。点击预处理weather.arff“Currentrelation“Selectedattribute”三个区域。ChoosefunctionMultiayerPerceptron。10默认设置或适当修改。Weka在它工作时,坐在右下角的小鸟会即时起舞,随后结果就显示在右区域中。出了数据集概要并注明所需要的评估方法是默认的10折穿插验证。可以选择其他的验证方法来重分类学习。id,重复上述操作,查看结果;尝试在数据预处理阶段删除属性region,再训练神经网络;假设需要查看神经网络的图形,点击“choose”GUItrue,start七、通过试验,要求同学在贝叶斯信息猎取试验中解决以下问题,并递交完整的试验报告1、在数据预处理中,通过转换与否的试验比较,推断是否肯定要把Children”属性转换成分类型的两个值“YES”“NO2Choose”按钮后可以看到哪些分类的算法分门别类的列在一个树型框里?将些数据截图,在试验报告中进展详解。3、点击“Choose”右边的文本框,弹出窗口为该算法设置各种参数。点中详解的参数设置状况。4、请介绍你建立好的模型以及对该模型的误差分析等结果,如:消灭在详解。5、假设你的模型准确度不高,你是怎样通过修改算法的参数来提高准确度?一、试验名称:二、试验目的:进展推测,推测的准确程度来衡量所建立模型的好坏。三、试验要求1Weka2、把握回归分析算法得出结论,对问题进展总结。四、试验平台五、试验数据1所示:房子面积〔平方英尺〕占地的大卧小室房子面积〔平方英尺〕占地的大卧小室花岗卫生间有无重销售价格岩装?35299191600¥205,000324710061511¥224,900403210150501¥197,900239714156410¥189,90022009600401`¥195,000353619994611¥325,00029839365501¥230,00031989669511六、试验方法和步骤Weka构建数据集为了将数据加载到Wekaarff格式的文件中,具体介绍arffhouse.arff:将数据载入WekaWeka,依据之前的试验house.arff。用Weka创立一个回归模型Classify个模型,也就是选择期望使用的建模算法:单击Choose按钮,然后扩展functions分支;选择LinearRegression创立训练集Start,输出结果如下:解析这个回归模型selling-price的计算公式〔模型,包括一些其他信息,而此处关心的主要内容就是这个公式,如下清单所示:推测3198 9669 5 1 1七、通过试验,要求同学在聚类分析信息猎取试验中解决以下问题,并递交完整的试验报告解释得到的回归模型给出推测结果。一、试验名称:二、试验目的:RandomForestweka工具包的仿真并与RandomForest的性能。三、试验要求1Weka2RandomForest算法算法得出结论,对问题进展总结。四、试验平台五、试验数据〔150020量,7〕六、试验方法和步骤RandomForest(RF)是利用bootsrap重抽样方法从原始样本中抽取多个样本,bootsrap样本进展决策树建模,然后组合多棵决策树的推测,通过投票得出最终推测结果。RF通过构造不同的训练集增加分类模型间的差异,从而提高组合分类模型的外推推测力量。1、用weka工具进展分析,选择工具包自带的segment-challenge.arff数据集〔1500条数据,20个特征变量,7分类问题。2RandomForest试验J48进展比较分析。在仿真过程中选择数66%510个数据作为测试集。七、通过试验,要求同学在聚类分析信息猎取试验中解决以下问题,并递交完整的试验报告RandomForests算法、BaggingJ48模型的分类性能。51020棵树时,比较误差率及运行时间,并对试验结果进展说明结果参考bagging分类的结果3-1决策树J48的分类结果3-2RandomForests的分类结果A.5棵树的状况3-3B.10棵树的状况3-4C.20棵树的状况3-5【结果分析】结果比照表:分类器BaggingJ48RandomForests(5)RandomForests(10)RandomForests(20)误分率3.33%4.90%2.55%1.57%1.57%运行时间0.400.130.220.420.8〔s〕试验八基于SimpleKMeans聚类分析的信息猎取一、试验名称:二、试验目的:实例进展推测,推测的准确程度来衡量所建立模型的好坏。三、试验要求1Weka2、把握聚类分析算法得出结论,对问题进展总结。四、试验平台五、试验数据12car,save_act,current_act,mortgage,pep600失值用?表示。六、试验方法和步骤1、首先对于原始数据做预处理。把“bank-data.xls”格式数据转换为“bank-data.csv”,并删去属性“id”,保存为ARFF600bank-data.xls,另存为csvbank-data,接着将CSVARFFbank-data.arff。删去属性“id”ARFFUltraEditbank-data.arff文件,修改属性“children”为分类型.把@attributechildrennumeric@attributechildren{0,1,2,3},然后保存即可2、用Weka翻开bank-data.arff文件,进展相应设置后开头分析。〕用“Explorer”“bank-data.arff”,并切换到“Cluster”。点“Choose”按钮选择“SimpleKMeans”,这是WEKAK“numClusters”为6,说。下面的“seed”参数是要设置一个随机种子,依此产生一个随机数,用来得到KK10选中“ClusterMode”的“Usetrainingset”,点击“Start”按钮,观看右边“Clusterer
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东二年级下试卷及答案
- 2025路灯维护合同范本
- 炼铁废渣热处理与资源化利用技术考核试卷
- 笔的批量生产技术考核试卷
- 矿山质量管理与体系建设考核试卷
- 园区物业管理团队激励与绩效管理考核试卷
- 《课件审核》课件
- 羊的饲养市场营销策略考核试卷
- 稀土金属压延加工的绿色可持续发展策略研究考核试卷
- 腈纶纤维的形状记忆性能与应用探索考核试卷
- 陕西省西安市铁一中2024-2025学年七年级上学期英语期中考试英语卷
- 园林花卉 课件 第五章 室内花卉
- 人作与天开-中国古典园林艺术 课件-2024-2025学年高中美术人美版(2019)美术鉴赏
- 贵州省遵义市2024-2025学年高三上学期10月第一次适应性考试 物理 含答案
- 2024年事业单位考试题库及答案(共200题)
- DB65-T 4751-2023 重大活动气象服务规范
- 水工维护高级工技能鉴定理论考试题库(含答案)
- 2024年全国寄生虫病防治技能竞赛备赛试题库-上(血吸虫病、疟疾)
- 保障体系及小组的管理文件模板
- 行业标准-水电站运行风险管理规范
- JBT 6434-2024 输油齿轮泵(正式版)
评论
0/150
提交评论