数据挖掘实验二:实验报告_第1页
数据挖掘实验二:实验报告_第2页
数据挖掘实验二:实验报告_第3页
数据挖掘实验二:实验报告_第4页
数据挖掘实验二:实验报告_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘实验报告:实验二暨南大学网络实验室、信息安全实验室PAGEPAGE1____________________________________________________________________________________________一、实验说明及目的1、使用真实数据进行数据挖掘实验,实验前进行数据的预处理。2、训练一些不同类型的模型(具体类型可以讨论),与此同时分析哪些参数将对支持向量机(SVM)模型的性能产生影响。3、通过实验来分析预测,将其他一些属性作为森林覆盖类型(Cover_Type属性)的模型输入所产生的效果。原始数据和数据的描述见网址/databases/covertype/covertype.html4、该实验将使学生理解完成一次真实数据预处理以及在数据挖掘过程中对属性、数据覆盖类型等方面的分析工程。二、实验具体任务及其说明1、数据预处理工作(1)数据样本的生成:根据原始数据集生成统一的随机样本,样本数据量大约是原始数据量的10%,要求使用不重复抽样。(任务1)(2)森林覆盖值的映射:变换不同种类的属性,将森林覆盖值2映射到0,将其他值所有森林覆盖值(1,3,4,5,6,7)映射到1。(任务2)(3)数据预处理技巧:自行决定是否需要其他的数据预处理,注意某些Weka软件的使用技巧,如一些输入输出格式问题。有时某些方法也做必要的调整,在某些情况下必须对数据有明确的预处理,做数据预处理时可以查看Weka软件针对该技巧或方法的描述。(4)预处理说明:原始数据集非常大,具有7种类型的森林覆盖,检查整个数据集装载到Weka软件是发生的情况,如果机器内存耗尽,可以尽量增大堆的大小试试。Weka使用指南对此有描述如何操作。)2、模型训练工作(1)使用Weka分类器的评价工具进行预测。使用NaïveBayes分类器对抽样样本进行训练以预测变换的森林覆盖类型(即是映射到种类0还是1),使用10层交叉验证来评估变换的模型,Weka软件中自带有对其分类器的表现评价器,使用自带的评价器来确定变换模型的精确度和变动率指标(ROC)。(任务3)(2)对SVM模型进行训练:使用Weka软件的SMO分类器对支持向量机(SVM)模型进行训练,训练2种形式的SVM模型,一种是带多项式核函数的SVM模型,另一种是带径向基核函数(RBFKernel)的SVM模型。训练时所有的参数均使用默认值,分析并确定这些模型的精确度和变动率指标(ROC)。对SVM模型进行所有的抽样样本进行训练可能会很慢,所以对抽样样本进行分割,即使用1/20的抽样样本数据(或者1/200的原始数据集)进行训练,使用19/20的抽样样本进行测试。(任务4)(3)对SVM模型训练后进行评估:使用至多1/20的抽样数据进行训练,以找出带RBF核函数的SVM最好的表现情况。改变参数复杂度参数C和参数gamma(在Weka中针对RBF核函数也有一个参数C,该参数将不改变),使用一个等比数列的值分析这2个参数同时变化时产生的影响,看看这2个参数同时比默认情况下大一些或小一些的情况,以找出最佳的参数设置。分析并确定所有SVM模型的精确度和变动率指标(ROC)。(注意:如果使用1/20的抽样样本数据量来训练各自的SVM模型超过30分钟,可以进一步减少样本数据量以避免计算资源的耗尽,在提交的实验报告中可以记录这些样本数据的具体训练时间)(任务5)三、实验结果的提交说明1、描述所有的数据预处理步骤。(1)在使用Weka软件的知识流工具时,提交其中的工作流图示,并对工作流中所有参数设置进行阐述。(2)提交产生抽样样本数据的代码并对代码进行适当的注释说明,还可以描述产生的样本有多少元组等。2、描述怎样训练和评估NaïveBayes模型。(1)在使用Weka软件的知识流工具时,提交其中的工作流图示,并对工作流中所有参数设置进行阐述。(2)给出模型的训练时间、精确度和变动率指标范围。3、描述怎样训练和评估上述2个SVM模型。(1)给出模型的训练时间、精确度和变动率指标范围。4、给出所有(C,gamma)参数组合序列,针对每个组合给出模型训练时间、精确度和变动率指标范围。讨论那个参数组合是最佳的。5、给出训练后NaïveBayes模型的ROC曲线和SVM模型的最佳ROC曲线,可以使用Weka软件的“ModelPerformanceChart”工具去实现,提供软件中“ClassifierPerformanceEvaluator”合适的输出作为该工具的输入。四、实验步骤及相关结果1、任务1的具体实验步骤(1)使用C程序生成抽样样本数据:#include<stdio.h>#include<string.h>intmain(){inti;FILE*fp1;FILE*fp2;charmsg[200];fp1=fopen(".\\covtype.data\\covtype.txt","r");fp2=fopen(".\\covtype.data\\project.txt","w");srand(1);while(!feof(fp1)){fgets(msg,200,fp1);i=rand()%10;if(i==1){fprintf(fp2,"%s",msg);//everylineofdatahas10%probabilitytobewritten}}return1;}//**样本有58105个实例数据。**(2)使用下面的格式表示格式、属性名、数据生成arff文件“@relationforest@attributeElevationnumeric@attributeAspectnumeric@attributeSlopenumeric@attributeHorizontal_Distance_To_Hydrologynumeric@attributeVertical_Distance_To_Hydrologynumeric@attributeHorizontal_Distance_To_Roadwaysnumeric@attributeHillshade_9amnumeric@attributeHillshade_Noonnumeric@attributeHillshade_3pmnumeric@attributeHorizontal_Distance_To_Fire_Pointsnumeric@attributeWilderness_Areanumeric@attributew_a_1numeric@attributew_a_2numeric@attributew_a_3numeric@attributew_a_4numeric@attributeSoil_Type_1numeric@attributeSoil_Type_2numeric@attributeSoil_Type_3numeric@attributeSoil_Type_4numeric@attributeSoil_Type_5numeric@attributeSoil_Type_6numeric@attributeSoil_Type_7numeric@attributeSoil_Type_8numeric@attributeSoil_Type_9numeric@attributeSoil_Type_10numeric@attributeSoil_Type_11numeric@attributeSoil_Type_12numeric@attributeSoil_Type_13numeric@attributeSoil_Type_14numeric@attributeSoil_Type_15numeric@attributeSoil_Type_16numeric@attributeSoil_Type_17numeric@attributeSoil_Type_18numeric@attributeSoil_Type_20numeric@attributeSoil_Type_21numeric@attributeSoil_Type_22numeric@attributeSoil_Type_23numeric@attributeSoil_Type_24numeric@attributeSoil_Type_25numeric@attributeSoil_Type_26numeric@attributeSoil_Type_27numeric@attributeSoil_Type_28numeric@attributeSoil_Type_29numeric@attributeSoil_Type_30numeric@attributeSoil_Type_31numeric@attributeSoil_Type_32numeric@attributeSoil_Type_33numeric@attributeSoil_Type_34numeric@attributeSoil_Type_35numeric@attributeSoil_Type_36numeric@attributeSoil_Type_37numeric@attributeSoil_Type_38numeric@attributeSoil_Type_39numeric@attributeSoil_Type_40numeric@attributeCover_Typenumeric//thelastnumericwillchangeto“{0,1}”later,thiskindisfastertopreprocess@data”2、任务2的具体实验步骤(1)使用Weka软件的探测器打开sample.arff文件。(2)在预处理时,点击“edit”按钮,选择“cover_type”属性行,选择替代值,用值“0”代替原来的值“2”,用“1”代替原来的值“3,4,5,6,7”(保持原来的值“1”不变)。打开文件后探测器显示界面如下:打开文件后指示器界面如下:替代操作界面:替换了所有的值之后,将arff文件中的命令”@attributeCover_Typenumeric”变成”@attributeCover_Type{0,1}”。3、任务3的具体实验步骤(1)使用Weka的知识流插件,具体工作流布局如下图所示:按照要求,参数设置:默认设置,交叉验证层数F=10精确度:40733 70.1024%(正确分类情况下)ROC范围:0.759历时过程及时间如下:建立模型用了20秒。(各自运行环境不同时间将不同!)模型的评价结果如上图所示。数据森林覆盖图如下所示:4、任务4的具体实验步骤(1)带多项式核函数的SVM模型情况下,使用Weka的知识流插件,具体工作流布局如下图所示:SMO参数设置如下:训练测试数据分割生成如下:精确度:4095874.1993%(正确分类情况下)ROC范围:0.744历时过程及时间如下:建立模型用了7秒。(各自运行环境不同时间将不同!)模型的评价结果如下图所示:(2)带RBF核函数的SVM模型情况下,使用Weka的知识流插件,具体工作流布局如下图所示:SMO参数设置如下:精确度:3774568.3786%(正确分类情况下)ROC范围:0.687历时过程及时间如下:建立模型用了9分钟41秒。(各自运行环境不同时间将不同!)模型的评价结果如下图所示:5、任务5的具体实验步骤不同复杂度C下,参数gamma、精确度、ROC范围、耗时的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论