基于weka的数据分类和聚类分析实验报告_第1页
基于weka的数据分类和聚类分析实验报告_第2页
基于weka的数据分类和聚类分析实验报告_第3页
基于weka的数据分类和聚类分析实验报告_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于weka的数据分类分析实验报告1实验根本内容本实验的根本内容是通过使用weka中的三种常见分类和聚类方法〔决策树J48、KNN和k-means〕分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比拟,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。2数据的准备及预处理2.1格式转换方法(1)翻开“data02.xls〞另存为CSV类型,得到“data02.csv〞。(2)在WEKA中提供了一个“ArffViewer〞模块,翻开一个“data02.csv〞进行浏览,然后另存为ARFF文件,得到“data02.arff〞。。3.实验过程及结果截图3.1决策树分类(1)决策树分类用“Explorer〞翻开数据“data02.arff〞,然后切换到“Classify〞。点击“Choose〞,选择算法“trees-J48〞,再在“Testoptions〞选择“Cross-validation〔Flods=10〕〞,点击“Start〞,开始运行。系统默认trees-J48决策树算法中minNumObj=2,得到如下结果===Summary===CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%Kappastatistic0.7636Meanabsoluteerror0.141Rootmeansquarederror0.3255Relativeabsoluteerror30.7368%Rootrelativesquarederror68.0307%TotalNumberofInstances26===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.824010.8240.9030.892N10.1760.7510.8570.892YWeightedAvg.0.8850.0610.9130.8850.8870.892===ConfusionMatrix===ab<--classifiedas143|a=N09|b=Y使用不同的参数准确率比拟:minNumObj2345CorrectlyClassifiedInstances23〔88.4615%〕22〔84.6154%〕23〔88.4615%〕23〔88.4615%〕由上表,可知minNumObj为2时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:分析说明:在用J48对数据集进行分类时采用了10折交叉验证〔Folds=10〕来选择和评估模型,其中属性值有两个Y,N。一局部结果如下:CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%===ConfusionMatrix===ab<--classifiedas143|a=N09|b=Y这个矩阵是说,原来是“Y〞的实例,有14个被正确的预测为“Y〞,有3个错误的预测成了“N〞。原本是“NO〞的实例有0个被正确的预测成为“Y〞,有9个正确的预测成了“N〞。“14+3+0+9=26〞是实例的总数,而〔14+9〕/26=0.884615正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。(2)K最近邻分类算法用“Explorer〞翻开数据“data02.arff〞,然后切换到“Classify〞。点击“Choose〞,选择算法“lazy-IBk〞,再在“Testoptions〞选择“Cross-validation〔Flods=10〕〞,点击“Start〞,开始运行。训练结果:系统默认lazy-IBkK最近邻分类算法中KNN=1,得到如下结果===Summary===CorrectlyClassifiedInstances2076.9231%IncorrectlyClassifiedInstances623.0769%Kappastatistic0.4902Meanabsoluteerror0.252Rootmeansquarederror0.4626Relativeabsoluteerror54.9136%Rootrelativesquarederror96.694%TotalNumberofInstances26===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.8240.3330.8240.8240.8240.768N0.6670.1760.6670.6670.6670.768YWeightedAvg.0.7690.2790.7690.7690.7690.768===ConfusionMatrix===ab<--classifiedas143|a=N36|b=Y使用不同的参数准确率比拟:KNN1234CorrectlyClassifiedInstances20〔76.9231%〕19〔73.0769%〕23〔88.4615%〕20〔76.9231%〕由上表,可知KNN为3时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:分析说明:在用lazy-Ibk(KNN=3)对数据集进行分类时采用了10折交叉验证〔Folds=10〕来选择和评估模型,其中属性值有两个Y,N。一局部结果如下:===Summary===CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%===ConfusionMatrix===ab<--classifiedas161|a=N27|b=Y这个矩阵是说,原来是“Y〞的实例,有16个被正确的预测为“Y〞,有1个错误的预测成了“N〞。原本是“NO〞的实例有2个被正确的预测成为“Y〞,有9个正确的预测成了“7〞。“16+1+2+7=26〞是实例的总数,而〔16+7〕/26=0.884615正好是正确分类的实例所占比例。二、对“data01〞进行聚类分析1.数据格式的转换(1)翻开“data01.xls〞另存为CSV类型,得到“data01.csv〞。(2)在WEKA中提供了一个“ArffViewer〞模块,翻开一个“data01.csv〞进行浏览,然后另存为ARFF文件,得到“data01.arff〞。2.聚类过程用“Explorer〞翻开数据“data01.arff〞,然后切换到“Cluster〞。点击“Choose〞,选择算法“SimpleKMeans〔numClusters=6,seed=200〕,再在“Testoptions〞选择“Usetrainingset〞,点击“Start〞,开始运行。训练结果:采用simpleKMeans算法,其中numClusters=6,seed=100,得到如下结果:Numberofiterations:3Withinclustersumofsquarederrors:6.065322314450069〔平方误差之和〕ClusteredInstancesClusteredInstances04(15%)13(12%)24(15%)33(12%)42(8%)510(38%)〔各类的包含的实例个数以及占总实例的百分比〕说明:其中当seed的取值越大,平方误差之和越小。在这次实验seed=100,得到:Withinclustersumofsquarederrors:6.065322314450069.这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离就越小。接下来“Clustercentroids〞:列出了各个簇中心的位置:AttributeFullData012345(26)(4)(3)(4)(3)(2)(10)=================================================================================sample13.522.54.666720.514.66674.511.2old-year48.076965.7559.333350.52556.541.9VEGF1.92312.752.333322.666731MVC102.1538126.45100.6667127.488.266710486.58cancer-grade2.57693.75233.33333.51.7cancer-stage2.15383.251.333332.33333.51.3cancermetastasisNYNNYYN最后“ClusteredInstances〞列出了各个簇中实例的数目及百分比:ClusteredIn

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论