![基于weka的数据分类和聚类分析实验报告_第1页](http://file4.renrendoc.com/view10/M03/14/29/wKhkGWVzwPuAfM6jAAHw-Yoagbg587.jpg)
![基于weka的数据分类和聚类分析实验报告_第2页](http://file4.renrendoc.com/view10/M03/14/29/wKhkGWVzwPuAfM6jAAHw-Yoagbg5872.jpg)
![基于weka的数据分类和聚类分析实验报告_第3页](http://file4.renrendoc.com/view10/M03/14/29/wKhkGWVzwPuAfM6jAAHw-Yoagbg5873.jpg)
![基于weka的数据分类和聚类分析实验报告_第4页](http://file4.renrendoc.com/view10/M03/14/29/wKhkGWVzwPuAfM6jAAHw-Yoagbg5874.jpg)
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于weka的数据分类分析实验报告1实验根本内容本实验的根本内容是通过使用weka中的三种常见分类和聚类方法〔决策树J48、KNN和k-means〕分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比拟,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。2数据的准备及预处理2.1格式转换方法(1)翻开“data02.xls〞另存为CSV类型,得到“data02.csv〞。(2)在WEKA中提供了一个“ArffViewer〞模块,翻开一个“data02.csv〞进行浏览,然后另存为ARFF文件,得到“data02.arff〞。。3.实验过程及结果截图3.1决策树分类(1)决策树分类用“Explorer〞翻开数据“data02.arff〞,然后切换到“Classify〞。点击“Choose〞,选择算法“trees-J48〞,再在“Testoptions〞选择“Cross-validation〔Flods=10〕〞,点击“Start〞,开始运行。系统默认trees-J48决策树算法中minNumObj=2,得到如下结果===Summary===CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%Kappastatistic0.7636Meanabsoluteerror0.141Rootmeansquarederror0.3255Relativeabsoluteerror30.7368%Rootrelativesquarederror68.0307%TotalNumberofInstances26===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.824010.8240.9030.892N10.1760.7510.8570.892YWeightedAvg.0.8850.0610.9130.8850.8870.892===ConfusionMatrix===ab<--classifiedas143|a=N09|b=Y使用不同的参数准确率比拟:minNumObj2345CorrectlyClassifiedInstances23〔88.4615%〕22〔84.6154%〕23〔88.4615%〕23〔88.4615%〕由上表,可知minNumObj为2时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:分析说明:在用J48对数据集进行分类时采用了10折交叉验证〔Folds=10〕来选择和评估模型,其中属性值有两个Y,N。一局部结果如下:CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%===ConfusionMatrix===ab<--classifiedas143|a=N09|b=Y这个矩阵是说,原来是“Y〞的实例,有14个被正确的预测为“Y〞,有3个错误的预测成了“N〞。原本是“NO〞的实例有0个被正确的预测成为“Y〞,有9个正确的预测成了“N〞。“14+3+0+9=26〞是实例的总数,而〔14+9〕/26=0.884615正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。(2)K最近邻分类算法用“Explorer〞翻开数据“data02.arff〞,然后切换到“Classify〞。点击“Choose〞,选择算法“lazy-IBk〞,再在“Testoptions〞选择“Cross-validation〔Flods=10〕〞,点击“Start〞,开始运行。训练结果:系统默认lazy-IBkK最近邻分类算法中KNN=1,得到如下结果===Summary===CorrectlyClassifiedInstances2076.9231%IncorrectlyClassifiedInstances623.0769%Kappastatistic0.4902Meanabsoluteerror0.252Rootmeansquarederror0.4626Relativeabsoluteerror54.9136%Rootrelativesquarederror96.694%TotalNumberofInstances26===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.8240.3330.8240.8240.8240.768N0.6670.1760.6670.6670.6670.768YWeightedAvg.0.7690.2790.7690.7690.7690.768===ConfusionMatrix===ab<--classifiedas143|a=N36|b=Y使用不同的参数准确率比拟:KNN1234CorrectlyClassifiedInstances20〔76.9231%〕19〔73.0769%〕23〔88.4615%〕20〔76.9231%〕由上表,可知KNN为3时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:分析说明:在用lazy-Ibk(KNN=3)对数据集进行分类时采用了10折交叉验证〔Folds=10〕来选择和评估模型,其中属性值有两个Y,N。一局部结果如下:===Summary===CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%===ConfusionMatrix===ab<--classifiedas161|a=N27|b=Y这个矩阵是说,原来是“Y〞的实例,有16个被正确的预测为“Y〞,有1个错误的预测成了“N〞。原本是“NO〞的实例有2个被正确的预测成为“Y〞,有9个正确的预测成了“7〞。“16+1+2+7=26〞是实例的总数,而〔16+7〕/26=0.884615正好是正确分类的实例所占比例。二、对“data01〞进行聚类分析1.数据格式的转换(1)翻开“data01.xls〞另存为CSV类型,得到“data01.csv〞。(2)在WEKA中提供了一个“ArffViewer〞模块,翻开一个“data01.csv〞进行浏览,然后另存为ARFF文件,得到“data01.arff〞。2.聚类过程用“Explorer〞翻开数据“data01.arff〞,然后切换到“Cluster〞。点击“Choose〞,选择算法“SimpleKMeans〔numClusters=6,seed=200〕,再在“Testoptions〞选择“Usetrainingset〞,点击“Start〞,开始运行。训练结果:采用simpleKMeans算法,其中numClusters=6,seed=100,得到如下结果:Numberofiterations:3Withinclustersumofsquarederrors:6.065322314450069〔平方误差之和〕ClusteredInstancesClusteredInstances04(15%)13(12%)24(15%)33(12%)42(8%)510(38%)〔各类的包含的实例个数以及占总实例的百分比〕说明:其中当seed的取值越大,平方误差之和越小。在这次实验seed=100,得到:Withinclustersumofsquarederrors:6.065322314450069.这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离就越小。接下来“Clustercentroids〞:列出了各个簇中心的位置:AttributeFullData012345(26)(4)(3)(4)(3)(2)(10)=================================================================================sample13.522.54.666720.514.66674.511.2old-year48.076965.7559.333350.52556.541.9VEGF1.92312.752.333322.666731MVC102.1538126.45100.6667127.488.266710486.58cancer-grade2.57693.75233.33333.51.7cancer-stage2.15383.251.333332.33333.51.3cancermetastasisNYNNYYN最后“ClusteredInstances〞列出了各个簇中实例的数目及百分比:ClusteredIn
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社区智能化提升居民生活品质的途径
- 工程部资料员年度工作总结
- 社区健康生活之篮球场的规划与设计策略
- 聋校班主任工作总结
- 社会参与对老年人记忆力保持的影响
- 教师个人成长计划
- 室外亮化维保协议书范本
- 荒山长期承包合同范本
- 电脑软件著作权出让合同范本
- 社交媒体隐私保护策略
- 中国地方政府融资平台行业市场深度分析及投资前景展望报告
- 2025年广东中考物理学科模拟试卷(广东专属)
- 山东省济南市2024-2024学年高三上学期1月期末考试 地理 含答案
- 发酵馒头课件教学课件
- 2024-2025学年初中信息技术(信息科技)七年级下册苏科版(2023)教学设计合集
- 《心系国防 强国有我》 课件-2024-2025学年高一上学期开学第一课国防教育主题班会
- GB/T 4706.30-2024家用和类似用途电器的安全第30部分:厨房机械的特殊要求
- 2024年岳阳职业技术学院单招职业技能测试题库及答案解析
- 消防安全管理制度完整版完整版
- 20马工程教材《公共财政概论》-第一章-公课件
- 《质量管理小组活动准则》2020版_20211228_111842
评论
0/150
提交评论