WEKA数据挖掘实验报告_第1页
WEKA数据挖掘实验报告_第2页
WEKA数据挖掘实验报告_第3页
WEKA数据挖掘实验报告_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4/4WEKA实验报告数据集实验采用Wisconsin医学院的WilliamH.Wolberg博士提供的乳腺癌的数据样本。所有数据来自真实临床案例,每个案例有10个属性。其中前九个属性是检测指标,每个属性值用1到10的整数表示,1表示检测指标最正常,10表示最不正常。第十个属性是分类属性,指示该肿瘤是否为恶性。数据集中的肿瘤性质是通过活检得出的结果。肿块厚度Clump_Thicknessinteger[1,10]细胞大小的均匀性Cell_Size_Uniformityinteger[1,10]细胞形状的均匀性Cell_Shape_Uniformityinteger[1,10]边缘粘性Marginal_Adhesioninteger[1,10]单上皮细胞的大小Single_Epi_Cell_Sizeinteger[1,10]裸核Bare_Nucleiinteger[1,10]乏味染色体Bland_Chromatininteger[1,10]正常核Normal_Nucleoliinteger[1,10]有丝分裂Mitosesinteger[1,10] 肿瘤性质Class{benign,malignant}该数据集共有669个实例。本次实验对以上数据集进行了分类、聚类、关联规则三部分操作,以熟悉weka软件的操作使用,并尝试挖掘数据中的实际价值。分类中,尝试用前九个属性值来预测肿瘤的性质(良性、恶性);聚类中,寻找各个簇病人(尤其是恶性肿瘤病人)的显著特征,可用来辅助制定针对性治疗计划;关联规则的探索,寻找不同属性值之间的相关性。分类数据预处理将wisconsin-breast-cancer数据集分割为两个,分别作为trainset(469个)和testset(200个)。实验过程用j48分类树对trainset进行分类运算,结果如下:结果表明,模型分类的准确率达到了96%。ConfusionMatrix表明有13例良性肿瘤被错位的归类为恶性(4.5%);有6例恶性肿瘤被错误的归类为良性(3.1%)。将以上模型应用于testset以检验预测准确率,运行结果如下:结果表明,预测准确率达到了99%。ConfusionMatrix表示有2例良性肿瘤被错误的归类为恶性(1.3%);而恶性肿瘤均被正确分类。结果分析首先,通过检验,j48方法通过训练集生成的决策树对肿瘤性质的预测准确率可以稳定在较高水平,因此可以将此模型用于临床诊断。这对于因医疗条件不佳而不能进行活检或病灶位置不易进行活检的病人来说具有较高的实用价值。其次,从分类树可以看出,肿瘤性质与“细胞大小均匀性”“裸核”属性的关联度较高;而“细胞形状均匀性”“边缘粘性”“单上皮细胞大小”“乏味染色体”“有丝分裂”对肿瘤良、恶性的诊断几乎没有参考意义。这表明在日常诊断中,若受医疗条件和治疗时机的制约,可以适当减少检测指标,根据预测结果尽早采取治疗措施。最后,通过对ConfusionMatrix的分析可知,该模型存在两类错误:将良性误诊为恶性、将恶性误诊为良性。这两类错误都是应该极力避免的,第一类错误可能导致病人情绪低落、不配合治疗,最终导致病情恶化;第二类错误可能导致治疗方案的错误,过于激进的治疗可能适得其反。很难评判这两类错误哪种更为严重,但模型的结果表明,犯第二类错误的概率较低,特别在测试集中,准确率达到了100%。聚类数据预处理由于聚类中对于离散属性将显示其众数,不利于了解数值结构,所以将Class属性类型由Nominal转换为Numeric。用0表示benign,即良性;1表示malignant,即恶性。这样各个簇中的数值越接近1,表明该簇中恶性肿瘤比例越高。实验过程用SimplekMeans算法,设置参数numClusters=5,seed=50进行聚类运算,得到结果如下:结果分析上述聚类结果共有五个簇,而且恰巧Class属性的均值均为整数,这表明每一个簇中的各实例的肿瘤性质相同。#0:这一簇中各属性偏离正常值的成都相对较高,但肿瘤性质为良性。这种情况仅有17个实例,表明该情况出现的概率很低。#1:除“肿块厚度”这一属性外,其他指标都很正常,肿瘤性质为良性。这种情况有253个实例,甚至超过了“典型良性”簇中的实例数,这表明“肿块厚度”这一属性要较大程度偏离正常值才可能对应恶性肿瘤。#2:我们可以称这一簇为“典型良性”,其各属性偏离正常程度都很低。#3:除“肿块厚度”“裸核”外,其他属性值都不是很高,但肿瘤性质为恶性。这种情况占比约为所有恶性肿瘤患者一半。#4:这一簇可称为“典型恶性”,几乎每一个属性都很不正常,然而只有约一半的恶性肿瘤患者属于这种情况。根据聚类分析结果,可以帮助医生针对可能的几种发病情况,制定不同的治疗计划。另外,对各个簇所占比例的研究可以帮助医药工作者更好地了解乳腺癌症状的分布。关联规则数据预处理为使用Apriori算法,将前九个属性数据类型改为离散型。使用filter中的NumericToNominal方法将integer[1,10]离散化为{1,2,3,4,5,6,7,8,9,10}。实验过程首先选用置信度作为衡量参数,设置接受的最小参数值为0.8,结果如下:再选用提升度作为衡量参数,设置接受的最小参数值为1.5,结果如下:结果分析不难发现,以上这些关联规则有一些是没有价值的,这说明在数据预处理阶段以及关联规则算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论