版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 /5WEKA对wisconsin-breast-cancer数据挖掘分析报告数据集实验采用UCI数据集中的Wisconsin医学院的WilliamH.Wolberg博士提供的乳腺癌的数据样本(/ml/machineTearning-databases/breast-cancer-wisconsin/)。所有数据来自真实临床案例,每个案例有10个属性。其中前九个属性是检测指标,每个属性值用1到10的整数表示,1表示检测指标最正常,10表示最不正常。第十个属性是分类属性,指示该肿瘤是否为恶性。数据集中的肿瘤性质是通过活检得出的结果。肿块厚度细胞大小的均匀性细胞形状的均匀性边缘粘性单上皮细胞的大小
2、裸核乏味染色体正常核有丝分裂肿瘤性质该数据集共有669个实例。Clump_Thicknessinteger1,10Cell_Size_Uniformityinteger1,10Cell_Shape_Uniformityinteger1,10Marginal_Adhesioninteger1,10Single_Epi_Cell_Sizeinteger1,10Bare_Nucleiinteger1,10Bland_Chromatininteger1,10Normal_Nucleoliinteger1,10Mitosesinteger1,10Classbenign,malignant本次实验对以上数
3、据集进行了分类、聚类、关联规则三部分操作,以熟悉weka软件的操作使用,并尝试挖掘数据中的实际价值。分类中,尝试用前九个属性值来预测肿瘤的性质(良性、恶性);聚类中,寻找各个簇病人(尤其是恶性肿瘤病人)的显著特征,可用来辅助制定针对性治疗计划;关联规则的探索,寻找不同属性值之间的相关性。二、分类数据预处理将Wisconsin-breast-cancer数据集分割为两个,分别作为trainset(469个)和testset(200个)。实验过程用j48分类树对trainset进行分类运算,结果如下:CluaiLxOutpube1.口口isci匚rK3.ci.irac=C&CE-GCT:ly!1C
4、lc-d工lbs匚48012E.LQ24Hnun=*ut:1yCLaa1f1-heL工*LflS.BOTE1Efappastatl5T1O:。打EE4Ro-z-tDH*n3flicco-Era.ie4eFeabs口LLtbeerro-rL4,31B7Bjaorielarlveerr口工3asassJo-ralWLinl:亡三ofIn.9T:an.ces,1*ecIEly_.巴9=7PRAraELar-BP细亡11F-M4a.sur4RDCJlmnClSiSa:.AST口-口3D.-9B口.D37d.口-”T6寻7Db9S3a.977口石丘0-i77ConfajicnItit-riKab-ciz
5、l&asLfledas3-S1L3|bvraLijn.C191It=unLLTnariD结果表明,模型分类的准确率达到了96%。ConfusionMatrix表明有13例良性肿瘤被错位的归类为恶性(4.5%);有6例恶性肿瘤被错误的归类为良性(3.1%)。将以上模型应用于testset以检验预测准确率,运行结果如下:CLu-sifiuf口口iLit=Evaluation口ntesta-stA=吕ma如工丫=CDE-recrlyClassifiedIo=icaj3.cea19E954InDorreurLyClaaslfl-edInstances2iKappai匚DMeanaiz-EDLuLeti
6、ra-E-D0291ELQQtmeanaqiiEred=rroz-aeLariVr!iabJcLuier:ror6.5359Rootrelffitiv?!squaliderroi21r3S21电T-atalKsmb-ezsfI31aace?20D=DetaiLed上匸匸uca匚#ByCltaja=rPRoteFPRatePreciaRecallF-MecijutcROCAre-aClfll33a.93701OuSa?0.994a.997ioaai30,5-57iDr?7Sdr557TTWllflnarLtW=igh.b=日Avg.0.990.0D30.99ELMa.as?=CcKifusioa
7、HatrixabC-classified1542Ia=benlgti0丽Ib-malignanT结果表明,预测准确率达到了99%。ConfusionMatrix表示有2例良性肿瘤被错误的归类为恶性(1.3%);而恶性肿瘤均被正确分类。3.结果分析=7勺丁=3匕翠首先,通过检验,j48方法通过训练集生成的决策树对肿瘤性质的预测准确率可以稳定在较高水平,因此可以将此模型用于临床诊断。这对于因医疗条件不佳而不能进行活检或病灶位置不易进行活检的病人来说具有较高的实用价值。其次,从分类树可以看出,肿瘤性质与“细胞大小均匀性”“裸核”属性的关联度较高;而“细胞形状均匀性”“边缘粘性”“单上皮细胞大小”“乏
8、味染色体”“有丝分裂”对肿瘤良、恶性的诊断几乎没有参考意义。这表明在日常诊断中,若受医疗条件和治疗时机的制约,可以适当减少检测指标,根据预测结果尽早采取治疗措施。最后,通过对ConfusionMatrix的分析可知,该模型存在两类错误:将良性误诊为恶性、将恶性误诊为良性。这两类错误都是应该极力避免的,第一类错误可能导致病人情绪低落、不配合治疗,最终导致病情恶化;第二类错误可能导致治疗方案的错误,过于激进的治疗可能适得其反。很难评判这两类错误哪种更为严重,但模型的结果表明,犯第二类错误的概率较低,特别在测试集中,准确率达到了100%。三、聚类数据预处理由于聚类中对于离散属性将显示其众数,不利于了
9、解数值结构,所以将Class属性类型由Nominal转换为Numeric。用0表示benign,即良性;1表示malignant,即恶性。这样各个簇中的数值越接近1,表明该簇中恶性肿瘤比例越高。实验过程用SimplekMeans算法,设置参数numClusters=5,seed=50进行聚类运算,得到结果如下:NuxioerIveraLlansi22WLchlacluaMitaimofssjuaMderrorss193,5S38509B52088MLsslngvalutarrplactdwithmtan/TiDdeClusteree-ntcsi-dseCLuirP-TJilcJmsasCelL
10、_SlztnltcizinL匚主,CeLL_Sh.npe-_ITn.ifDimity赳二gjjHiakL_JL-ah-5iciiSLnal_Eci_C*ll_SizeBare:TuslelBLand_jCJiraffiaclnNorirai_NuclcollHLED3ESCLSJ3SS17)(25311LO)LSD,41775,05864,0871,24477,15457.2234.3S291-27271.12234.4SLSS.323221741.4191.21284.79-06*60694x17651*3430i.iaes4-3455-55733*3152*035Glu97313-6636
11、4.50365-9475251.2495!.3L5379D5匚.33244.11752,04351,9947,5455,3313Z.Sfi-75.41LB1-18131,06333,77Z71133.5S94L.1TS5L.2771.1OLL1.77273.274S.340QQ11FllLLData0143TlietalreriwbuildmodslfulltrainingtLatn)DrOaaecQnenigri402Eitoses-l394aoziz:(0.38fClass=beniqn453=MitDaea=l445conz:(0_97)BaEe_Nuclei=l402=UitDSES=
12、l389conf:(0.97)4.Bflze_Niiolei1402一一Class-tienigi367cczciz:(0.5.NormalNucleoli=1443=MitD3E3=l426conz:(0.96).Marinal_Adfaeaian=l407=MitD3t3=l328conf:(0.95).Normal_Nucleoli=1HlLD3es=l42fi=ciass=benlgn394ccrnz-.(0.92).Normal.Nucleoli=1443=C?lass=ienigrL402conz:(0.91).Norma1_Nuc1eo1i=1443=MitD3E3=lCla3S
13、=bEnigii394conz:(0.89)丄口,111匸D3ES=1匚丄ass=tEnl-gn445Normal_NucleDli=l394coni:(0.33)再选用提升度作为衡量参数,设置接受的最小参数值为1.5,结果如下:CELSlIEjJmlCTTltL384=、N2inalJflLClECill=lMlcaSE3=lClE39HH.gn343U5HTal_!C-BlfZEnirniTllTl349CeL1_5j.zejlaiicm17=1MLC2-3es=l377NcuaJJftJEleDli-1Clasajan-igii349i.NznriilJfuc1EO11=1Cla-5s=
14、benign402=Cell_5izt_QnirDziaicj=-lMlrogel343crmf:0.91JliftcEmr:D.asjmt!conf:Du931Hit!conf:Ou3?j1E7!(O即1E73lE7:(0n9)13ZCnil7:4-S5|13ZCffl7:3-Ee|132CJDB7:5u52|23ZC0B7:3u43|5.CELl_Sj.2eJaifcrTitys=L3拥=N2raa_Jhieleali=lCla?s=beiLgn35Szc-a:!(0.32)(O-1S|Ud|cccnf:|5uiJ|N2nriiL_ihx:lEC!li=lCla_35=beni.gn402=Cell_Siis_hdfDrnititl35Szcziz:(O.SEJMitosalClasazbeoigii3弱conf:Ie-?:(0.1SJ122coot:(1.17)B.SUtosea-lCla9a=besiga415=CEU_Siae_llai:c-nrir=LKonulJfkicLenli-13昶conf:(flu7jClag3=beDigzs374conf:(0-9?Clift:(1.SI)1k!:|12可闆叩:阻&即IO.Hitoses-lClaHa-beigzi1SCELi_SiEe_llai:c-mt-L3?4conf:(Q.64lev:(0.1)|1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 会计类毕业实习报告范文锦集六篇
- 下学期工作学习计划合集八篇
- DB12T 472-2012 贵金属与珠宝玉石饰品 标识
- 业务员工作心得体会
- 三国演义读书笔记及启发范文
- 个人篮球训练计划书(12篇)
- 课件高血压教学课件
- 探究实验设计之二氧化碳性质的探究
- 慢性持续期哮喘患者的治疗和管理
- 高等数学教程 试卷3-答案
- 新能源智能充电桩商业计划书
- 纤支镜的清洗消毒与维护程序
- 世界经济概论(南开大学)智慧树知到答案章节测试2023年
- 拟与用工单位签订的劳务派遣协议文本
- 2023年高中学业水平合格考试英语词汇表完整版(复习必背)
- 《英语大字典》word版
- 询价单模板模板
- GB/T 14074-2017木材工业用胶粘剂及其树脂检验方法
- 钢栈桥工程安全检查和验收
- FDS软件介绍及实例应用
- 强基计划解读系列课件
评论
0/150
提交评论