下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘技术在口腔诊疗中的应用摘要: 目的:构造能够利用口腔疾病数据预测其他临床疾病致病规律的决策树,并提取分类规则。方法:使用weka软件,利用数据挖掘技术的ID3算法对口腔诊疗数据进行分析,并针对ID3算法的准确率进行改进。结果:得到了预期的决策树和分类规则。结论:改进的ID3算法准确率高于改进前,所得的结果能够对医师起到指导作用。关键词:数据挖掘;口腔疾病;weka;决策树;ID3算法引言 随着医院信息系统(Hospital Information System,HIS)的广泛应用,医院数据库系统中的各种医疗信息每天都在迅速增长。面对这些海量数据,我们很希望能够从中找到一些有价值的信息。
2、 口腔医学领域充斥着大量医疗数据信息,如果我们不能把这些信息转化为对我们有用的知识,这些数据就显得用途不大了【2】。因此,我们需要使用数据挖掘技术对这些医疗数据进行深层次的分析,以便更好的将数据加以利用,为医生的临床诊断或科研实验提供有力帮助。 1原始数据的获取及预处理 1.1 原始数据的获取 本课题所用的数据采集于邢台医专第二附属医院的HIS系统数据库,医院信息系统采用北京天健公司的“军卫一号”,数据库采用甲骨文公司的Oracle 10g,使用weka软件进行数据挖掘。本课题研究的是口腔疾病与其他临床疾病之间的关系,仅选用同时患有口腔疾病与其他临床疾病患者的数据信息。原始数据中有些属性是对挖
3、掘无用的,如体检号、体检科室、诊断项目编号等冗余属性,要全部去除。 1.2原始数据的预处理 经过数据清理、数据集成、数据变换、数据归约四个步骤,便得到预处理结果,如图1所示: 图1数据预处理结果 2用ID3算法分析数据 2.1ID3算法 第一步:通过计算给定数据集所有属性的信息增益,寻找根结点,并计算数据集分类的信息熵I。 第二步:由根结点属性的不同取值建立分支。 第三步:根据第一步,采用递归方法,确定各分支的子结点【5】。 由以上几个步骤就能构造一棵ID3决策树,可以用它来对新的样本进行分类。 2.2数据处理 在类别属性原发病中,胃溃疡、糖尿病、心脏病的实例数目分别为296、169、95,类
4、别属性的信息熵为: I= 1.4419917 需要计算每个属性的信息熵。龋病属性中,深龋、浅龋、无的实例数目分别为344、127、89。 患深龋的病人中患胃溃疡、糖尿病、心脏病的数目分别为255、47、42,则: I(深龋)= 1.0829416 患浅龋的病人中患胃溃疡、糖尿病、心脏病的数目分别为26、96、5,则: I(浅龋)= 0.9573660 不患龋病的病人中患胃溃疡、糖尿病、心脏病的数目分别为15、26、48,则: I(无)= 1.4319919 由此可得,龋病的熵值为: Entropy(龋病)=1.1099369 计算它的信息增益为: Gain(龋病)=I-Entropy(龋病)=
5、0.3320548 同理可得其他属性的信息熵和信息增益如下: 表1属性的信息熵和信息增益 牙髓炎根尖周炎牙石牙周袋牙着色Entropy1.38136141.44196081.24673981.2978921.4256026Gain0.06063030.00003090.19525190.14409970.0163891由以上结果可以看出,信息增益最大属性的是龋病,因此,龋病是构造决策树的根结点,根尖周炎的信息增益最小,比除它之外最小的属性牙着色还要小500多倍,由此可知,根尖周炎对决策树影响最小,为了简化决策树,将这一属性及其对应的数据删除。以龋病为根,根据龋病的三个分类,深龋、浅龋、无,构造
6、决策树的分枝和叶结点。 2.3准确率分析 由weka软件输出信息中的Correctly Classified Instances一项可知,总共560个样本中的474个被正确分类,占总样本数的84.6429 %,然后用训练集、测试集方法进行准确性测试,加载测试集数据文件,运行结果显示,根据先前生成的决策树,测试集数据中,总共288个样本中的238被正确预测,占测试集总样本的82.6389 %,分类器预测效果散点图如图2所示: 图2分类器预测效果散点图 x轴表示测试集中原有数据的原发病属性,y轴表示由训练集生成的模型对测试集预测的原发病属性,坐标图中的“”表示预测正确的样本,“”表示预测错误的样本
7、。从图中可以看出,绝大多数样本被正确分类了。 3ID3算法的改进及对比 3.1改进策略 本文是针对属性的选择对ID3算法进行改进,ID3算法计算属性A的信息增益时,用分类属性的总熵减去属性A的熵,如果引入一个参数,将公式修改为: 则可以加强重要属性,降低非重要的属性,使决策树减少对取值较多属性的依赖,从而改善大数据淹没小数据的状况。式中,为属性A的权值, 即属性A的取值个数,在选择属性时,将信息增益度最大的属性选择为分支属性, 取代了原来的信息增益。由此公式,可以得出训练集中各属性的信息增益度,如下所示: Gain(龋病)=0.51148006 Gain(牙髓炎)=0.226167147 Ga
8、in(根尖周炎)=0.217046029 Gain(牙石)=0.48972287 Gain(牙周袋)=0.238730544 Gain(牙着色)=0.219508183 3.2改进前后对比 随机选取10个数据集,每个数据集都进行了50次实验,然后求出分类准确率的平均值,这样一来,实验数据更加具有一般性,通过分析这些数据,对比ID3算法与改进的ID3算法在分类精度方面的差异。所有实验都是在相同的软硬件环境下进行的。 每个数据集set1set10的实例数目分别为,set1:235,set2:335,set3:435,set4:535,set5:635,set6:735,set7:835,set8:
9、935,set9:1035,set10:1135。分别用ID3算法与改进的ID3算法进行学习,得到不同实例数目下的分类准确率,通过对比,得到如下结果: 表2准确度比较 分组实例数量ID3算法准确率/%改进ID3算法准确率/%set123577.353278.5284set233579.438980.3561set343582.546883.0732set453584.368984.8962set563586.093487.5309set673589.580291.5179set783590.471193.8153set893591.409294.7126set9103592.547194.51
10、19set10113593.592395.1358平均值68586.740188.4078为了更直观的显示对比结果,我们可以用一个图来表示,如图3所示: 图3 准确度比较 4. 讨论 从ID3算法改进后的结果可以看出,没有出现像改进前,某个属性的信息增益比其他属性小很多的现象。第2节信息增益的计算部分,将根尖周炎这个信息增益远小于其他属性的属性删除,看似是去掉了非重要属性,简化了决策树的规模,但从医学角度来讲,根尖周炎也是判定口腔健康、预测其他疾病的重要因素,将其去掉并不合适。将ID3算法改进后,各个属性的信息增益度相差不大,从而避免了小数据被大数据淹没,这样就保证了决策树在实际应用中的可靠性
11、。 从表2可以看出,随着测试数据集实例的增加,ID3算法与改进的ID3算法的准确率都逐步增加,但改进的ID3算法准确率更高。图3是ID3算法改进前后的准确率对比,横轴代表实例数目,纵轴代表准确率,上面的曲线是改进的ID3算法的准确率,下面的是ID3算法的准确率。从图中可以看出,相同的实例数目,改进后的ID3算法的准确率高于改进前。通过与医学知识对照,可以得出本文构造的决策树是有实际意义的。 参考文献: 【1】 周利宏, 陈洁. 浅析数据挖掘技术在电子病历中的应用. 医学信息学杂志, 2009, 30(2): 44-46 【2】 戴召洋. 浅谈临床医疗信息数据挖掘. 中国农村卫生事业管理,2009, (06): 470-471 【3】 L.M.WANG,X.L.LI,C.H.CAO,et al.Combining Decision Tree and Naive Bayes for Classification. K
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 前台的辞职报告模板合集七篇
- 迎新年晚会意义策划
- 2023一年级数学上册 八 认识钟表(小明的一天)教学实录 北师大版
- 2024-2025学年新教材高中化学 第五章 化工生产中的重要非金属元素 1.3 硫酸根离子检验、硫和含硫化合物的相互转化教学实录 新人教版必修2
- 2024秋八年级道德与法治上册 第一单元 成长的空间 第一课 相亲相爱一家人(他们这样做的原因)教学思路 人民版
- 2024年某城市地铁线路建设及运营管理长期租赁合同
- 实际正常和标准成本法ActualNormalandStandardCosting
- 广州市来穗人员服务管理局来穗人员积分制服务管理信息系统
- 2022天宫课堂第三课观后感10篇范文
- 2023二年级数学下册 7 万以内数的认识第8课时 近似数教学实录 新人教版
- 农产品加工与贮藏原理复习资料
- (正式版)JBT 5300-2024 工业用阀门材料 选用指南
- 工艺工程师的成长计划书
- 幼儿园大班音乐教案《爆米花》教学反思
- 家政运营方案
- 会展英语教学大纲
- 行政单位固定资产盘点报告
- 机电系统综合调试方案
- 光学焦度计的原理与应用
- 分包商质量和安全和进度管理
- 我不是药神电影赏析
评论
0/150
提交评论