基于数据挖掘技术的中医诊断与治疗规律研究_第1页
基于数据挖掘技术的中医诊断与治疗规律研究_第2页
基于数据挖掘技术的中医诊断与治疗规律研究_第3页
基于数据挖掘技术的中医诊断与治疗规律研究_第4页
基于数据挖掘技术的中医诊断与治疗规律研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘技术的中医诊断与治疗规律研究

1基于数据挖掘技术的中医诊断与治疗三大挑战的研究背景与点中医是中国的传统医学,几千年来为中华民族的繁荣做出了重要贡献,但现代中医的发展也面临许多挑战。中医在理论和临床上是独立的,疾病是由治疗而治理的,重复是不佳的,这给中医治疗的应用、传承和发展带来了很大困难。中医文化中丰富而悠久的历史,融合了许多著名中医专家的学术和临床医学资源,运用现代挖掘技术研究了中医诊断和治疗的规律。促进中医文化的学术研究和现代中医的发展。数据挖掘是从数据库或数据仓库中发现隐藏的、未知的和有用的信息的过程.近年来,从不断膨胀的医院数据库提取有用信息为疾病的诊断和治疗提供科学的决策,已成为人们关注的焦点.本研究的基本思路是在收集众多治疗典型病例的医案的基础上,从不完整甚至不一致的数据中,利用数据挖掘技术,挖掘出典型病例的用药规律.2证候、证素的概念中医诊断主要依靠望、闻、问、切四诊收集脉象、舌像、神色形态、症状等的机体反应来诊察疾病,“辨证论治”是中医的基本特征之一.在中医的临床诊疗过程中,患者所表现的各种症状和体征,是辨证的依据,称为“证候”;通过对证候的辨识而确定的病理本质,称为“证素”;由病位、病性证素所构成的诊断名称,称为“证名”.证候、证素和证名,共同组成了“证素辨证体系”.证素辨证研究的核心问题是证素的确认,即通过临床收集到的信息寻找构成证的基本元素.如果一组症状群呈现稳定的相互关系,就可以确定病位与病性的最小单位.准确地判断证素,便抓住了疾病当前的病理本质.临床上收集的四诊资料存在不完整性、含噪声和不一致性等特点,不能直接用于数据挖掘.在进行数据挖掘之前,必须对中医临床上的数据进行规范化的预处理,图1是中医临床数据规范化预处理的流程图.3关联规则技术的应用数据挖掘的方法有关联规则、序列模式、神经网络、分类规则和聚类分析等,采用不同的技术可以发现不同类型的知识.本文主要介绍关联规则技术在肝病中医诊断上的应用,找出肝病的症状与处方、症状与辨证、辨证与处方之间的关联规则.3.1d的挖掘过程设D是事务数据库,I=(i1,i2,…,im)是所有项目的集合,其中Ij,j=1,…,m是一个项目.每个事务Ti是一个项集,Ti⊆I.定义1设A,B为项集,则称A→B为规则,其中A⊂I,B⊂I,且A∩B=φ.定义2设D是事务集,A,B为项集,且有规则A→B.如果D中包含A∪B事务的比例为s%,称A→B有支持度s%,即概率P(A∪B).定义3设D是事务集,A,B为项集,且有规则A→B.若D中,c%的事务包含A的同时也包含B,则称A→B有置信度,即条件概率P(B|A).定义4设D是事务集,A,B为项集,若A→B满足最小置信度c和最小支持度s,则称A→B为关联规则.Support(A→B)=P(A∪B)Confidence(A→B)=P(B|A)关联规则的挖掘过程主要包含2个阶段:第一阶段必须先从原始资料集合中找出所有的高频项目组(FrequentItemsets),第二阶段再由这些高频项目组中产生关联规则(AssociationRules).3.2中医临床症状的预处理本文的数据来源为临床和文献,共1128例肝病病例.这里所采用的每个病例数据都包含了症状、辨证、治法和处方等若干方面的信息,部分数据如下:(1)某女,20岁症状:纳差,恶心,厌油,口不苦,微渴喜热饮,乏力,大便色黄,日行1~2次,尿黄而自利,皮肤瘙痒,有搔抓痕;舌质暗,苔薄黄,舌下脉络增粗延长,脉弦细.辨证:湿热血虚型.治法:清热利湿活血.处方:茵陈15g,丹参15g,丹皮15g,杏仁15g,赤芍60g,葛根30g,瓜蒌30g,生大黄9g,半夏15g,川芎15g,栀子12g,黄苓15g.(2)某男,32岁症状:频繁恶心,但无呕吐;胸闷明显,胸脘胀满,纳差,口黏;大便不爽,小便色黄不利,胃脘部有振水声;舌质红,苔薄黄,脉弦.辨证:湿邪弥散三焦(黄疸).治法:宣畅三焦.处方:杏仁15g,蔻仁15g,生薏苡仁30g,黄芩15g,赤芍90g,葛根30g,滑石30g,茵陈15g,半夏15g,川朴15g,木通15g.…………从以上原始病例可以看出,症状、辨证、治法和处方都是一些中医习惯用语,没有一个统一的标准.因此,在进行研究之前,必须编制一些程序对这些病历中的症状术语、症状之间的逻辑关系、辨证、治法和方药等做规范预处理.通过相关中医书籍对所有的症状作了统计和归类,得到了用于挖掘实验的症状描述,把每个症状用数字来表示.例如:1001代表纳差,1002代表恶心……1025代表脉弦,1026代表肝掌……辨证论治是中医认识疾病和治疗疾病的基本原则.辨证是决定治疗的前提和依据,论治是治疗疾病的手段和方法.为了便于挖掘,把每种辨证也用数字来表示.例如:2001代表湿热血瘀型,2002代表血瘀血热型……2030代表营卫不和证,2031代表脾虚血瘀证……药名的预处理相对比较简单,可以根据中药库的国家标准命名来对药名进行预处理.例如:3001代表莱菔子,3002代表姜半夏……3079代表茵陈,3080代表桂枝……经过预处理的病例数据主要是用数字来表示的,并且包含了症状、辨证、治法、处方这四维数据.根据表1所示的数据格式和内容,这里需要挖掘症状与辨证、症状与处方、辨证与处方的制约关系的数据,即:(1)基本症状和辨证之间的关联规则:基本症状(x,Ai)→辨证(x,Bj);(2)基本症状和处方之间的关联规则:基本症状(x,Ai)→处方(x,Dj);(3)辨证和处方之间的关联规则:辨证(x,Bj)→处方(X,Dj).这是一个二维关联规则挖掘模型,如果要得到症状与辨证、症状与处方、辨证与处方之间的关联规则,可以将模型降为一维,再运用关联规则算法来挖掘这一维新的数据,筛选挖掘结果,去掉不符合规则的,留下合适的规则,从而挖掘出症状与辨证、症状与处方、辨证与处方之间的关联规则.本文采用频繁模式增长(frequent-Patterngrowth)的关联算法,简称FP-增长.将提供频繁项集的数据库压缩成一棵频繁模式树(FP-tree),保留项集关联信息;然后,将这种压缩后的数据库分成一组条件数据库,每个数据库关联一个频繁项,并分别挖掘每个数据库.下面给出一个简单的例子说明基本的挖掘过程.表2是需要挖掘的事务数据库.假设现在要挖掘基本症状和处方之间的关联规则,即基本症状(x,Ai)→处方(x,Dj),则需要将“基本症状”和“处方”这2项数据合并为一个新的维,设为x,合并后的病人数据如表3所示.取最小支持度为2、最小置信度为60%,运用关联规则得到的挖掘结果见图2.具体步骤如下:(1)扫描合并后的病人事务数据库,收集频繁项集和它们的支持度.按支持度降序排序,得到频繁项表L=[3∶3,2∶3,5∶3,1∶2,4∶1].(2)创建FP-树.事务数据库中的第一条事务{1,3,4},按照L中的排序为{3,1,4},则先建立null结点,然后依次有结点3、1、4,并把计数都置为l;第二条事务{2,3,5},按照L中的排序为{3,2,5},则把“3”结点的计数增加到2,在“3”分支下建立结点2和5;其余依次类推,就可以得到图2所示的FP-tree.然后,对这个FP-tree进行挖掘,对L中的项进行倒序考虑:(1)先考虑“4”,它的路径由分支<3,1,4∶1>形成,考虑“4”为后缀,它的对应前缀路径是<3,1>,但支持记数为1,小于设定的min-sup(2),所以该路径不能产生频繁模式.(2)再考虑“1”,它的路径由分支<3,2,5,1∶1>和<3,1∶1>形成,考虑“l”为后缀,并考虑最小支持度为2,则这2个路径均不能产生频繁模式.(3)再考虑“5”,它的路径由分支<3,2,5∶2>和<2,5∶l>形成,考虑“5”为后缀,并考虑最小支持度为2,则它的对应前缀路径只能是<3,2∶2>,则该路径产生的频繁模式为<3,2,5∶2>.(4)再考虑“2”,它的路径由分支<3,2∶2>形成,考虑“2”为后缀,并考虑最小支持度为2,则它的对应前缀路径是<3,2>,则该路径产生的频繁模式为<3,2∶2>.挖掘过程到此结束,发现频繁模式<3,2,5∶2>和<3,2∶2>,但2和3表示基本症状,5表示处方,则上述的2个频繁模式只有<3,2,5∶2>符合要求,即挖掘基本症状和处方之间的关联规则.因此,这个例子能得到一个频繁集{2,3,5},非空真子集有{2},{3},{5},{2,3},{2,5},{3,5},从而得到的关联规则及其置信度见表4.本例中1、2、3表示基本症状,4、5表示药名,需要对上面的规则进行筛选,保留含有这两维数据并且是由基本症状推出药名或由药名推出基本症状的规则,最后得到2个规则见表5.表5中“5→2∧3”表示5这种药有66%的可能性是用来治疗2,3这2种病状的;“2∧3→5”则表示2和3这2种病状通常是用5这种药来治的.这就是该模型的基本思想,其他几维数据间的关联规则也可以类似挖掘.3.2.1不同中医知识的保肝利胆作用实验挖掘基本症状和处方之间的关联规则,就是想得知哪些基本症状的组合一般是由哪些药的组合来治疗的.取最小支持度频数为5、最小置信度为80%,得到表6中的一系列结果.从(1004,1006,1050,1002)→3079规则的置信度是100%,表明“皮肤黄”、“舌苔黄腻”、“尿黄”、“恶心”这4种症状同时出现的时候,必须要用茵陈这种药.查阅中医药知识可以知道,黄疸就有“皮肤黄”、“舌苔黄腻”、“小便黄”、“恶心”这4种症状.黄疸是由于血清中的胆红素升高所致,茵陈具有明显的保肝利胆的作用,能够促进胆汁分泌,促进胆酸和胆红素排出,这说明这个关联规则是符合中医传统知识的.3.2.2作为“纳差”,一般认为“清湿”,有“纳差”,或“收缩张”,这4条主客观上的“本说”,5.挖掘基本症状和辨证之间的关联规则,就是想知道哪些症状的组合是何种辨证.取最小支持度频数为3、最小置信度为60%,得到的结果见表7.从2018→(1001,1007,1049,1002),这条规则的置信度是100%,表示“脾虚湿困”这个辨证一般会有“纳差”、“舌苔腻”、“大便溏泻”、“恶心”这4种症状.中医认为脾主运化水湿,脾虚则运化功能低下,引起水湿停滞;水湿的停滞,反过来又影响脾的运化,故饮食减少、胃脘满闷、大便溏泻,舌苔厚腻等.由此可见,这个关联规则是符合中医传统知识的.3.2.3辨治“药”挖掘中医中辨证和处方之间的关联规则可以得到对病因的用药方法.取最小支持度频数为5、最小置信度为80%,得到的结果见表8.关联规则(3078,3087,3098,3013,3012)→2010的置信度为100%,表示白芍、橘皮、茯苓、木香和川楝子的组合可以用来治疗“脾气虚证”.根据传统的中医疗法,脾气虚证要用温中健脾的方剂来治疗,一般选用香砂六君子汤和黄芪建中汤加减.前方中,党参、茯苓、白术、炙甘草为四君子汤健脾,橘皮、木香、砂仁和胃降逆;后方中,黄芪益气补中,白芍、桂枝、炙甘草、生姜、大枣、怡糖为小建中汤.由上面的传统经典用药可以知道,该规则的前4种药都是治疗脾气虚证的必要中药,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论