数据挖掘技术在中医处方经验研究中的应用_第1页
数据挖掘技术在中医处方经验研究中的应用_第2页
数据挖掘技术在中医处方经验研究中的应用_第3页
数据挖掘技术在中医处方经验研究中的应用_第4页
免费预览已结束,剩余3页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 数据挖掘技术在中医处方经验研究中的应用 周旭 郭倩 白璐 徐晶摘要:传统的中医药科学在长期的医疗实践中积累了海量的处方数据,数据挖掘是目前最有效的数据分析手段之一,利用数据挖掘技术从这些海量数据中发现蕴含其中的中医药知识,是一项极有价值的研究工作。本文主要采用数据挖掘中的apriori关联规则算法,对中医处方数据进行挖掘和总结:首先对采集的中医药数据进行数字特征化处理;然后对中医处方中药物的频繁项集和药物之间的关联关系进行研究,并获得了普通处方分析较难获得的用药规律及经验信息。研究成果对中医临床工作具有重要的指导意义。关键词:数据挖掘;关联规则;数字特征化;中医doi:10.3969/j.i

2、ssn.1005-5517.2016.2.009信息技术正在经历着一次新的变革,互联网、大数据等各种技术正在潜移默化的改变着人们的生活,数字化和数据化更是深深地影响着各行各业的每一个细节。很多信息早已开始储存于各种类型的数据库或者其他载体里,人们也已经开始从众多数据中,找出有益的规律。人们的关注点已经由数据间的因果关系渐渐转变为可以帮助我们捕获现在和预测未来的相关关系,即挖掘事物之间的关联性.中医在长期的医疗实践中积累了海量的处方数据,如何有效的分析这些数据并发现规律以指导临床应用,成为中医药现代化研究中亟待解决的问题.数据挖掘作为一种有效的数据分析手段,已经在中医药领域中得到广泛应用。1数据

3、挖掘技术1.1数据挖掘概述数据挖掘是从大量数据中挖掘有趣模式和知识的过程。从广义上说,数据挖掘是对数据库知识发现(knowledgediscovery in databases,kdd)的一个过程。作为一种通用技术,数据挖掘可以用于任何类型的数据,只要数据对目标应用是有意义的,数据源可以包括数据库、数据仓库、web、其他信息存储库或动态的流入系统的数据。1.2中医药数据挖掘的意义中医药领域的处方中通常包含大量的药物及其剂量组成,伴随着医院信息化建设的大力推进,这些药方多以数据库形式被保存,运用数据挖掘技术对中药数据进行科学分析,从而发现其中的配伍特点和规律成为很有现实意义的一项工作。中医药数据

4、挖掘的目的是通过对中医处方中的中药数据建立合适的模型,从而寻找药物之间的频繁模式和关联规则,可以实现中医用药经验的有效总结和传承。1.3关联规则算法数据挖本文来自于www.zz-new掘有很多模式,常见有关联规则、聚类算法、分类算法等。关联规则挖掘最初仅限于事务数据库的布尔型关联规则,近年来广泛应用于关系数据库。关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。关联规则就是支持度和信任度分别满足用户给定阈值的规则。aprior是关联规则模型中的经典算法。本文主要使用基于频繁项集的apriori算法进行数

5、据建模,用以发现中药配伍中的规律性。发现关联规则需要经历如下两个步骤:步骤一:通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;步骤二:利用频繁项集构造出满足用户最小信任度的规则。2数据特征化和预处理2.1实验数据集本文实验数据来自河北中医学院附属医院肾内科陈志强教授于2014年5月至2015年7月诊治的早中期慢性肾衰竭患者的病案。采集的病案内容包括患者姓名、性别、年龄、原发病、症状、体征、肾功能指标、中医证候、中药处方等。摘取其中的中药信息,按照中药大辞典统一药物名称。2.2数据特征化统计数据集的全部223条中医处方,共出现中药194味,根据专业经验,我们选取频

6、数在10%以上的中药(视为高频药物)进行数据挖掘。由于中药处方中的中药名称以中文形式表示,因此需要将其进行易于数据挖掘算法识别的数据特征化处理,方法如下:(一)药物表的特征化方法根据医务工作者的经验,将治疗该病症的常见中药分为活血化瘀通经类、清热祛湿泄浊类、行气燥湿化痰类、益气健脾温阳类、补益脾肾之阳类、滋养肝肾之阴类等六大类。将高频药物分别归于这六大类中,针对每大类建立相应的数据表。每条数据采用布尔常量的表示形式如图1所示。其中,第一项表示病人编号,每一条记录表示一位病人的用药信息,编号之后的每一位布尔数据表示某味中药是否在该处方中出现,1表示出现,0表示未出现。(二)类别表的特征化方法为了

7、进一步分析各大类之间的关联性,建立一个数据类别表(同一条处方中出现某一类药物中两味或两味以上,即判定使用了该类别中药)。每条记录表示一位病人用药的类别信息,其中第一项表示病人编号,编号之后的每一位表示该类别药物是否在该处方中使用,1表示使用,0表示未使用。按照上述方法建成中药药物数据库,其中包括:包含所有药物的处方数据集、统计药物频次的药物计数数据集、由专业医生按照性味、功用划分的六种不同类别的高频药物数据集以及判断处方中是否使用某类药物的类别数据集。3中医处方经验的挖掘方法3.1对每一类药物中包含的各味中药进行关联规则建模首先对数据库中的药物进行频数统计,即在处方中出现的次数;然后将数据库中

8、所有同类别的药物按照其在整体处方中出现的频数降序排列。如果药物排列靠前说明其在处方中出现频率较高,为医生的常用中药,具有较高的参考价值。同时,参考专业医生的经验,本文将支持度和置信度的阈值均设置为10%.将其视为指导临床应用意义较大.对各类药物数据采用apriori算法建模,生成每一类别中药间的关联规则。3.2对六类药物之间进行关联性规则建模逐条分析223条中药处方中所包含的药物类别(同一条处方中出现某一类药物两味或两味以上,即认定含有该类别中药),统计223条中药处方中每一类别药物的应用频数,将其在数据库中由高到低依次排列.根据专业医生的经验,设置支持度和置信度的阈值均为10%,将其视为指导

9、临床应用意义较大.对类别数据采用apriori算法建模,生成六类中药其类别之间的关联规则.4关联性分析4.1同类别中药的关联分析将关联规则按照支持度降序排序,体现出常用药对以及多味中药同时出现的规律.以第一大类药物为例,通过对关联规则的统计分析发现:在此类中药处方中,三味中药同时出现的概率高达65%;四味中药中药同时出现的概率大约在31%左右;五味中药同时出现的概率减少到14%左右;六味中药同时出现的概率骤减到1%;而七味及以上中药同本文来自于www.zz-news.com时出现的概率则为0。第一类药物的部分关联规则如表p。对同一类药物,本文采用定向网络关系图表示药对之间的关系。连接两位中药之

10、间的连线越粗,表明这个药对出现在处方中的频数越高;越细就表明这个药对出现在处方中的频率越低.图2所示为输出第一类药物中频数最高的中药与其它各味中药的关联关系的定向网络图。结论分析:纵观全部类别的所有频繁项集,发现在各类药物中,往往是同类别药物多味联用,以增强其功效;而在联用时,又会有一定的味数限制,数目通常为三味至五味为多。通过定向网络图可以分析出针对某一种药物与其它中药成对出现的规律:由处方中频数高的药物组成的药对,其之间的关联关系更为密切。4.2不同类别药物之间的关联性分析在223条有效的类别数据记录中,生成的规则总数为154条,为了便于结果分析,将其按照支持度降序排列。通过对关联规则的统计分析得出:前两类药的支持度高达95.5%;前三类药的支持度为89%;前四类药的支持度为70.9%;前五类药的支持度骤减到25.6%;而全部六类药的支持度仅为5.8%。现仅摘取前项含有前两类中药的关联规则见表2。结论分析:前四类中药之间的相互关系最为密切,其次是这四类中药分别与第五、六类之间的关系,而第五、六类中药之间关系的密切程度则大大降低。从关联规则的结果可以分析得出前四个类别的药物属于常用和联用的药物。5结语本文通过对中药

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论