




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2023/9/231
ChinaAcademyofChineseMedicalSciences数据挖掘在中医药研究中的应用中医药信息研究所数据挖掘的相关概念数据挖掘在中医药领域中的应用内容课容内程2产生数据挖掘的产生3什么激发了数据挖掘?
——“数据爆炸”但“知识贫乏”4信息社会迅猛发展sz-数据激增-发现隐藏信息-利用数据-获取知识-为我所用大型数据库涌现数据库技术发展用户不满足于数据库的查询功能统计学机器学习模式识别信息科学数据库可视化数据挖掘
数据挖掘的出现是数据库技术发展的必然借用挖掘金矿的名称数据知识数据挖掘希望利用数据挖掘技术解决“数据丰富”与“知识贫乏”之间的矛盾2023/9/237数据挖掘的历史1989年11届国际人工智能研讨会
首次提出了基于数据挖掘的知识发现
由美国人工智能协会主办的知识发现国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会国内:1993年国家自然科学基金首次支持该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,2010年国家自然基金资助数据挖掘研究66项目数据挖掘项目西医:基于多模式序列超声图像识别系统诊断乳腺癌的方法学研究——田家玮,哈尔滨医科大学中医:应用数据挖掘技术研究中医药治疗再生障碍性贫血的组方规律——向阳,中国人民解放军第210医院基于智能计算的中医方剂基础治法模型的构建——任廷革,北京中医药大学基于数据挖掘的针灸法效应特异性基本规律及特点的研究——贾春生,河北医科大学中药新药有效核心处方发现的随机对照忙发设计方法研究——何丽云,中国中医科学院中医临床基础医学研究所2023/9/2382023/9/239数据挖掘的概念数据挖掘:DataMining.
数据中发现有效的、新颖的、潜在有用的,并且最终可以被读懂的模式的过程模式,即pattern。其实就是解决某一类问题的方法论。即把解决某类问题的方法总结归纳到理论高度,那就是模式。例如:比如:孙子说“至死地而后生”是战争模式三十六计“走为上”、“空城计”也是战争模式。2023/9/2310数据挖掘与其他概念数据挖掘和知识发现(KDDKNOWLEDGEDISCOVERYINDATABASE)有人认为是一样的只是不同领域称呼不同数据挖掘是知识发现的过程的一部分数据挖掘与数据分析数据挖掘是一个动态过程,能够比数据分析更智能地使用数据仓库数据挖掘与统计学统计学推断是假设驱动的,即形成假设并在数据上验证它。而数据挖掘是发现驱动的,即自动地从数据中提取模式和假定数据挖掘的数量常常很巨大
面临的常常是大型数据库,而且常常为其他目的而收集好的数据。
发现隐含的知识数据挖掘工作者不愿把先验知识预先嵌入算法,是在没有前提假设的情况下,从事信息的挖掘与知识的提取。2023/9/2311数据挖掘的特点关联分析分类聚类分析……介绍上述功能的一些具体计算方法。2023/9/2312数据挖掘的基本功能关联分析associationanalysis关联分析是发现关联规则。两个或两个以上变量的取值之间存在某种规律性,就称为关联。关联分析的挖掘过程就是发现大量数据中项集之间有趣的关联或相关联系。
2023/9/2314请NCR公司构建数据仓库记录销售数据——每一位顾客哪一天在哪一家连锁店购买了哪些商品啤酒与尿布2023/9/2315购物篮分析:即分析哪些商品最有希望被顾客一起购买。每逢周末与尿布一起购买最多的商品是16——啤酒!原因:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。举例:沃尔玛:通过关联分析这一数据挖掘方法,发现“啤酒”及“尿布”两件物品总是一起被购买。此结果蕴含着巨大的商业价值:两件商品间隔最远两件商品放在一起啤酒尿布如何完成?通过支持度和置信度高低来衡量关联的强度。什么是支持度?如何计算?什么是置信度?如何计算?沃尔玛超市为范例顾客买东西很多,有很多购买收据记录。收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面包、盐收据3:面包、被子、枕头、收据4:椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本……收据1:啤酒、面包、方便面、盐、
收据2:陈皮、可乐、米、面包、盐
收据3:面包、被子、枕头、
收据4:椅子、笔记本
收据5:可乐、椅子、枕头、面包
收据6:面包、笔记本
支持度(support)计算公式A商品和B商品共同出现在一个收据次数——————————————————————总次数
2
SUPPORT(面包、枕头)=——————=33.33%
6收据1:啤酒、面包、方便面、盐、
收据2:陈皮、可乐、米、面包、盐
收据3:面包、被子、枕头、
收据4:椅子、笔记本
收据5:可乐、椅子、枕头、面包
收据6:面包、笔记本
置信度(confidencet:A→B)=A商品和B商品共同出现在一个收据次数——————————————————————A商品出现次数
2SUPPORT(枕头→面包)=—————=40%52023/9/2322置信度(congfidence:B→A)=A商品和B商品共同出现在一个收据次数——————————————————————B商品出现次数收据1:啤酒、面包、方便面、盐、
收据2:陈皮、可乐、米、面包、盐
收据3:面包、被子、枕头、
收据4:椅子、笔记本
收据5:可乐、椅子、枕头、面包
收据6:面包、笔记本
2SUPPORT(面包→枕头)=—————=100%2频繁子集筛选-------获得挖掘结果置信度支持度商品1,商品290%80%商品1,商品370%40%商品4,商品580%89%商品6,商品840%50%商品7,商品930%20%…….有意义无意义关联分析特点可以从大量数据中发现有趣的关联2023/9/2324聚类分析clustering将异质总体分成为同质性的类别根据数据自动产生各个类别例如:作者群的自动聚类。2023/9/2325聚类如何实现:从复杂数据中提取简单的分组结构26根据采集的与性别相关特征信息:衣着,头发等自动聚成若干类2023/9/23272023/9/23相似度聚类,是把最相似的数据聚结在一起形成类别。通常最常用的计算方式就是“欧式距离”欧式距离表示多维空间的几何距离:例如:2023/9/2328A人物像B人物像裙子10头发41衣着鲜艳10欧式距离计算2023/9/2329裙子x头发x衣着鲜艳zA人物像B人物像裙子10头发41衣着鲜艳10欧式距离欧式距离计算----完成相似度度量公式:DISTANCE(A,B)===3.31注意的是最相近的值(一样)一定是02023/9/2330A人物像B人物像裙子10头发41衣着鲜艳10计算相似度后如何聚类?2023/9/23312023/9/23计算相似度后如何聚类?
(自下而上的层次聚类法)有了具体相似度量后,每两个对象之间都形成一个相似度值。4*4的矩阵2023/9/233201011205340先把最相近的聚类到一起变成一簇和其他对象再进行相似度计算在数学上,矩阵是指纵横排列的二维数据表格。matrix两个合并在一起的簇怎么和其他对象比较?3*3的矩阵有很多计算方法:介绍单连接:D(c1,c2)=Min{d(o,O)}D(,)=Min{d(,
),d(,)}=22023/9/23330?0?40010112053402112023/9/2334有很多规定定义这种计算。单连接——取最近值完全连接——取最远值。。。。020340聚类完成2023/9/2335030聚类分析特点是物以类聚的一种统计分析方法。用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类。在中医药中应用:一组某病人,利用聚类,聚集成几类,推断出该病常见证型有哪些?2023/9/2336分类Classification即为按照分析对象的属性分门别类加以定义,建立类别。例如:银行贷款用户:分为高风险、中风险、低风险三类用户。如有申请贷款者,根据所填写信息,利用数据挖掘方法,划分其是三类用户中那一类。2023/9/2337主要介绍关于分类的两种方法贝叶斯模型决策树2023/9/2338贝叶斯模型14天打网球情况。14天不同天气情况下打网球的情况分类目的:根据新的一天天气,决定是否打网球2023/9/2339天气温度湿度有风yesNoyesNoyesnoyesno晴23热22高34否62多云40温暖42正常61是33雨32凉爽31打网球YESNO95实例:根据以往打网球的情况,看看根据新一天的天气情况,能否打网球?目的:给出新一天的气候:看看是否打网球?贝叶斯模型利用概率的方式计算:就是在天气(晴)=YES,气温(凉爽)=YES,湿度(高)=YES,有风=YES的条件下:打网球是否为YES?2023/9/2340天气气温湿度有风晴凉爽高是计算过程转换14天打网球情况为概率表14天不同天气情况下打网球的情况
2023/9/2341天气温度湿度有风打网球yesNoyesNoyesnoyesnoyesNo晴23热22高34否6295多云40温暖42正常61是33雨32凉爽31天气温度湿度有风打网球yesNoyesNoyesnoyesnoyesNo晴2/93/5热2/92/5高3/94/5否6/92/59/145/14多云4/90温暖4/92/5正常6/91/5是3/93/5雨3/92/5凉爽3/91/5天气温度湿度有风打网球yesNoyesNoyesnoyesnoyesNo晴2/93/5热2/92/5高3/94/5否6/92/59/145/14多云4/90温暖4/92/5正常6/91/5是3/93/5雨3/92/5凉爽3/91/5YES的概率(红色)=2/9*3/9*3/9*3/9*9/14=0.0053NO的概率(绿色)=3/5*1/5*4/5*3/5*5/14=0.0206YES+NO=1,经过归一化处理YES=20.5%,NO=79.5%2023/9/2342贝叶斯模型特点所有条件变量对于分类均是有用的先验知识的正确和丰富和后验知识的丰富和正确,能直接影响分类的准确性在中医药医学中范例应用于专家系统诊断。根据症状,推断出诊断。2023/9/2343决策树决策树(decisiontree)每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树例:根据表格情况形成分类树2023/9/2344性别年龄血压药物1男20正常A2女73正常B3男37高A4男33低B5女48高A……药物B血压年龄药物A药物B药物A高正常低≤40>40如何解读决策树信息如果血压高,则采用药物A如果血压低,则采用药物B如果血压正常并且年龄小于等于40,则采用药物A,否则采用药物B.2023/9/2345药物B血压年龄药物A药物B药物A高正常低≤40>40产生疑问如何计算节点如何划分?
为什么先血压,后年龄?分裂变量的界限为什么以40岁为界限?2023/9/2346药物B血压年龄药物A药物B药物A高正常低≤40>40介绍其中一个ID3算法计算决策树14天打网球情况。14天不同天气情况下打网球的情况分类目的:根据新的一天天气,决定是否打网球2023/9/2347天气温度湿度有风yesNoyesNoyesnoyesno晴23热22高34否62多云40温暖42正常61是33雨32凉爽31打网球YESNO9514天具体打网球情况:序号天气气温湿度有风打网球1晴热高无NO2晴热高有NO3多云热高无YES4雨温暖高无YES5雨凉爽正常无YES6雨凉爽正常有NO7多云凉爽正常有YES8晴温暖高无NO9晴凉爽正常无YES10雨温暖正常无YES11晴温暖正常有YES12多云温暖高有YES13多云热正常无YES14雨温暖高有NO48每一个因素形成一个决策树分支天气yesNo晴23多云40雨322023/9/2349基于天气划分决策树天气1:NO2:NO8:NO9:YES11:YES3:YES7:YES12:YES13:YES4:YES5:YES6:NO10:YES14:NO晴多云雨其他因素也形成了一个树的分支2023/9/2350气温1:NO2:NO8:YES13:YES4:YES8:NO10:YES11:YES12:YES14:NO5:YES6:NO7:YES9:YES热温暖凉爽有风1:YES3:NO4:YES5:YES8:YES9:NO10:YES13:YES2:NO6:NO7:YES11:YES12YES14:NOfalsetrue湿度1:NO2:NO3:YES4:YES8:NO12:YES14:NO5:YES6:NO7:YES10:YES11:YES13:YES高正常如何把多个因素合并成一个大的决策树?天气、气温、湿度、有风这四个因素谁为起点分支?在何处分支?在何处停止?越确定的在分支,越不确定的在主干。否则到了树的支端无法做决定。但如何计算它们的确定性和不确定性?2023/9/2351药物B血压年龄药物A药物B药物A高正常低≤40>40如何把小的分支合并成一棵大的决策树?首先介绍一下信息的一个计算方法:信息熵的定义:无序性度量。(不确定性)
对值的无序的情况做一个量化的测量。例:信息熵=0信息熵=0信息熵最大当都是yes或都是NO时无序性很差,不确定性很弱,信息熵最小0当yes和no一样多时无序性很强,不确定性很强,信息熵最大2023/9/23521:NO2:NO8:NO13:NO1:YES2:YES8:YES13:YES1:NO2:NO8:YES13:YES利用熵的计算方法计算决策树越到树的主干,不确定性越大,熵越大,越到树的分支,确定性越大,熵越小以便决定YES或NO2023/9/2353熵大熵小确定性越大不确定性越大Yes和no越平均Yes和no越一致信息熵的计算公式Info[C1,C2]=ENTROPY(P1,P2)=-P1*LOG2P1—P2*LOG2P2
C1,C2代表发生事件的不同数量P1=C1/(C1+C2)发生事件的不同概率以YES与NO为例解释:C1,代表发生yes的次数,P1,代表发生YES的概率C2,代表发生NO的次数,P2,代表发生NO的概率
2023/9/2354函数名称,就像SUM一样。Info[C1,C2]=ENTROPY(P1,P2)
=-P1*LOG2P1—P2*LOG2P2
C1,代表发生yes的次数,P1,代表发生YES的概率
C2,代表发生NO的次数,P2,代表发生NO的概率
例如:在一个节点上yes是2,no是3P1=2/5P2=3/5Info([2,3])=-2/5*LOG2(2/5)-3/5*LOG2(3/5)=(-0.4)*(-1.32)+(-0.6)*(-0.74)=0.971位2023/9/2355天气1:NO2:NO8:NO9:YES11:YES晴比特,又叫Bit,是计量单位以天气为例进行信息熵计算天气yesNo晴23多云40雨32合计952023/9/2356Info(晴)=Info([2,3])=0.971位Info(多云)=Info([4,0])=0.0位Info(雨)=Info([3,2])=0.971位还是不能确定谁是主干:观点就是天气、气温、湿度、有风,谁建立了分支之后,信息的不确定性消除得越多,就当做主干。也就是看看以谁当主干,很快就达到了分支,很快信息就变得确定了。计算天气下面建立分支后不确定性Gain(天气)=info(天气合计)-info(晴,多云,雨)=info([9,5])-info([2,3],[4,0],[3,2])=info([9,5])-(info([2,3]+info([4,0]+info([3,2])=0.2472023/9/2357天气yesNo晴23多云40雨32合计95不确定性消除的值有一个名词表示:信息增益gain平均信息值同理计算出其他三个因素下面建立分支后,信息不确定性消除了多少Gain(天气)=0.247位Gain(气温)=0.029位Gain(湿度)=0.152位Gain(有风)=0.048位2023/9/2358选择不确定性消除最大的作为第一级主分支天气已经作为第一个主干了,那么下面该接着谁作为下一级主干?2023/9/23591:NO2:NO8:NO9:YES11:YES3:YES7:YES12:YES13:YES4:YES5:YES6:NO10:YES14:NO气温?湿度?有风?直接做决定需要参考其他因素需要参考其他因素14天具体打网球情况:序号天气气温湿度有风打网球1晴热高无NO2晴热高有NO3多云热高无YES4雨温暖高无YES5雨凉爽正常无YES6雨凉爽正常有NO7多云凉爽正常有YES8晴温暖高无NO9晴凉爽正常无YES10雨温暖正常无YES11晴温暖正常有YES12多云温暖高有YES13多云热正常无YES14雨温暖高有NO60以天气晴下面建立分支为例:以信息完全确定作为分支的结束2023/9/23612023/9/23611:NO2:NO8:NO9:YES11:YES气温1:no2:no8:no9:yes11:yes热温暖凉爽序号天气气温打网球1晴热NO2晴热NO8晴温暖NO9晴凉爽YES11晴温暖YES以天气晴下面建立分支为例:以信息完全确定作为分支的结束6262湿度1:no2:no8:no9:yes11:yes序号天气湿度打网球1晴高NO2晴高NO8晴高NO9晴正常YES11晴正常YES高正常2023/9/2363序号天气有风打网球1晴无NO2晴有NO8晴无NO9晴无YES11晴有YES有风1:no8:no9:yes2:no11:yes无有以天气晴下面建立分支为例:以信息完全确定作为分支的结束2023/9/23642023/9/23641:NO2:NO8:NO9:YES11:YES气温湿度有风1:no2:no8:no9:yes11:yes1:no2:no8:no9:yes11:yes1:no8:no9:yes2:no11:yes2023/9/23651:NO2:NO8:NO9:YES11:YES3:YES7:YES12:YES13:YES4:YES5:YES6:NO10:YES14:NO1:no2:no8:no9:yes11:yes4:yes5:yes10:yes6:no14:no最终的决策树结果人性化2023/9/2366决策树的特点决策树一般都是自上而下的来生成的。可以完成分类任务,而且因为是树状结构,比较容易被使用者理解。2023/9/2367第一步骤选择第三步骤挖掘第二步骤处理第四步骤分析2023/9/2368数据挖掘步骤目标数据预处理及变换变换后的数据数据挖掘算法解释/评估68清理筛选知识第一步骤:选择收集数据
就是进行原始需要被挖掘的数据采集。例如:做肺癌处方的数据挖掘,要采集肺癌处方的信息,或原有的患者信息中导出,形成数据子集。原始数据的采集非常费时费力,通常在费用中占相当大的比重。可以采用较小规模的数据对问题的可行性进行初步研究。2023/9/2369第二步骤:处理数据预处理部分,把数据转换成比较容易被数据挖掘的格式及内容。内容处理:年龄
六十岁60
有个还分组:老年、青年、等格式处理:年龄
出生日期1950年转成61。
2023/9/2370第三步骤:挖掘运用工具和算法,进行挖掘,完成分类、关联、聚类、估计、预测等功能,发现数据中的规律。例如:关联分析中常用apriori算法,算法就是一种计算方法,例如:计算一个班上有多少人:可以用加法或乘法。加法和乘法就是算法。2023/9/2371第四步骤分析例如:预测信用卡欺诈行为。
通过算法分析信用卡用户的购买习惯,根据结果认识客户的模式,并分辨出偏离模式的信息卡盗用行为。2023/9/2372概念数据挖掘在中医药领域中应用73二、关联分析在中医领域应用情况
中医领域及计算机领域均有深入研究中医计算机中国中医科学院南京中医药大学湖南中医药大学福建中医学院北京中医药大学浙江大学计算机科学与技术学院厦门大学山西医科大学山东师范大学南京理工大学南方医科大学江苏大学河南大学合肥工业大学哈尔滨工程大学广东工业大学东北大学北京交通大学北京工业大学近3年的学位论文中医症状病机实体识别及其关系挖掘研究绝经综合征中医药临床疗效评价方法的数据挖掘研究中医诊疗中挖掘算法的方法研究基于智能算法的医学数据挖掘——特征权重优化方法研究及其应用中医医案数据挖掘技术研究基于数据挖掘技术的证素辨证方法研究中医小儿肺炎疗效评价系统的设计与实现基于数据挖掘对急性冠脉综合征辨证论治规律的探索性研究中医小儿肺炎辩证标准数据挖掘系统中的数据预处理技术基于数据挖掘的周仲瑛教授治疗系统性红斑狼疮病案回顾性研究中医临床诊疗垂直搜索系统研究基于数据挖掘的中医脏腑辨证系统研究中医活血化瘀方数据库及其数据挖掘基于数据挖掘的中医方剂分析技术研究中医妇科常见病医案数据挖掘方法研究基于粒计算与完全图的关联规则算法研究中药归经(肺经)理论和肺系方剂配伍规律的解析及在海洋中药研发中的应用基于聚类和BP网络集成的中医耳穴智能诊断仪研究应用信息技术探索我国高等中医药院校学术及科研发展趋势基于分类关联规则的仲景方挖掘研究田从豁教授治疗痹证、瘾疹、不寐的经验挖掘分析基于贝叶斯网络的中医医案数据挖掘特征选择在中医数据挖掘中的应用研究基于SVM与关联规则中医舌象数据挖掘技术初步研究数据挖掘中分类分析的策略研究及其生物医学应用基于HMM的中医临床疗效评价分析研究数据挖掘在中医若干问题研究中的应用关联规则挖掘在中医辨证诊断中的应用研究数据挖掘模型的创建及其在中医药文献中的应用研究关联规则算法研究及其在中医药数据挖掘中的应用数据挖掘及其在中医药领域中的应用关联分析在中医数据挖掘中的应用研究脾虚证诊断信息数据挖掘的初步探讨恶性肿瘤与脾虚证相关性数据挖掘的初步探讨明清中医疫病发病、症状与用药相关性数据挖掘研究多路异质聚类在中医临床数据中的应用及其研究名老中医经验传承中的数据挖掘技术研究粗糙集合属性约简方法研究与实现面向中医胃病诊疗的数据挖掘技术SVM算法研究及其在中医脏腑辨证中的应用慢性胃炎中医诊疗中的数据挖掘研究DartSpora数据挖掘平台的构建吕仁和教授治疗糖尿病学术思想及其传承方法的研究可扩展智能推理及其在中医舌诊中的应用绝经综合征中医证治规律的数据挖掘模型与系统架构设计
原始数据规范不足
挖掘领域局限性
结果评价不充分
存在问题研究目的:丰富妇科的临床用药理论探索:中药与中药之间症状与症状之间证型与证型之间中药与症状之间中药与证型之间症状与证型之间三、数据挖掘在中医妇科医案中的应用关系收集符合要求的医案第一步数据采集第二步数据预处理第三步数据挖掘第四步结果评价分析把收集的妇科医案数据统一★★★把统一好的数据进行数据挖掘把挖掘结果作一个综合分析★★★研究流程
医案采集病种选择医家选择医案时间医案内容第一步:数据采集参考94中医药行业标准:确定妇科常见疾病共有14个通过检索中医药信息研究所的中国中医药期刊文献数据库检出这些疾病的期刊文章发表情况病种选择
病种选择选择了前4个发表文献数最多的病种,在医案实际记录中,有的病名很模糊,故医案中信息诊断参考了国家中医药管理局1994年颁布了《中华人民共和国中医药行业标准-中医病症诊断疗效标准》
医案总况病种选择医家选择医案时间医案内容痛经崩漏不孕闭经经验丰富的医师医案出版时间1972-2005医案就诊时间1951-2003中医诊断中药处方证型症状采集医案情况处方,症状,证候原文采集涉及医案共2138例崩漏664例闭经408例不孕631例痛经435例期刊中医案848例,专著中医案1290例涉及医家476位数据采集内容围绕数据挖掘目的:寻找证-症-药关系。采集4种疾病医案中证-症-药信息崩漏闭经不孕痛经证型症状处方中药组成确定一些纳入排出标准例如:在本课题收录的医案中,治疗方法都是单纯的中草药内服治疗。凡含有中成药、针灸治疗、外用治疗、西药治疗、手术治疗的医案均被排除在外。这里特别要说明的是中成药治疗不予收录。辨证必须含有病性和病位内容。一些医案的辨证部分只含有病位如“肝脾为病”或只含有病性“虚”或“实”不予收录。症状除主症之外必须有两个以上症状描述,采集医案样例1陈某43岁1976,12,14月经过多来则如崩,已十余年,血色鲜红,夹有大血块.无腹痛.头面洪热,此次经期将临,舌胖,苔薄白,脉沉细气血两亏,冲任损伤党参12g黄芪12g白术9g生贯众30g花蕊石30g益母草9g升麻6g槐花12g生甘草4.5g炙甘草4.5g侧柏叶30g山药15川断12g钩藤12g崩漏沈仲理《近现代二十五位中医名家妇科经验》242页症状\证型\中药名称都需要规范处理预处理内容总则尽量贴近临床尽量忠于原意,不失或少失原意。中药证型症状
数据预处理中药部分
预处理名称预处理冬术白术正异名的处理中药正异名标准表正名是唯一的异名是唯一的紫背金盘草白毛夏枯草翻背白草管仲天水蚁草地膏药毛大丁草根白叶不翻鹿茸草秋牡丹根根委陵菜翻白草白牛胆正异正异正异正异野丈人胡王使者白头公《中华本草》中的正异名循环现象建表方式白头翁……医案中原文规范后木蔓头→木馒头青篙→青蒿肉从蓉→肉苁蓉桑葚→桑椹…………错别字省略字医案原文中名称规范后名称龙牡→龙骨,牡蛎赤白芍→赤芍,白芍藿荷梗→藿梗,荷梗苍白术→苍术,白术…………净制、切制对于药物性味归经改变很小,,就是凡见中药名称中含有“片”、“末”、“粉”、“鲜”、“嫩”、“净”等净制、切制方法的标志用词,予以去除。例如:医案处方中见“佛手片”,直接去除“片”字,被规范成“佛手”。炮制预处理净制、切制净制、切制、炮炙三种炮制方法中的炮炙法,对中药的性味归经等有很大影响,中药这部分的炮炙方法给予保留在中药炮制参考书籍中,每味药的炮制内容中有这样一个栏目——[处方应付],用以指导药剂师处理临床医师的处方[36]。例如:大黄的[处方应付]:处方中写大黄、川军、生军均付生大黄。写酒大黄、酒军付酒炒大黄,写熟大黄、制大黄付熟大黄,其余各随方付给。参考上述的中药[处方应付],熟大黄、制大黄都合并为熟大黄。炮炙编号规范后名称频数原始中药名称101400白茅根《药典》15白茅根《药典》茅根《别册》生白茅根《切》101600白术《药典》642白术《药典》土白术《别册》冬术《别册》土炒白术《切》炒白术《切》土白术《切》漂白术《切》晒白术《切》101601白术(焦)8焦白术焦冬术101602白术(生)18生白术101603白术(炭)2白术炭101604白术(煨)1煨白术101605白术(制)1制白术中药规范表(部分)从结构上规范,把证型名称规范成统一结构的主谓词组,主语部分是病位,谓语部分是病性。结构主+谓↕↕血+瘀证型部分预处理复合证型,涉及两个脏器的尽量拆分,例如肝肾阴虚,可以拆分成肝阴虚+肾阴虚,如果难以拆分的,如肝脾不和,则保留原状。内容复合证型冲任冲任失调的辨证几乎出现在所有医案中,成为一个非常强的干扰项,故把冲任失调的辨证去除对规范后的证型的选词,一方面参考了《中国中医药学主题词表》、《中医诊断学》、《中华人民共和国中医药行业标准-中医病证诊断疗效标准》等专业书籍;另一方面把需要规范成同一证型的用词作了频数统计,选用了一个使用频次最高的词作为规范后证型。选词频次高证型标注表(部分)编号规范后证型词频次证型词原文(后缀数字为医案中出现的频次)300905血瘀591血瘀349瘀血85血淤19血滞30血行不畅15血凝12气血瘀滞10气血运行不畅10血行瘀滞6气血郁滞5气血阻滞5气血壅滞5血涩4血结4气血涩滞3炼血成瘀3气血凝滞3血阻3干血2气血不畅2气血瘀阻2血行不通2血结成瘀化热1血行瘀阻1血行受阻1痰血互结1气血奎滞1血滞不畅1血分有寒夹瘀1寒凝血泣着而成瘀1气碍血行1血不得行1血运不畅1血有郁热1结构主+谓↕↕腹+痛副词选词频次高症状部分预处理稍略微结构副词选词频次高略微症状描述详细程度不同同一个腹痛,有的仅写腹痛,有的写腹刺痛,有的写小腹痛,有的写小腹刺痛,用词上深浅各不相同。需要对症状进行特殊处理,才能粗细概念均保留。症状部分用词拆分下腹微刺痛医案原文拆分下腹微刺痛下腹微刺痛下刺微腹微刺痛规范后腹痛下腹痛腹刺痛刺痛下腹刺痛规范后症状标注表(部分)编号规范后症状频次医案中原文症状用词及使用频次201105体瘦289体瘦93
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育评价改革的路径与实践方案
- 公寓改造项目可行性分析报告
- 癫痫防治管理项目的有效策略与实施路径探索
- 2025至2030年中国网扣绳市场现状分析及前景预测报告
- 2025至2030年中国缝内线机行业投资前景及策略咨询报告
- 2025至2030年中国绵纸胶带行业发展研究报告
- 2025至2030年中国织机片梭行业投资前景及策略咨询研究报告
- 2025至2030年中国纸用柔软剂市场调查研究报告
- 2025至2030年中国纱网门贮藏柜市场分析及竞争策略研究报告
- 农村家庭医疗保险参与的微观效应研究-基于经济效应与健康效应的视角
- 施工现场常见问题解决的协调沟通技巧与有效方案研究
- 四年级英语 Lesson 14 Are You Short or Tall 全省一等奖
- 遵义会议精神宣讲
- CJJ-181-2012(精华部分)城镇排水管道检测与评估技术规程
- 【基于UASB+SBR的组合处理工艺的制药厂废水处理工艺设计12000字】
- 手术室对病理标本处置出现错误的原因分析品管圈鱼骨图柏拉图
- 澳洲坚果雪花酥加工技术规程
- 小升初个人简历模板下载
- 6款课堂活动随机点名-抽奖模板(可编辑)两套
- 牛产后疾病课件
- 无人机在公安领域的应用
评论
0/150
提交评论