下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中医诊断数据挖掘应用研究
0基于数据挖掘的中医诊断研究方法问题现在,中医诊断研究的中心主题是如何科学评价。包括疾病、疾病、证书等。这些研究无论是从宏观还是微观的角度,都不可避免地要开展对获取数据的分析处理。许多研究都有这样一个过程:设计一个实验→收集许多数据→统计分析→结果。这些研究存在的一个最大问题是:数据获取阶段是在假设的基础上开展的,收集的数据都有针对性,而且数据量不可能很多,因而反映的问题也不可能很全面。另外,在数据的筛选上,往往是通过人工方式从临床收集,工作量大。引入数据挖掘技术,建立中医诊断研究实验平台,将会彻底改变这样的局面。这是由于数据挖掘的工作是建立在数据库或数据仓库基础上的,因此,为了采用数据挖掘技术必定会促使研究人员考虑科研数据的快捷收集与积累的方法,这势必促进临床诊疗数据的规范研究。当数据积累到一定程度时,研究人员既可以利用计算机技术对各类所需的数据进行筛选,也可以应用各类挖掘工具开展诸如:症状-症状的相关性研究;证素与证素的相关性研究;病-证的相关性研究;证-西医检查数据的对应分析、数字化中医诊断建模、诊断指标量化研究等。中医数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。1中医诊断和挖掘的目标利用基于数据挖掘的中医诊断实验研究平台,开展证素辨证研究,可以获取如下5类知识。1.1从知识的角度对于数据的设计要根据信息包括类别特征的概括性描述知识,根据临床数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。在医院使用的临床信息系统中,如果中医电子病历设计合理,临床数据达到一定程度时,则可利用知识发现的方法和技术,获得归纳出来的知识。如:症状的诊断能力分析,临界症状的确定,症状之间的联系,证素之间的联系,证素与症状之间的联系,以建立较为完整的客观化中医知识系统。1.2属性的关联与预测中医诊断关联知识是反映一个事件和其它事件之间依赖或关联的知识,如症状与症状之间、症状与证素之间、证素与证素之间,如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其它属性值进行预测。利用数据挖掘的技术对中医临床信息进行处理,将会很好地得到:症状与证素之间、症状与症状之间、证素与证素之间的依存关系,症状与脉象、舌象之间,症状症候与病人年龄、男女、地域、季节有什么普遍规律,症状、脉象与治则、方剂、疗效之间有什么规律,疾病、症状与治疗用药规律、中药方剂配伍有哪些规律等。1.3中医诊断分类反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。1.4需要大量分析的情况可以发现时有可能导致感冒的发生情况根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。例如:根据连续几年春季的某个时间段的大量感冒病历数据进行分析,可以推测来年的感冒发生情况,如来年感冒发生的人群年龄范围、证型分布、主要症状、并发疾病等;再如,对大量某一种疾病的病人在不同时间的情况进行分析,可以获取该疾病发展变化的趋势,以及证的演变过程。这些都属于中医诊断预测型知识。1.5对偏差型知识的挖掘偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。偏差型知识的挖掘有助于发现不规则和变化,例如,对一组类似的阳虚患者进行比较,可以找出不同于一般阳虚患者的一些病人,这些病人可能症状不典型,或者出现不符合常规的症状,对于此类信息的分析所获取的知识为偏差型知识。掌握了偏差型知识,在处理某些问题时,就能够有的放矢,如对一组阳虚患者的基本数据进行比较,在比较之前,可对该组的不同因素进行调整,以减少其不规则性对整个比较结果的影响。2证素辨证中的关系本研究平台是以中医的证素辨证体系为基础进行设计的。证素辨证是中医诊断的一种方法。所谓证素,即辨证的基本要素,是通过对“证候”(症状、体征等)的辨识,而确定的病位和病性,是构成“证名”的基本诊断单元。证素辨证研究的核心问题是证素的确认,它是通过对临床信息的认识寻找构成证的基本元素,它需要把握的是临床信息基元,也就是当一组症状群呈现出稳定的相互关系,它所反映的是病位与病性的最小单位。而这种稳定的相互关系的发现与确定,主要涉及证素决策方法研究与证素辨证中的关系研究。证素辨证方法的好坏,取决于其是否方便临床使用。证素辨证中的关系主要包括证素与证候、证素之间、症状之间的关系。深入了解证素辨证中的各种关系,对疾病的诊断、病情转归的预测等有着举足轻重的作用。临床中,对疾病变化的认识体现在对证的认识上,而对证的认识又是通过对证候的观察,判断疾病的病位与病性,病位与病性是与疾病密切相关的两大要素,研究证候与证素在不同时间、不同条件下的关联程度,可以让医生及早把握病病发展的方向[7,8,9,10,11,12,13,14]。通过对证素辨证研究要点的分析,本研究设计了一个基于数据挖掘技术的中医诊断研究实验平台,主要内容如下:2.1基于医院临床信息的数据库建立通用病历信息文件结构,整合数据挖掘工具,为开展基于信息科学的中医诊断宏观辨证研究搭建一个平台。针对数据仓库,整合多种类型的数据挖掘算法,并将数据清洗、转换等预处理工作规范起来,为解决中医领域问题的多样性提供技术条件。通过这个技术平台,将会让研究人员在高度共享的临床信息的基础上,应用最新最科学的数据挖掘方法,解决好辨证论治的问题。同时,密切与计算机科学、数学、统计学学科人员的交流,促进中医诊断学研究水平的快速提升。2.2数据的整合与分析本着方便、实用、可扩展性强的设计理念,系统主要包括如下功能(如图1所示):(1)结构化的中医电子病历系统;可有效地管理病历数据,并方便数据挖掘;(2)基本的统计功能;可支持研究者对数据库的资料有一个总体的认识;(3)经典算法集;通过整合各类优秀的挖掘工具达到要求;(4)方便的病历数据筛选,以支持研究者快速获取特定目标的数据;(5)方便的可扩展算法接口,可支持研究者自行加入针对中医诊断专业的有效算法;(6)方便的数据格式转换,以支持各类整合进来的数据挖掘工具。其中,病历信息文件结构设计如下:一行为一个病人的记录,每条记录由8个字段构成,字段之间以空格分开:(1)标志:a_;病人身份信息:身份号码;(2)标志:b_;望闻问切诊收集的病状信息:症状字符串,长度为4的倍数(每一个症状信息为4位编码);(3)标志:c_;仪器检查信息:标识码为区间中的任一个,后接实际测量数据串,每一个数据由数据类型编号+数据实测值,数据之间一以“#”号隔离开字符号;(4)标志:d_;中医诊断结果:辨证结果,为证型术语的编码(有标准按标准,无标准要建立标准);(5)标志:e_;西医诊断结果:按ICD-10疾病编码;(6)标志:f_;处方:一位处方识别码:0标准中药方剂+/-中药,1中成药、2西药;(7)标志:g_;初复诊标志:两位,00:表示初诊,01~99表示复诊的次数;(8)标志:h_;医生:身份号码。通过上述结构的病历信息文件,便于数据交换,如,生成中间文件,供SVM或ROUGHSETS程序使用:根据用户需求自动建立LIBSVM用训练集与测试集、根据用户需求自动建立ROSETTA软件用决策表、调用LIBSVM和ROSETTA软件的接口函数等。2.3表达复杂中医信息的系数据库见表3以Caché数据库作为技术支持进行设计,因为它将比关系数据库(如:Orecal、SQLServer等)能更好地表达复杂的中医信息。下面给出一个利用Caché技术初步设计的一个数据库(如图2所示),主要内容如下:2.3.1主要电子疾病“err”以一个类核心。一条记录为某人一个时间的病人诊疗信息的记录,如表1所示。2.3.2医生的“门诊”和疾病患者的“patint”这两个类继承于人类“Person”,人类里面嵌入了地址类“Address”。2.3.3两形形“wrale”病状类“Symptoms”,证素类“Items”,中医诊断结果类“CResults”,中医治则类“CRules”,西医治则类“WRules”:这5个类属于中间类,Emr和他们建立1对多的关系,EMR为1方,他们为多方。他们自身不保存任何值,每一个对应要素的值和代码都是引用到相应的字典类的具体的值。所以,这5个类里面存的是2个指针,一个是指向Emr类,一个是指向对应的字典类。统计的时候,可以在这5个类上建立位图索引,然后在这5个类上统计(暂时没有加位图索引,统计模块也没有加)。2.3.4simptoms,simptoms,gDcresult→中医诊断结果类“CResults”的字典类Ditem→证素类“Items”的字典类Dsymp→病状类“Symptoms”的字典类Dwrule→西医治则类“WRules”的字典类2.3.5各品种、不同的学习内容和查询的高包含两个方法:Init→初始化GetClassObject→获取某个类随机的一个实例该数据库设计的优势主要有:节约空间——中间类一般是值的数目最多的,因为每个病历如果有30个病状,100个病历,那么病状的中间类将有3000个实例,但是因为只存指针,空间节约很大;查询的高效率——全部都采用对象之间的关系,很大程度避免了主键匹配带来的效率问题;有利于统计;所有内容都是按元素存贮,挖掘十分方便。3基于数据挖掘技术的中医诊断研究实验平台将进一步完善中医临床积累的信息很多,数据类型及相互关系错综复杂,在研究某些问题时,如果只有分析技术而无相应的外围技术配合,工作难度更大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024专业机械设备买卖协议典范版B版
- 2024实习职工入职合同
- 2024年专业商品混凝土物流服务合同版B版
- 2024年区块链技术应用研究与开发合同
- 2024年个人独资企业解散协议
- 2024全新卖房协议合同下载
- 江南大学《产品设计1》2021-2022学年第一学期期末试卷
- 佳木斯大学《商务日语视听说1》2021-2022学年第一学期期末试卷
- 2024常用建筑材料供应协议模板一
- 2024专业离婚子女探望细则协议
- 非遗漆扇扇子科普宣传
- 人教版小学四年级上册生命、生态与安全教案
- 期末测试(试题)-2024-2025学年六年级上册语文统编版
- (完整版)机电一体化专业毕业论文
- 2024秋期国家开放大学专科《监督学》一平台在线形考(形成性考核一至四)试题及答案
- 【全册】部编版三年级上册《道德与法治》教案
- 1.2 点线传情-造型元素之点线面 课件-高中美术人美版(2019)选择性必修1 绘画
- 教科版(2017秋)小学科学 二年级上册 2.3 书的历史 教学设计(教案)
- 2024新版七年级英语单词表
- 2024-2025学年统编版(2024)道德与法治小学一年级上册教学设计(表格版)
- 生物安全内审程序
评论
0/150
提交评论