医学结构化数据挖掘课件_第1页
医学结构化数据挖掘课件_第2页
医学结构化数据挖掘课件_第3页
医学结构化数据挖掘课件_第4页
医学结构化数据挖掘课件_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

01七月2023医学数据仓库与数据挖掘1

—第10章—

数据挖掘

数据挖掘在医学中的应用第十章医学数据挖掘医学结构化数据挖掘医学结构化数据挖掘概述医学结构化数据挖掘的应用研究医学文本数据挖掘文本数据挖掘概述医学文本数据挖掘的应用研究2医学数据挖掘医学数据挖掘面向整个医学数据库或医学信息集合提供知识和决策,是医疗决策支持系统的重要组成部分。医学数据结构化医学数据:数据结构明确、内容经整理可有效存储和处理。如医学病历。非结构化医学数据:本身无规范结构、内容较复杂。如医学多媒体数据、文本数据等。3医学结构化数据挖掘医学结构化数据挖掘概述医学结构化数据产生医学结构化数据来源

日常医疗实践,如医学影像处理的PACS系统、临床检验的LIS系统等信息化管理系统。

患者角度:登记挂号、就诊、开单检查…

4医院角度:各科室信息的统计和汇总。

非结构化数据(如手写病历、检验报告单)经录入可以转化为结构化数据。医学结构化数据挖掘医学结构化数据挖掘中医学结构化数据存在形式:文献数据库、临床数据库。下面从三方面介绍医学结构化数据挖掘:中医药文献数据库

挖掘对象:包含于中医药古籍文献以及当前的研究文献中的海量中医药数据。提取知识。6辛亥革命以前:中医药学古籍文献13000多种辛亥革命以后:中医药图书12000多种,中医期刊230多种1987~2003年发表:中医药文献530700篇医院信息管理系统医生诊病问题:个人临床经验有限,难以从复杂医学结构化数据挖掘医学结构化数据挖掘混乱数据中提取知识。

挖掘对象:存储于HIS的大量病案数据为医生提供极具价值的知识,优化传统医疗方案。

HIS=MIS+CISHIS:医院信息管理系统;

8MIS:管理信息系统处理医院内部管理方面CIS:临床信息系统处理以患者为中心的一系列相关信息

医学结构化数据挖掘医学结构化数据挖掘

挖掘示例:从CIS数据库分析某种疾病治疗过程中诱发其他疾病的概率与时间的关系等。方剂数据库

挖掘对象:医药复方。挖掘隐含于复方的对疾病认识和治疗的科学规律,补充10中医药专家系统知识库。

复方新药的经验开发模式:根据自身知识与经验组方临床验证疗效好药理学、中药化学研究。复方新药的新开发模式:利用数据挖掘和KDD技术开发研制中药复方。医学结构化数据挖掘医学结构化数据挖掘医学结构化数据挖掘的应用研究文献数据库的数据挖掘

大量的中医药信息的流失影响中医药学的发展建设中医药科技信息数据库、实现“数字中医学”。

目前,国内外已建成的中医药相关数据库有近百个,以文字描述性数据库为主。12方便了研究。

周连菊等建立的“《黄帝内经》计算机检索数据库系统”;

南京中医药大学研制出的“针灸腧穴文献资料检索系统”;

上海中医药大学研制的“《针灸大全》检索系统”;

医学结构化数据挖掘医学结构化数据挖掘陕西中医学院研制的“针灸甲乙经通检系统”;

中国中医研究院研制的“ACULARS针灸文献检索系统”。为研究中医古籍提供了快捷的浏览和检索手段,方便了我们对中医古籍的研究。14医学结构化数据挖掘医院信息管理系统中的数据挖掘

从完整的病案信息取得统计原始数据,为医疗管理及主管部门的决策提供前瞻性资料。

案例:

刘丹红等人用上呼吸道感染病例的病案首页数据和决策树分析法建立病情危重度分类评价模型;

15利用贝叶斯神经网络找出抗精神病药物与心肌炎和心脏病发作的关系;粗集理论用于肺癌的诊断、宫颈癌病变的检测等。常用数据挖掘方法有很多种,它们分别从不同侧面、不同角度反映事物的本质:医学结构化数据挖掘医学结构化数据挖掘统计分析和可视化技术:挖掘不同疾病在不同年龄段的至于时间、治愈率、平均费用等;不同疾病的地区分布情况等。决策树、神经网络、粗糙集等:对病历记录挖掘,构造相应疾病的分类模型,并对每种疾病找出效果较好的治疗方案。关联规则:挖掘哪些疾病并发的可能性较高,某些疾病与年龄、性别、居住地、17职业、生活习惯等的关系。序列模型挖掘:病人的病情发展情况预测。中医药领域的数据挖掘(1)寻找新药先导化合物医学结构化数据挖掘医学结构化数据挖掘随机筛选与意外发现定向挖掘

用数据挖掘去寻找先导化合物,指导中药新药的研究和开发,缩短中药研究开发的周期。(2)开发中药复方

经验开发模式数据挖掘和KDD技术开(3)研究中药指纹图谱

用数据挖掘技术去发现和解析中药指纹图谱潜在信息,评价和控制中药质量及研究中药定量组效之间的关系。19医学结构化数据挖掘(4)中医药信息化研究

对古语言和纯文本为主的中医药理论和实践进行结构化解释,促进中医药信息结构化、中药临床功效的规范化和标准化。方剂数据库中的数据挖掘(1)探讨复方配伍规律

如姚美村等人用关联规则分析技术对治疗消渴病的中药复方配伍的科学内涵进行探索性分析研究,建立复方特征数据库。20医学结构化数据挖掘(2)药对研究方剂配伍规律的研究需在药对研究的基础上从简到繁进一步深化;高频用药组合分析是对药对分析的扩展。

如浙江大学用Apriori算法对三个数据库中的方剂进行高频用药的知识发现和比较,与中国中医药对数据库中收录的药对进行对比分析,得到一系列实验结果。(213)开发面向中医药方剂的数据挖掘平台

如浙大设计和开发的面向中医药方剂的数据挖掘平台。医学结构化数据挖掘医学结构化数据挖掘23面向中医药方剂的数据挖掘平台方剂选择系统数据规范加工以及预处理系统挖掘算法系统高频分析系统关联规则分析系统聚类/分类分析系统挖掘算法性能评价系统医学结构化数据挖掘中医证候分析(1)辨证论治思维模式多元化遣方用药模式

利用数据挖掘技术分析病、证、方、药之间的关系和规律,从药方证病的关系分析其制方的思维模式。(2)对中医证候进行聚类挖掘,寻找与某些症状相似的证候。(3)建立和使用针对特殊问题的概化模型

基于数据建模建立智能决策支持系统,加速中医药现代化、规范化和知识化进程。24医学文本数据挖掘文本数据挖掘概述文本数据挖掘的定义文本数据挖掘定义

从大量文本数据中抽取有效、新颖、可理解、最终可用的、散布在文本文件中的有价值的知识,并且运用这些知识更好地组织信息的过程。25文本挖掘的独特之处(1)文本结构本身是半结构化或非结构化的,无确定形式且缺乏及其可理解的语义;(2)涉及到多个学科领域。多数文本数据库存放的是半结构化数据。医学文本数据挖掘医学文本数据挖掘当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称文本挖掘。文本数据挖掘的分类文本总结

抽取关键信息、对文本内容进行摘要或解释。27文本分类

按照预先定义的主题类别,为文本集合中每个文本确定一个类别。文本聚类

无预先定义好的主题类别,其目标是将文本集合分成若干个簇,要求同一簇内相似度尽可能大,不同簇间相似度尽可能小。//层次凝聚法,平面划分法医学文本数据挖掘医学文本数据挖掘文本关联分析

从文本集合中找出不同词语之间的关系。文本分布分析与趋势预测

通过对Web文本的分析,得到特定数据在某个历史时刻的情况或将来的取值趋势。29文本挖掘过程(1)特征集的建立描述性特征:文本名称、日期、大小、类型等;

语义性特征:文本作者、机构、标题、内容等。(2)特征集的缩减

对文本特征向量降维,缩减特征集,包括横向选择和纵向投影。医学文本数据挖掘医学文本数据挖掘横向选择:剔除有噪声文档或文档过多时仅选部分文档来挖掘;

纵向投影:根据挖掘目标选取有用特征,获得代表文档集合的有效、精简的特征子集。(3)学习和知识模式的提取

通过分类和聚类,提取面向特定应用目的的知识模式。(4)模式质量评价

31对知识模式进行质量评价,若满足要求则保存;否则返回分析改进进行新一轮挖掘。下面以文本分类来简单介绍结果模式评价医学文本数据挖掘医学文本数据挖掘文本分类的评价指标:查准率和查全率。查准率和查全率反映了分类质量的两个不同方面,故为了公平起见,形成一种新的评估指标,即F1测试值:33医学文本数据挖掘文本数据挖掘的关键技术文本预处理

目的:去掉那些文本中出现频率高而对识别文本类别作用不大的词,如“的、地、了”等。

一般方法:用高度概括的向量表示文本,将文本集向量集(即特征集),对向量集分析达到文本集自动分类、聚类、产生摘要等目的。(1)文本的向量空间表示

34用文本特征集表示原来文本,实现从非结构化结构化的处理。

特征表示模型有:布尔逻辑型、概率型、向量空间型。医学文本数据挖掘医学文本数据挖掘(2)文本特征的提取一般特征:名词和名词短语;数字特征:日期、货币、时间和单纯的数字信息等。对文本进行特征标引可以利用自动标引技术。

标引:给出信息内容特征的过程;

36自动标引:利用计算机技术自动分析出能够代表一段文本或一篇文章主题意义的词汇(即关键词或主题词)。

关键词标引同义标引词泛滥,效果不好

主题词标引提高标引质量,效果好(3)文本的相似度

作用:提取重要段落或语句;文本分类和聚类。医学文本数据挖掘医学文本数据挖掘文本特征向量可由文本与词的相关矩阵来描述,即其中,表示第i篇文本与第j个词的相关程度,m是文本总数,n是词的总数。利用相关系数S来表示相关性的大小,如Sij表示第i篇文本与第j篇文本的相关系数,则38医学文本数据挖掘文本分类

文本分类:根据文本的特征将其自动分配到预定义的类别。

(1)基于训练集的文本分类方法

如基于神经网络的方法、基于遗传算法的方法、基于EM算法的方法、基于文本特征向量相关性的方法等。基于文本特征向量相关性的方法:39用规范化特征向量来构造每一个需要分类的文本用规范化特征向量来构造每一个预定义类别计算文本特征向量与类别特征向量的相似度来评价分类文本与每一个预定义类别特征之间的相关性。医学文本数据挖掘医学文本数据挖掘(2)基于分类词表的文本分类方法

实际问题:一词多类、多词一类、每类中存在带共性的小类。

对文本的分类处理借助分类词表来完成的分类方法。

文本分类过程:①从信息库提取一条待分类记录;

41②把关键词作为检索键搜索关键词与类主题词联结库,获取类主题词;③通过类主题词查找类主题权重词库表,获取权值和分类号,当取完所有分类号和权值后。进行类号合并与权重求和;

医学文本数据挖掘医学文本数据挖掘④将所有取出的类号进行比较,根据分析结果定类。分析归类一般如下考虑:a)只有唯一的类号,直接归类;b)有多个类号,权值最大的类号只有一个,将文本归入其类;c)有多个类号的最大权值相等,删除权值最小的类号,在最大权值的类号中选出单一权值43最大值为首选类号,其他相同权值的类号作为辅选类号。文本聚类

文本聚类是指将文本根据其特征分为多个类或簇。

硬聚类、软聚类。医学文本数据挖掘医学文本数据挖掘(1)划分聚类法的原理

对于k值,先给定初始分组方案,然后通过反复迭代来改变分组,使得每次改进后的分组都比前一次好。

分组时要求满足:每个分组至少包含一个文本对象;每个文本对象属于且仅属于一个分组(模糊聚类除外)。(2)划分聚类法的步骤

典型方法:k-中心点45医学文本数据挖掘具体步骤:①确定要生成的簇的数目k;②生成k个聚类中心作为初始中心点;③依次计算每个文本与各中心点的相似度;④把当前文本归入与其具有最大相似度的中心点代表的簇;⑤重新确定每个簇的中心点;⑥重复执行步骤3~5,直到中心点不再改变,文本不再重新被分配为止。46医学文本数据挖掘文本自动摘要(1)基于统计的自动摘要基本思想

通过记录关键词出现次数来选择摘要句,然后将选择出的摘要句按其在文本信息中出现的次序形成摘要。一般过程①待摘要文本信息录入47②词频信息统计③计算句子的权重④选择候选句子⑤加工生成摘要医学文本数据挖掘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论