5.临床科研设计-数据挖掘研究设计_第1页
5.临床科研设计-数据挖掘研究设计_第2页
5.临床科研设计-数据挖掘研究设计_第3页
5.临床科研设计-数据挖掘研究设计_第4页
5.临床科研设计-数据挖掘研究设计_第5页
已阅读5页,还剩129页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

临床科研设计(5)

——数据挖掘研究设计数据挖掘研究基于数据分析方法角度的分类本质上属于观察性研究研究资料来源于日常诊疗工作资料应用的技术较传统研究更先进分析工具、理论模型与传统研究区别较大数据挖掘研究设计基本概念选择数据处理数据挖掘分析结果解释Clementine软件应用基本操作关联规则决策树聚类分析判别分析数据挖掘研究设计基本概念选择数据处理数据挖掘分析结果解释Clementine软件应用基本操作关联规则决策树聚类分析判别分析数据挖掘的概念数据挖掘——从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘——从数据中自动地抽取模式、关联、变化、异常和有意义的结构。数据挖掘——利用已有的数据,数据收集过程不经过特意的科研设计,目的是发现规律,而不是验证假设。第一步骤选择第三步骤挖掘第二步骤处理第四步骤分析2024/7/14数据挖掘步骤目标数据预处理及变换变换后的数据数据挖掘算法解释/评估清理筛选知识数据挖掘研究的基本步骤数据挖掘研究设计基本概念选择数据处理数据挖掘分析结果解释Clementine软件应用基本操作关联规则决策树聚类分析判别分析第一步:选择数据收集获取原始数据

就是根据研究目的,进行需要被挖掘分析的原始数据采集。评估数据的可获得性。可以采用较小规模的数据对问题的可行性进行初步研究。原始数据可能会分布于不同的信息系统中,需要对信息系统充分理解,并有相应的技术实现数据的导出。原始数据的采集非常费时费力,通常在研究工作中占相当大的比重。8病人基本信息:HIS病人检验信息:LIS病人检查信息:PACS等医技系统病人诊疗过程信息:电子病历病人收费信息:HIS。。。。。。海量数据,大量的业务数据。问题也很多,标准不统一,很难分析。与临床相关的电子病历系统结构化与临床工作量之间的矛盾。中医系统——医疗科研信息一体化系统军队系统——中国重大疾病临床诊疗数据库数据挖掘研究设计基本概念选择数据处理数据挖掘分析结果解释Clementine软件应用基本操作关联规则决策树聚类分析判别分析第二步:处理数据数据预处理部分,把数据转换成比较容易被数据挖掘的格式及内容。内容处理:年龄

六十岁60

有个还分组:老年、青年、等格式处理:年龄

出生日期1950年转成63。

为什么需要预处理数据不完整含观测噪声不一致包含其它不希望的成分数据清理通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致来清理数据。污染数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务。垃圾进、垃圾出。污染数据形成的原因滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语重复记录丢失值拼写变化不同的计量单位过时的编码例:中药、证型、症状的预处理预处理是最为关键的一步正异名的处理:白头翁、白术、白头公错别字:青篙、青蒿省略字:龙牡、龙骨,牡蛎炮制预处理……建立一个中药规范表编号规范后名称原始中药名称101400白茅根《药典》白茅根《药典》茅根《别册》生白茅根《切》101600白术《药典》白术《药典》土白术《别册》冬术《别册》土炒白术《切》炒白术《切》土白术《切》漂白术《切》晒白术《切》101601白术(焦)焦白术焦冬术101602白术(生)生白术101603白术(炭)白术炭101604白术(煨)煨白术101605白术(制)制白术建立证型规范表编号规范后证型词频次证型词原文(后缀数字为医案中出现的频次)300905血瘀591血瘀349瘀血85血淤19血滞30血行不畅15血凝12气血瘀滞10气血运行不畅10血行瘀滞6气血郁滞5气血阻滞5气血壅滞5血涩4血结4气血涩滞3炼血成瘀3气血凝滞3血阻3干血2气血不畅2气血瘀阻2血行不通2血结成瘀化热1血行瘀阻1血行受阻1痰血互结1气血奎滞1血滞不畅1血分有寒夹瘀1寒凝血泣着而成瘀1气碍血行1血不得行1血运不畅1血有郁热1建立症状规范表编号规范后症状频次医案中原文症状用词及使用频次201105体瘦289体瘦93消瘦42形体消瘦34形瘦33形体瘦弱28形体削瘦5形体较瘦5面黄肌瘦4体质瘦弱3赢瘦3形体瘦小3身体瘦弱3瘦弱3体质消瘦2身体嬴瘦2形体不丰2形体偏瘦2身体较瘦2形体瘦削2嬴瘦2形嬴1形体枯瘦1形体消索1形体渐瘦1形体日嬴1身瘦1肌肉消削1数据处理两种结构化技术前结构化:在数据采集阶段即进行结构化设计、录入,数据分析阶段取到的数据都是规范的。事前的工作量很大。后结构化:在数据录入阶段进行自由输入,分析时按照一定的规则进行语义分析和结构化处理。数据挖掘研究设计基本概念选择数据处理数据挖掘分析结果解释Clementine软件应用基本操作关联规则决策树聚类分析判别分析第三步:挖掘分析运用工具和算法,进行数据挖掘分析,完成分类、关联、聚类、估计、预测等功能,发现数据中的规律。数据挖掘主要方法Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神经网络NeuralNetworks聚类分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis决策树DecisionTrees

倾向性分析关联分析Association数据挖掘软件应用数据挖掘研究设计基本概念选择数据处理数据挖掘分析结果解释Clementine软件应用基本操作关联规则决策树聚类分析判别分析第四步:结果解释结合专业知识,进行数据挖掘分析结果的解释,阐明规律,以及规律的临床价值。结果解释是数据挖掘研究的关键,从发现的规律进一步延伸出其实际意义,是整个研究工作的成果所在。25数据挖掘研究设计基本概念选择数据处理数据挖掘分析结果解释Clementine软件应用基本操作关联规则决策树聚类分析判别分析Clementine软件应用Clementine12.0安装方法1.下载,存放到D盘,重新命名为“ClementineV12”2.打开ClementineV12--点击运行setup.exe—按提示完成安装到默认目录:"C:\ProgramFiles\SPSSInc\Clementine12.03.D:\CLE12.0\Clementine12\Crack\破解

复制该文件下“lservrc”“PlatformSPSSLic7.dll”两个文件,粘贴到C:\ProgramFiles\SPSSInc\Clementine12.0\bin文件夹下,覆盖原来的同名字文件数据挖掘研究设计基本概念选择数据处理数据挖掘分析结果解释Clementine软件应用基本操作关联规则决策树聚类分析判别分析31Clementine用户界面操作区节点——一个图标代表在Clementine中进行的一个操作。工作流——一系列连接在一起的节点。可视化编程选项板源节点用来将数据读入Clementine中记录选项节点在记录上进行操作一条记录是一种“情形”或一“行”数据字段选项节点在字段上进行操作一个字段是一个变量图形节点在建模之前和之后用来可视化数据建模节点代表有效建模算法注意:建模算法产生生成的模型增加一个节点在选项板上双击节点,自动放置节点到数据流区域.将节点从选项板拖放到数据流区域中在选项板上点击一个节点,然后在数据流区域中点击一下编辑一个节点在节点上右击,展开一个节点点击“编辑”在菜单上还可以选择连接、断开连接、重命名、注释、复制、删除、载入、保存等操作连接节点使用鼠标中键来连接节点在数据流区域上,把一个节点连接到另一个上,可以通过鼠标中间键点击和拖放来完成(如果您的鼠标没有中间键,可以通过按住“Alt”键来模拟这个过程)通过双击来连接节点双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上使用鼠标中键删除节点之间的连接在连接箭头的头部按住鼠标右键选择“删除连接”Clementine中读取数据格式文本文件EXCELSPSS数据文件ODBC兼容的数据库SAS数据文件用户输入文件读取原始文件添加变量文件节点到数据流区域编辑节点指向文件通过编辑进行原始数据设置读取文本文件读取EXCEL文件读取其他数据文件原始数据是什么文件类型,则采用什么节点定义字段类型类型节点指定字段的一系列重要属性;指定字段类型、方向和缺失值;Clementine可以自动设置变量类型,用户也可以强制指定类型;为建立模型,指定字段的方向;指定缺失值以及如何处理缺失值;变量值检查保证字段值满足一定的设置;字段类型帮助您理解正在使用的数据,是一些数据准备和所有建模程序所必需的.连续型–用于描述数值,如0-100或者0.75-1.25内的连续值一个连续值可以是整数、实数或日期/时间离散型–用于当一个具体值的精确数量未知时描述字符串,一旦数据被读取,其类型就会是标记、集合或者无类型集合型–用于描述带有多个具体值的数据(黄、绿、蓝)标记型–用于只取两个具体值的数据(真、假)无类型–用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据字段方向输入:输入或者预测字段输出:输出或者被预测字段字段两者:既是输入又是输出,只在关联规则中用到无:建模过程中不使用该字段分区:将数据拆分为训练、测试(验证)部分字段方向设置只有在建模时才起作用字段实例化在读取值前数据称为未实例化,通过读取值后数据完全实例化,字段的取值和类型都是可知的.数据挖掘分析的一般步骤1、数据整理2、数据格式转化3、数据文件读入4、数据类型设置5、模型选择与参数设置6、结果输出与解读1、数据整理整理成可分析的数据一般为横向数据,即一个病人一条记录。ID药物数量(克)1甘草101当归101白术102大黄102白术102黄芩103当归103红花103白术10ID甘草当归白术大黄黄芩红花1101010000200101010030101000102、数据格式转换转化成软件可以读入的格式,常用TXT文件3、数据文件读入查看读入数据是否成功4、数据类型设置5、模型选择与参数设置关联规则决策树类神经网络聚类分析判别分析6、结果输出与解读执行模型后,输出结果。直接查看结果,也可以再次增加table节点,查看新写入的数据。结合专业知识进行解读。数据挖掘研究设计基本概念选择数据处理数据挖掘分析结果解释Clementine软件应用基本操作关联规则决策树聚类分析判别分析关联规则基本概念是分析两个或多个变量的取值之间存在某种规律性的方法,包括简单关联规则和系列关联规则。常用的简单关联规则有效性的主要测度指标包括两个:规则置信度和规则支持度。有时候也会用上提升度的概念。规则置信度是对简单关联规则准确度的测量,描述了包含项目X的事务中同时也包含项目Y的概率。规则支持度是对简单关联规则普遍性的测量,表示项目X和项目Y同时出现的概率。一个理想的简单关联规则应具有较高的置信度和较高的支持度。提升度表示项目X同时伴有项目Y出现的可能性是项目X单独出现的可能性的倍数。置信度、支持度、提升度的概念方剂库1白术,苍术,大黄,白芍2白术,苍术,红花3白术,苍术,白芍方剂转化成药对1白术-苍术,白术-大黄,白术-白芍,苍术-大黄,苍术-白芍,大黄-白芍2白术-苍术,白术-红花,苍术-红花3白术-苍术,白术-白芍,苍术-白芍编号药对频次1白术-苍术32白术-白芍23白术-大黄14白术-红花15苍术-白芍26苍术-大黄17苍术-红花18大黄-白芍1编号药对频次支持度置信度1白术➔苍术3100%100%苍术➔白术100%2白术➔白芍266%66%白芍➔白术100%3白术➔大黄133%33%大黄➔白术100%4白术➔红花133%33%红花➔白术100%5苍术➔白芍266%66%白芍➔苍术100%6苍术➔大黄133%33%大黄➔苍术100%7苍术➔红花133%33%红花➔苍术100%8大黄➔白芍133%100%白芍➔大黄50%置信度、支持度、提升度的概念单味药频次白术苍术白芍大黄红花33211方剂库1白术,苍术,大黄,白芍2白术,苍术,红花3白术,苍术,白芍同时出现白芍、大黄的方剂数1“白芍-大黄”支持度=————————————————=33%总方剂数3同时出现白芍、大黄的方剂数1“白芍➔大黄”置信度=————————————————=50%凡出现白芍的方剂数2同时出现白芍、大黄的方剂数1“大黄➔白芍”置信度=————————————————=100%凡出现大黄的方剂数1同时出现白芍、大黄的方剂数1“白芍➔大黄”提升度=————————————————=1只出现白芍的方剂数1编号药对频次支持度置信度8白芍➔大黄133%50%大黄➔白芍100%设定

最小支持度50%

最小置信度50%药对频次支持度置信度白术➔苍术3100%100%苍术➔白术100%白术➔白芍266%66%白芍➔白术100%白术➔大黄133%33%大黄➔白术100%白术➔红花133%33%红花➔白术100%苍术➔白芍266%66%白芍➔苍术100%苍术➔大黄133%33%大黄➔苍术100%苍术➔红花133%33%红花➔苍术100%大黄➔白芍133%100%白芍➔大黄50%症状与中药之间症状与症状之间中药与中药之间症状与症状之间证型与证型之间中药与症状之间中药与证型之间症状与证型之间关系中医药关联规则分析的应用关联规则应用实例【例1】收集了某一时间范围内治疗某一疾病的中药方3122张,涉及药物251种。要分析处方中常用的药对情况,现进行关联规则分析。软件操作——数据文件读入数据文件读入的第一步是构建一个原始文件节点,通过编辑原始文件节点,选定文件路径,读取原始数据文件。点击“确定”后,该数据节点就有了可分析的原始数据。为了查看原始数据是否正确读入,可增加table节点,查看原始数据是否已经被读入,格式是否准确,有无乱码等情况。软件操作——数据类型设置两分类变量,设置文件类型为flag,关联分析方向设置为“both”全部设置完成后,读取变量(字段实例化)软件操作——模型选择与参数设置在读取原始数据和数据格式定义好以后,就可以根据数据挖掘分析的需要选择相应的模型,在简单关联分析中可选择Apriori或GRI两种节点。以Apriori为例,节点的相关参数设置主要包括两部分:设置进行两两关联分析的变量和最小置信度、最小支持度定义。一般中药药对研究中,可选最小置信度和最小支持度均为50%。两两关联分析的变量定义最小置信度、最小支持度定义软件操作——结果输出与解读输出了最小支持度和置信度均在50%以上的药对。关联分析完整数据流图数据挖掘研究设计基本概念选择数据处理数据挖掘分析结果解释Clementine软件应用基本操作关联规则决策树聚类分析判别分析决策树基本概念在数据挖掘中,决策树是分类预测的经典算法。决策树算法的目的是通过向数据学习,获得输入变量和输出变量不同取值下的数据分类和预测规律,并用于对新数据对象的分类预测。SPSSClementine提供C5.0、CART、CHAID、QUEST在内的决策树经典算法。决策树应用实例【例2】收集了某一时间范围内治疗应用作用效果类似的A、B、C、X、Y5种药物治疗病人200例,资料包括年龄、性别、胆固醇、血压、血钾、血钠、使用药物等7个变量。现进行用药决策规律的决策树分析。决策树分析需要回答的问题1、以往的治疗选择A、B、C、X、Y5种药物时的具体规律是什么?2、这个规律中,年龄、性别、胆固醇、血压、血钾、血钠、使用药物等7个变量各自起什么作用?3、提示我们今后治疗该疾病考虑问题的顺序和原则。软件操作——数据文件读入数据文件读入的第一步是构建一个原始文件节点,通过编辑原始文件节点,选定文件路径,读取原始数据文件。点击“确定”后,该数据节点就有了可分析的原始数据。为了查看原始数据是否正确读入,可增加table节点,查看原始数据是否已经被读入,格式是否准确,有无乱码等情况。软件操作——数据类型设置设置文件类型两分类变量为flag,多分类为set,连续资料为rang。决策树中,决策目标设置方向为out,其他作为决策依据的变量设置为in。软件操作——模型选择与参数设置在读取原始数据和数据格式定义好以后,就可以根据数据挖掘分析的需要选择相应的模型,在决策树中可选择供C5.0、C&RTree、CHAID、QUEST等4种节点。以C5.0为例,节点的相关参数设置主要是设置决策目标和输入变量。决策目标和输入变量设置软件操作——结果输出与解读决策树分析完整数据流图数据挖掘研究设计基本概念选择数据处理数据挖掘分析结果解释Clementine软件应用基本操作关联规则决策树聚类分析判别分析聚类分析基本概念聚类分析是根据“物以类聚”的原理,对样品或指标进行分类的一种多元统计分析方法。通过聚类分析,可以在没有任何模式可供参考的情况下,将大量数据样本按各自的特征来进行合理分类。聚类分析应用实例【例3】收集了某一时间范围内53例某疾病患者的14项中医症状情况,该类疾病临床常见的证型为3种。现采用聚类分析方法进行聚类分析,将这些病人聚成3类,分析每一类特征。软件操作——数据文件读入数据文件读入的第一步是构建一个原始文件节点,通过编辑原始文件节点,选定文件路径,读取原始数据文件。点击“确定”后,该数据节点就有了可分析的原始数据。为了查看原始数据是否正确读入,可增加table节点,查看原始数据是否已经被读入,格式是否准确,有无乱码等情况。软件操作——数据类型设置设置文件类型多分类为set,连续资料为rang。聚类分析中,类别变量设置方向为out,其他作为聚类依据的变量设置为in。软件操作——模型选择与参数设置在读取原始数据和数据格式定义好以后,就可以根据数据挖掘分析的需要选择相应的模型,在聚类分析中可选择K-means、Kohonen、Twostep等3种节点。本例采用K-means节点。输入变量设置分类数设置软件操作——结果输出与解读K-Means聚类分析完整数据流图数据挖掘研究设计基本概念选择数据处理数据挖掘分析结果解释Clementine软件应用基本操作关联规则决策树聚类分析判别分析判别分析基本概念判别分析的主要目的是对数据的个体做分类,利用判别变量建立判别规则,再用此

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论