临床科研设计数据挖掘研究设计_第1页
临床科研设计数据挖掘研究设计_第2页
临床科研设计数据挖掘研究设计_第3页
临床科研设计数据挖掘研究设计_第4页
临床科研设计数据挖掘研究设计_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

临床科研设计数据挖掘研究设计数据挖掘研究基于数据分析方法角度的分类本质上属于观察性研究研究资料来源于日常诊疗工作资料应用的技术较传统研究更先进分析工具、理论模型与传统研究区别较大数据挖掘研究设计基本概念选择数据处理数据挖掘分析结果解释Clementine软件应用基本操作关联规则决策树类神经网络聚类分析判别分析数据挖掘的概念数据挖掘——从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘——从数据中自动地抽取模式、关联、变化、异常和有意义的结构。数据挖掘——利用已有的数据,数据收集过程不经过特意的科研设计,目的是发现规律,而不是验证假设。数据挖掘研究的基本步骤第一步:选择数据收集获取原始数据就是根据研究目的,进行需要被挖掘分析的原始数据采集。评估数据的可获得性。可以采用较小规模的数据对问题的可行性进行初步研究。原始数据可能会分布于不同的信息系统中,需要对信息系统充分理解,并有相应的技术实现数据的导出。原始数据的采集非常费时费力,通常在研究工作中占相当大的比重。第二步:处理数据数据预处理部分,把数据转换成比较容易被数据挖掘的格式及内容。为什么需要预处理数据不完整含观测噪声不一致包含其它不希望的成分数据清理通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致来清理数据。污染数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务。污染数据形成的原因滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语重复记录丢失值拼写变化不同的计量单位过时的编码数据处理两种结构化技术前结构化:在数据采集阶段即进行结构化设计、录入,数据分析阶段取到的数据都是规范的。事前的工作量很大。后结构化:在数据录入阶段进行自由输入,分析时按照一定的规则进行语义分析和结构化处理。第三步:挖掘分析运用工具和算法,进行数据挖掘分析,完成分类、关联、聚类、估计、预测等功能,发现数据中的规律。数据挖掘主要方法决策树DecisionTrees(倾向性分析)序列分析SequenceAnalysis聚类分析Clustering关联分析Association神经网络NeuralNetworks第四步:结果解释结合专业知识,进行数据挖掘分析结果的解释,阐明规律,以及规律的临床价值。结果解释是数据挖掘研究的关键,从发现的规律进一步延伸出其实际意义,是整个研究工作的成果所在数据挖掘分析的一般步骤1、数据整理2、数据格式转化3、数据文件读入4、数据类型设置5、模型选择与参数设置(关联规则;决策树;类神经网络;聚类分析;判别分析)6、结果输出与解读关联规则基本概念是分析两个或多个变量的取值之间存在某种规律性的方法,包括简单关联规则和系列关联规则。简单关联规则有效性的主要测度指标包括两个:规则置信度和规则支持度。规则置信度是对简单关联规则准确度的测量,描述了包含项目X的事务中同时也包含项目Y的概率。规则支持度是对简单关联规则普遍性的测量,表示项目X和项目Y同时出现的概率。一个理想的简单关联规则应具有较高的置信度和较高的支持度。决策树基本概念在数据挖掘中,决策树是分类预测的经典算法。决策树算法的目的是通过向数据学习,获得输入变量和输出变量不同取值下的数据分类和预测规律,并用于对新数据对象的分类预测。SPSSClementine提供C5.0、CART、CHAID、QUEST在内的决策树经典算法。类神经网络基本概念类神经网络,有时也称作多层感知器(MLPs),本质上是人脑处理信息方式的简化模型。它通过模拟大量相互连接的简单处理单元(即神经元)工作,它在一定程度上模仿了人脑神经系统的信息处理、存储及检索功能。聚类分析基本概念聚类分析是根据“物以类聚”的原理,对样品或指标进行分类的一种多元统计分析方法。通过聚类分析,可以在没有任何模式可供参考的情况下,将大量数据样本按各自的特征来进行合理分类。判别分析基本概念判别分析的主要目的是对数据的个体做分类,利用判别变量建立判别规则,再用此判别规则对所有的个体做分类,预测每个个体属于各群组的可能机率。判别分析是判别所属类型的一种统计方法,其应用之广可与回归分析媲美。回归分析可建立回归函数,判别分析则建立判别函数,两者皆可以用来进行预测。小结(1)数据采集:信息真实性,可靠性,代表性数据预处理:规范整齐的数据是最大的问题,事先确定标准,或者事后按标准进行数据清理。数据挖掘:不只是描述,需要借助数据挖掘工具。也不仅是统计,统计是验证假设,数据挖掘是发现规律。小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论