医学大数据分析策略与数据挖掘PPT课件.ppt_第1页
医学大数据分析策略与数据挖掘PPT课件.ppt_第2页
医学大数据分析策略与数据挖掘PPT课件.ppt_第3页
医学大数据分析策略与数据挖掘PPT课件.ppt_第4页
医学大数据分析策略与数据挖掘PPT课件.ppt_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学大数据分析策略与数据挖掘 1 提纲 中心概况 医学大数据及其分析策略 1 中心概况 2 数据挖掘软件及其实现方法 3 数据挖掘方法简介及其应用 2 医学大数据及其分析策略 3 大数据 BigData 数据量规模巨大到无法通过人工 在合理时间内达到截取 管理 处理 并整理成为人类所能解读的信息 4 模拟式存量 数字式存量 2000年以前大部分数据是analogdata 模拟式数据 以书 报纸 录像带等存储 特点 数据量较小 2000年以后digitaldata 数字式数据 大大增加以CD DVD 硬盘等存储 特点 数据量巨大 2000年 Source ResearchersattheUniversityofSouthernCaliforniatookfouryears 1986 1993 2000and2007 andextrapolatednumbersfromroughly1 100sourcesofinformation Credit ToddLindemanandBrianVastag TheWashingtonPost 大数据时代的来临 5 医学大数据的应用意义 生物标志物识别 利用大数据识别有关疾病发生 预后或治疗效果的生物标志物 组学研究 基因组学 表观组学 蛋白组学 代谢组学 糖基组学 等 环境因素 个体行为与各组学关联 6 公共卫生监测 传染病监测 慢性非传染性疾病及相关危险因素监测 健康相关监测群体性预防 医学大数据的应用意义 7 健康管理 通过可穿戴设备对个体体征数据的实时 连续监测提供个体化疾病预防和治疗方案 医疗协同和临床决策支持 通过建立专用数据库 调用患者的基因数据 病历信息等大量医学参考数据 辅助疾病的诊断与治疗 实现个体化诊治原则 医学大数据的应用意义 8 可视化信息 数据与信息图像 多媒体信息可视化 更清晰有效地传达与沟通大数据包含的生物医学信息 医学大数据的应用意义 9 在生物医学研究领域 大数据 环境气象学数据医学影像数据基因 蛋白等组学数据大型临床资料复杂的生物和环境因素研究 生物医学大数据的只要特点 高维 10 过去 假设驱动 收集数据 分析寻找答案数据大多是结构化的 可以分析 现在 数据驱动 挖掘寻找问题数据多是非结构化的 难以分析 科学问题处理方式 11 传统的多元统计方法难以处理和分析医学大数据高维 非线性 非高斯等数据 采用数据挖掘方法 可以提供更高的预测精度 常用的医学多元统计学应用受到制约 12 数据挖掘方法简介及其应用 13 数据挖掘概念 数据挖掘 是在从大量的数据中提取隐含的 事先未知的 但又是潜在有用的信息和知识的过程 14 大数据源 定义研究问题 模型应用 建立模型 模型评估 数据准备 提取数据 14 数据挖掘方法概述 15 肺结节良恶性的判定是CT图像诊断肺癌中的一个难点和关键点 在实际的临床中 肺癌被确诊时80 以上已属中晚期 数据挖掘方法应用实例 16 矢状位 冠状位 轴状位 矢状位图像库冠状位图像库轴状位图像库 三正交位成像 应用实例 17 03影像学检查 CT图像纹理 04 高维大数据库 变量约1000 样本336例 18 数据挖掘主要分类预测方法 19 19 各纹理产生30 40 50 60个子代 即纹理分别为420 560 700 840个 每个纹理子代分布为正态分布 均值和标准差与轴位CT图像均值相近 设定每个纹理内部子代之间的相关系数为r 0 1 0 2 0 3 0 4 分别产生2组数据 设定两组各个变量均值之间的差值为d 0 01 0 1 MonteCarlo模拟分析结果 20 20 MonteCarlo模拟分析结果 纹理相关系数为0 1时 840个纹理值各预测模型拟合结果 纹理相关系数为0 2时 840个纹理值各预测模型拟合结果 21 21 支持向量机 支持向量机 SupportVectorMachine SVM 是美国Vapnik教授于1963年提出的 在解决小样本 非线性和高维模式识别问题中表现出许多优势 并在一定程度上克服了 维数灾难 和 过学习 等问题 在模式识别 回归分析 函数估计 时间序列预测等领域 都得到了长足的发展 Vapnik 22 最优分类 超平 面 SVM的机理是寻找一个满足分类要求的最优分类超平面 使得该超平面在保证分类精度的同时 能够使超平面两侧的空白区域最大化 23 广义最优分类面 24 当线性不可分时 SVM的主要思想是将输人向量映射到一个高维的特征向量空间 并在该特征空间中构造最优分类面 代替输入向量x 则可以得到最优分类函数为 25 Gaussian核函数 Polynom核函数Vanilladot线性核函数双曲切线核函数Laplacian核函数Bessel核函数 核函数 SVM中不同的内积核函数将形成不同的算法 26 预测模型不同判别方法结果 投票法 选取多数类结果 例如 2个或者2个以上预测模型结果为恶性 作为最后病例的预测结果 并联法 只要有一个预测模型结果判断为恶性 此病人最终判断为恶性结果 否则为良性 串联法 只有3个预测模型同时判断为恶性 此病人最终判断为恶性结果 否则为良性 综合法 合并轴状位 冠状位 矢状位数据集 建立一个预测模型 其结果作为最终结果 27 病例基本信息分析结果 良恶性病例人口学特征分析 28 不同评价方法支持向量机预测模型结果 29 利用病例人口学特征 环境遗传信息和结节形态学信息等综合性信息 建立支持向量机预测模型 基于人口学 环境遗传和结节形态学信息建立预测模型结果 30 结论 基于三正交位CT图像 结合多方面信息 采用大数据支持向量机分类分类预测方法 可以有效提高肺癌诊断正确率 辅助放射科医生进行辅助诊断肺癌 31 数据挖掘软件及其实现方法 32 Yourtext R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支 R是一个有着统计分析功能及强大作图功能的软件系统 是由奥克兰大学统计学系的RossIhaka和RobertGentleman共同创立 在R的官方网址上 选择网站镜像http cran r project org mirrors html 2 R软件 3 1 33 R软件 R编辑器 编辑程序选择运行 RConsole 运行过程提示错误等 http www r project org 34 支持向量机R语言实现 library kernlab 加载支持向量机程序包 setwd D ku 设置当前数据库路径 datayuce read csv a csv header T 导入预测集数据 dataxunlian read csv b csv header T 导入训练集数据 svmModel ksvm as matrix dataxunlian 1 5 as factor dataxunlian x type C svc kernel rbfdot C 10 cross 4 核函数选择 pre predict svmModel datayuce 1 5 write csv data frame pre class datayuce x zu datayuce no file result csv 输出结果到result csv table pre class datayuce x 结果整理 35 支持向量机 36 WEKA WaikatoEnvironmentforKnowledgeAnalysis WEKA作为一个公开的数据挖掘工作平台 用于非商业目的的研究行为 集合了大量能承担数据挖掘任务的机器学习算法 包括对数据进行预处理 分类 回归 聚类 关联规则以及在新的交互式界面上的可视化 37 38 STATA该软件是美国ComputerResourceCenter研制的统计软件 目前的12 13版本就可以实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论