大数据中心建设的再认识课件_第1页
大数据中心建设的再认识课件_第2页
大数据中心建设的再认识课件_第3页
大数据中心建设的再认识课件_第4页
大数据中心建设的再认识课件_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、(一)建设什么样的大数据中心 大数据利用是个性化的数据研究服务,简单例子: 数据检索: 化疗后白细胞数下降的患者30天内二次住院的患者 数据分析: 65岁以上老年人患两种以上疾病的排名前三的共病组合老年下肢关节手术麻醉方式与术后肺部感染的相关性 大数据中心的职责是服务,与传统的信息中心有所不同大信息中心数据中心大信息系统建设与运维数据应用系统数据服务CHIMA 2019之一:数据管理中心 职责 数据采集、整合 数据存储管理 数据访问授权数据检索数据浏览虚拟桌面 工作平台数据管理 数据整合平台(ETL) 数据检索系统 数据浏览系统数据存储授权提取 数据在线使用(虚拟桌面) 所需人才数据整合平台

2、IT工程师CHIMA 2019之二:数据加工中心 职责 根据用户需求,从原始数据加工生成特征数据专病数据库平台 工作平台 自然语言处理工具 专病数据库平台 组学等专业数据处理平台 SQL特征数据特征数据特征数据结构化处理、SQL、组学数据平台 所需人才原始数据 IT工程师CHIMA 2019之三:数据分析中心 职责 为用户提供数据分析服务 工作平台 各类建模工具人工服务 数据可视化工具 深度学习平台SAS、SPSS、R、深度学习 所需人才 IT工程师 数据分析工程师数据存储CHIMA 2019大数据中心的职能定位 大数据中心的三种职能定位数据分析全功能的+大数据中心数据加工+数据管理CHIMA

3、 2019(一)建设什么样的大数据中心观点认识:“大数据中心”是数据服务中心而不是系统建设中心,“服务”有不同的内涵,不同的职能定位对应不同的技术平台与人才团队建设内容。在提出建设大数据中心规划时,首先要明确大数据中心的职能定位。CHIMA 2019(二)数据是否要做整体预处理大数据中心数据处理的两种流程分析分析分析分析归一化归一化清洗后数据归一化结构化 结构化VS结构化原始数据数据整合数据整合整体预处理针对应用的预处理数据治理可以一次性完成吗?CHIMA 2019(二)数据是否要做整体预处理 信息的损失 病历文本结构化的结果不能完整表达原病历文本的语义 标准化(归一化)可能导致特定信息丢失,

4、如药品名称转换:诺欣、铂龙、顺铂顺铂 技术上的困难 历史数据的不一致,如疾病编码 ICD-9与ICD-10由于编码原则可能不同导致转换难以自动对照完成 整体结构化的困难,如不同病种的病历文本有不同的特点,目前尚难以做到泛病种的结构化处理CHIMA 2019(二)数据是否要做整体预处理 病历结构化不能完整反映文本语义,如症状之间的顺序关系CHIMA 2019(二)数据是否要做整体预处理 如,判断不同肿瘤分期的结构化处理方法不同肺癌N分期判定胃癌N分期判定N0:无区域淋巴结转移N0:无区域淋巴结转移N1:同侧支气管或肺门淋巴结转移N2:同侧纵隔和/隆突下淋巴结转移N1:区域淋巴结转移12个N2:区

5、域淋巴结转移36个N3:区域淋巴结转移715个N4:区域淋巴结转移16个以上格式:阳性个数/送检个数CHIMA 2019(二)数据是否要做整体预处理观点认识:在大数据中心数据资源建设中,预先将数据整体进行预处理的过程会带来信息丢失,技术上也存在较大困难,一次性的数据治理难以满足数据后续利用需求。采用“数据湖”概念,保留数据的原始性,针对特定研究问题开展数据预处理是更好的选择。CHIMA 2019(三)临床数据研究的两种路径建立专病库选择特征预先分析时数据分析原始数据抽取数据/特征提取分析时 专病数据库路径:按病种设置特征,建立数据模型,预先整理加工 随机特征提取路径:按照研究问题抽取和处理特征

6、,在分析时进行建立科研病种数据库是临床数据研究的必然选择吗?CHIMA 2019科研数据库的局限性 泛研究目的的科研病种数据库 以收集准备病种数据为目的,用以支持本病种不同目的的研究 数据库涉及数据项多,结构复杂,人工加工工作量巨大,持续难度大 针对问题分析时需要二次加工 难以满足所有研究需求 例:糖尿病视网膜病变专病数据库(片段)是否降血压药物、服用降血压药物种类数量、开始日期、服用时长(月)、目前规律服用降血压药物;钙离子拮抗剂降压药是否使用、药物名称、剂量、开始日期、服用时长(月);受体阻滞剂降压药是否使用、药物名称、剂量、开始日期、服用时长(月);血管扩张药是否使用、药物名称、剂量、开

7、始日期、服用时长(月);Ang受体阻滞剂是否使用、药物名称、剂量、开始日期、服用时长(月);CHIMA 2019科研数据库的局限性 单一研究目的的科研病种数据库 以特定问题为导向收集病种数据 数据库涉及数据少,人工加工工作量小 难以满足特定问题以外的研究需求 例:肺癌患者生存研究数据库性别、年龄、吸烟史、是否戒烟、家族史、ABO血型、RhD血型、基础疾病、合并症、病理类型、分化程度、基因检测方法、基因突变状态、PD-L1(阳性/阴性)、MMR/MSI、TNMG分期、手术、辅助治疗(化疗、放疗)、一线治疗、疗效评估、副反应、PFS、二线治疗、生存状态、随访时间、总生存时间、最后一次随访时间、是否

8、存活、是否复发/进展、复发/进展位置、复发/进展时间CHIMA 2019(三)临床数据研究的两种路径观点认识:通过建立专病数据库和直接基于原始数据库开展临床数据研究是大数据中心两种数据研究路径。依托专病数据库的路径有较大的局限性。在现实研究实践中,特别是在回顾性研究中,更多地采用直接依托原始数据的方式。CHIMA 2019(四)对医疗大数据平台的认识问题:医疗大数据平台是什么?是一体化的产品吗?技术形态是什么? 面向一线临床研究人员的需求 数据检索与浏览系统 科研专病数据库管理系统 多中心数据采集系统 数理统计工具 面向数据处理分析人员的需求 数据处理工具SQL、ETL工具 自然语言处理及结构化工具 去隐私工具 各类建模工具:R、Matlab、SAS、SPSS 院后随访系统 深度学习数据标注工具 可视化分析工具 深度学习平台 组学数据处理分析平台功能形态CHIMA 2019(四)对医疗大数据平台的认识 数据形态 数据检索:列数据库(结构化数据),文本分布式索引(病历文本) 数据处理:传统关系数据库 数据分析:传统关系数据库 专病系统:传统关系数据库/XML检索处理分析专病 多重数据存在 针对不同的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论