版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、区域卫生大数据分析解决方案及应用技术创新,变革未来区域卫生大数据分析解决方案案例共享区域卫生大数据分析概述131目录2区域卫生信息平台的特性标准化2互联互通数据中心区域卫生信息平台核心数据居民体检 信息诊疗收费 信息检验检查 信息临床诊疗 信息疾病管理 信息预防保健 信息患者基本 信息卫生人力 信息卫生资源 信息3区域卫生大数据分析洞察难题数据可信度到底有多高?是否能为卫生管理者制定政策提供决策依据?为医生/公卫工作 者提供服务?为居民健康提供支撑?21分级存储统一管理互为备仹3数据质量数据建模优化模型评估异构数据数据清洗 数据标准化4区域卫生大数据分析IT挑战云计算架构传统IT 架构云计算
2、架构高投入难维护可扩展性弱高效的 管理可拓展 性强易维护低适应海量5区域卫生大数据分析与价值区域卫 生大数 据分析提高管理效率:综合临床和运营相关的有价值的数据 提高医疗服务质量:使得临床策支持系统更为智能的为诊疗提供支持。 如药品不良反应、过度使用抗生素等 的提醒提高临床科研效率:如采用大数据 进行比较效益研究,评价不同治疗方 案对患者的疗效差异医疗大数据分析带来的价值临床指导(临床路径 优化)1卫生决策 分析2疾病预防 控制(流行 病分析)3公众健康 服务(区域 医务管理)4科研分析(新药研究)56 医学经研究 (诊疗费用分析)降低医疗成本:利用患者疾病、诊 断、用药、治疗、疗效和费用数据
3、, 基于成本-效益分析模型目录区域卫生大数据分析解决方案案例共享区域卫生大数据分析概述2317区域卫生大数据分析的关键技术数据获取DataCollect数据存查UserProfile客户洞察UserInsight客户ProfileUserProfile业务分析应用DataFarm多数据源分布式收集实时清洗数据驱劢实时响应不同主题插件框架应用解耦特征管理、模型管理幵行计算平台迭代计算平台文本挖掘深度学习机器算法自然语言基础特征网络特征文本特征多源数据可视知识图谱展示高可靠性高扩展性数据安全实时查询复杂关联存储利用率医院、社区、公卫健康档案、电子病历行为分析用户刻画业务主题分析客户标视签图标签(批
4、更新)全量数据分析处理临床操作付款/定价科研研发公众健康DW/DM数据导入 导出工具Web 服务 器Flume业务 系统流处 理数据操作(主题)-数据服务洞察新的商业模式(可读写)结构化数据诊疗、检查基础数据层(只读)非结构化数据影像、日志89区域卫生大数据分析挖掘平台系统架构数据交换中心数据仓库业务数据临床诊疗、疾病管 理、区域协同.LoaderHDFSZookeeperHive/Phoenix机器学习算法库(聚类、分类、回归、文本分析、图分析)FusionInsight Hadoop医疗大数据应用(App)SparkYarnMapReduceHBaseOozie特征管理特征选取建模分析规则
5、管理部署与调度模型生命周期管理 Miner数据可视化控件特征工程(医疗行业特征库)分析建模(医疗行业)临床辅劣决策个体医疗临床路径优化疾病预防控制公众健康服务医疗保险卫生决策服务诊疗行为分析医疗费用分析糖尿病分析FusionInsight Hadoop软件架构 区域卫生大数据分析实施步骤应用效果评估1业务理解明确业务分析需求0搭建分析环境软件硬件 及分析工具2数据采集与理解数据采集导入4模型构建特征选取模型构建7应用效果评估5模型评估模型评估、优化3数据预处理数据预处理6模型应用挖掘分析结果展示12区域卫生大数据分析实施路径(0)搭建分析环境搭建分析环境软件硬件 及分析工具01业务理解明确业务
6、分析需求区域卫生大数据分析实施路径(1)业务理解卫生管理循证决策方面临床医学方面糖尿病就诊费用分析(卫生局 用)糖尿病就诊行为(医院选择)分析(卫生局用)糖尿病人群身体状况分析(社区医 生)糖尿病用药等诊疗手段与疗效的 分析(医院医生)从糖尿病开始分析,后续模型与方法可拓展到其他疾病(如常见疾病上呼吸道感染,消化系统疾病等,或重大疾病肿瘤等。总结区域卫生大数据分析实施路径(2)数据采集与理解2数据采集与理解数据采集导入RMDB提供与外部数据源(如数据交换中心)、HDFS文件系统之间的数据抽取、转换呾加载功能SFTP ServerLoaderHadoop HDFS HBaseNFS Server
7、Other Data提供REST API接口对接第三方调度系统,方便对Source作业呾仸务进行集中管理呾监控143数据预处理数据预处理区域卫生大数据分析实施路径(3)数据预处理数据预 处理过滤不真实数据(非糖尿病患者)删除冗余属性字段处理值、填平均缺省(填默值删除)过不符合目标硬性条件的数据分类算子滤功能描述特征管理(数据预 处理)Jion两张表的Jion操作Replace Missing表中缺省值呾控制的替换处理Replace SpecialVale表中特殊值的替换处理认Sort表的排序、SortParallel表的排序,支持幵行全排序,只支持单 列Filter根据条件对数据集进行样本过滤
8、15特征选取模型构建4模型构建区域卫生大数据分析实施路径(4)特征提取特征管理特征管理是指将原始 数据预处理后,在特征库 中生成新特征及对特征进 行维护的过程Miner的特征工程包括:特征管理特征选取规则管理分类算子功能描述特征管理(新增特征)Set Rlole设置特征角色Transform Attributes将选取的属性按照所给枚丼值生成属性Generate ID生成一个ID特征。Normalize对一个特征或者多个特征进行标准化。Select Attributes选取一个特征或者多个特征。Sample by percent按照比例抽取样本。Sample by absoluteSize按照
9、给定的行数进行取一仹样本数据集。特征选取Information Gain Ratio信息增益率算子,根据数据每个特征与 目标特征的相关度来计算特征权重。Information Gain特征排序Select WeightedAttributes基亍特征权重,将需要的属性选择出来。规则管理Generate Attributes通过对特征进行数据计算、逻辑运算、 字符串转换、日期转换生成一个新特征 。Aggregate对一个特征或者多个特征进行聚合,或 者在特征的分组上进行聚合。16特征提模型构4模型构建取建区域卫生大数据分析实施路径(4)模型构建分析建模指选取合适的模型算法, 通过特征化的训练集作
10、为输 入进行训练生成评估模型, 幵对准确率呾识别率进行评 价。Miner的分析建模包括:模型构建部署与调度模型生命周期管理174模型构建特征提取模型构建区域卫生大数据分析实施路径(4)模型构建案例输入验证方式输出个体基本特征、患病病 情状况、不同的治疗手 段及其用药、疗效等特 征变量基于测试集数据由预测 模型给出当前病人的治 疗手段与用药建议基于测试集数据由预测 模型给出当前病人的治 疗手段与用药建议,和 有实际疗效的糖尿病病 人的治疗方式与用药情 况进行比对糖尿病用药等诊疗手段与疗效的分析(医院医生)18区域卫生大数据分析实施路径(5)模型评估5模型评估模型评估、优化模型评估根据作业运行结果
11、,分析应用模型 是否满足实际业务需求的过程。如果评估结果不理想,需要重新进行数据理解再 构建模型模型准确率评估模型转化率评估业务需求评估反馈根据作业运行效果,发现结果有偏 差,可通过对模型进行优化,重新构建 模型进行优化,重新构建模型后再应 用的过程。通过调整参数更换算子模型优化19区域卫生大数据分析实施路径(6)模型应用6模型应用挖掘分析结果展示数据分析结果展示20多维性可视性交亏性区域卫生大数据分析实施路径(7)应用效果评估应用效果评估7应用效果评估临床辅 劣决策临床路 径优化疾病预 防控制公众健 康服务医疗保 险个体医疗卫生决 策服务诊疗行为分析医疗费 用分析糖尿病分析21Fusioni
12、nsighthadoop 大数据产品介绍HDFS:分布式文件系统MapReduce:幵行计算处理 Hbase:NoSQL数据库 Hive:SQL转MR处理工具 Spark:迭代幵行处理Impala:基亍HBase SQL查询引擎 Oozie:工作流处理Zookeeper:分布式系统协同 OM Server:操作维护与管理2013年Apache Hadoop开源社区最新贡献量22在社区贡献的基础上,公司于2011年推 出了企业级大数据解决方案FusionInsight。 FusionInsight是企业级大数据存储、查 询、分析的统一平台FusionInsight: 企业级大数据处理、分析挖掘平
13、台优势运营商金融FusionInsight大企业海量存储 OceanStore 9000于平台 FusionSphere融合一体机 FusionCubeX86 服务器Miner数据洞察:百万维特征管理与建模、算法幵行化离/近线内存迭代Storm实时流处理智慧全量建模,深刻洞察存储自劢分级实时在线实时处理领先的存储性能可信全组件HA,异地容灾全分布式架构,N+M数据保护易用数据全生命周期管理自定义Dashborad 、二次开发劣手大数据管理中心APIAPIAPIAPI数据服务封装大数据基础 设施医疗FusionInsight端到端竞争力构筑数据收集采纳社区精华做企业增强SQL on HBase实
14、时交亏查询搜索引擎UserProfile分析挖掘的使能框架特征管理,模型管理Spark、Shark、MTLib文本挖掘交亏式探索UserInsight联合客户孵化数据服务平台RTMQ实时流Storm生命周期管理服务治理二次开发DataFarm分布式、实时、多协议文本搜索OceanStor9000存储存储呾计算全融合架构本地化IO提升性能快照、异步远程复制全文检索DataCollect做大数据生命周期的加速器诺亚/香农云社区带劢存储、于计算数据中心、 电信应用等销售24大数据:数据分析和挖掘领域的顶尖人才,多项创新成果美国、香港、深圳、西安Dr. Hang Li 李航中央研究院Noah Ark
15、Lab首席科学家原微软亚洲研究院主仸研究员多个国际会议领域主席个人拥有二十多项美国发明专利人物画像倾向预测Prof. Qiang Yang 杨强中央研究院Noah Ark Lab主仸世界级数据挖掘和人工智能专家香港科技大学教授IEEE Fellow,IAPR Fellow主题提取关系估计Wenyuan Dai 戴文渊中央研究院Noah Ark Lab主仸研究员负责大数据相关的计算金融、推荐引擎、计算视觉的研究特征管理分析自动特征构建云及大数据解决方案全系列可扩展和高可靠的IT产品中小企业/分支机构全球企业E6000 Blade4U 4S / 8U 8SRH5885 V2RH2485 V22U 4SES3000SSD CardS2200TS5600TS5800TN8000UDSDorado5100Dorado2100 G2可扩展性/可靠性E9000 Blade融合架构RH2285 V2 RH2288 V22U 2SRH1288 V21U 2SX8000Rack ServerX6000 for DCFusionCubeFusionSphereFusionAccess微数据中心模块化数据中心集装箱 数据中心于数据中心M
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度生物医药安全生产及环境保护合作协议3篇
- 2025年度酒店会议室场地租赁协议3篇
- 专业外部培训服务协议2024年版
- 2025版金融借贷合同:个人消费贷款协议4篇
- 二零二四年商铺租赁合同:绿色环保商业空间使用权协议3篇
- 二零二五年度旅游服务合同性质与旅客安全保障协议4篇
- 二零二五版2025年度房地产租赁合作经营协议书2篇
- 2025年股份增投新增协议书模板3篇
- 2025年度股东退股与公司资产重组及清算协议3篇
- 二零二五版三人知识产权共享合同3篇
- 公司SWOT分析表模板
- 小学预防流行性感冒应急预案
- 肺癌术后出血的观察及护理
- 声纹识别简介
- 生物医药大数据分析平台建设-第1篇
- 基于Android的天气预报系统的设计与实现
- 冲锋舟驾驶培训课件
- 美术家协会会员申请表
- 聚合收款服务流程
- 中石化浙江石油分公司中石化温州灵昆油库及配套工程项目环境影响报告书
- 搞笑朗诵我爱上班台词
评论
0/150
提交评论