云计算与大数据改变医疗卫生课件_第1页
云计算与大数据改变医疗卫生课件_第2页
云计算与大数据改变医疗卫生课件_第3页
云计算与大数据改变医疗卫生课件_第4页
云计算与大数据改变医疗卫生课件_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、云计算与大数据改变医疗卫生黄晓琴 博士目录医疗卫生信息化进展与数据特点云计算与大数据的发展云计算与大数据改变医疗卫生234大数据案例共享5华为简介1150,000员工16研发中心45培训中心28联合创新中心170+国家15地区部70,000研发员工华为概览全球领先ICT 解决方案供应商上海研究所 8500人(专注无线技术)发展历程及客户39.6智能手机:5200万移动宽带:4450万家庭终端:2440万 云服务:8000万(2013年情况)持续创新投入云计算的驱动:海量信息和超低成本大数据的“前世今生”自然杂志出版专刊“Big Data”奥巴马政府“国家大数据战略”纽约时报:大数据时代降临 2

2、008年2013年2010年2009年2012年2011年Science刊登专刊“Dealing with Data” Nature Physics上出版专刊“Complexity”欧盟智慧城市建设预算上升至3.65亿欧元欧洲信息学与数学研究协会会刊ERCIM News上出版专刊“Big Data”麦肯锡:大数据是一种全新资产类别IBM推出业内首个大数据平台经济学人特别报告数据,无所不在的数据Google研究总监发表了 The Unreasonable Effectiveness of Data 一文2001年Gartner首提“BIG DATA”定义2003年Google公布三篇论文,奠定技

3、术基石2006年Apache Hadoop项目独立发展2008年学术界开始关注大数据2011年企业界相关产品问世,Hadoop1.0.0版本发布2012年美国国家战略2013年大数据时代到来Oracle:NoSQL数据库+大数据机1955年MIT首提“人工智能”1960、70年代神经网络发明1980年代专家系统1989年数据挖掘提出1990年 高精度SVM算法1998年 Google2000年 互联网数据挖掘2014年 大数据时代到来业界成功经验的借鉴发展方向:数据对内与业务紧密融合,对外通过开放营造价值链。架构支撑:互联网企业已完成从传统数据仓库到大数据架构的技术转型。组织支撑:互联网企业组

4、织中数据科学家及分析师的作用凸显。1,组织定位:数据工厂2、数据平台部180人做数据分析,T4专家组60多人;数据集中、应用开发分散3,内部结算,快,灰度上线;4,机器5千+,日处理并发SQL5万+,日处理1P数据,60%应用2秒内;1,通过数据分析结果优化搜索算法,提升搜索转化率带来8百万美金的收益;2,搜索部门200多数据分析师、40多数据科学家,占75%,技术人员占25%,人力结构保障了数据知识的发现;11重视全网数据整合的价值发现重视数据分析梯队建设目录 医疗卫生信息化进展与数据特点云计算与大数据的发展云计算与大数据改变医疗卫生234大数据案例共享5华为简介1医疗卫生信息化进展以建立居

5、民健康档案为重点,推进数字化社区卫生服务中心建设。信息安全公共卫生医院以医院管理和电子病历为重点,推进数字化医院建设。数字医院以公众服务平台建设为重点,提供全面、连续的信息服务。公众信息服务统筹实施卫生管理信息化,加强网络与信息安全保障。信息与网络社区卫生服务以完善疾病防控网络为重点,加强公共卫生信息系统建设。公共卫生区域卫生信息化建设社区公众信息安全- 11 -在HIT领域以健康档案、电子病历为核心的区域卫生信息平台建设,无疑为大数据技术应用带来了前所未有的机会。医疗卫生大数据分析的步骤、技术、平台和工具数据驱动的科学方法:步骤一:制定各种数据的标准、功能标准、传输标准步骤二:进行信息化建设

6、,收集数据、建立数据仓库、建立大数据仓库步骤三:算法研究。这里面有N种数据挖掘算法,然后可以自动搜索大数据,同时可能做10种、20种、100种的假说,不同的算法去自动检索不同知识的存在。步骤四:知识发现。通过自动化的过程可以在同样的大数据里挖掘出各种各样的可能潜在的知识,步骤五:验证和结论。最后通过统计方法得到进一步验证和结论。相关技术:数据抽取、数据存储、数据处理统计分析、数据挖掘、排序学习模型预测、结果呈现语义匹配短文本对话平台和工具:自然语言处理工具(分词、词性标注、专名识别、语法分析、语义角色标注)(中、英文)自然语言处理、信息处理应用工具(索引与检索、语义匹配、规则引擎、用户信息模型

7、、对话管理,社会媒体数据处理,信息抽取)机器学习工具(分类、结构预测、排序学习、匹配学习)语言知识库、一般知识库三个关心的问题:数据挖掘的流程化关联: 目标驱动人工智能: 模型的通用性和自适应性大数据的技术分析方法1、可视化分析:直观的呈现大数据特点2、统计分析:差异分析、相关分析、 偏相关分析、距离分析、回归分析、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析、bootstrap技术等等3、数据挖掘算法: 分类、估计、预测、相关性分组或关联规则、聚类、描述和视化、复杂数据类型挖掘(Text, Web ,图形图像视频音频等)。3、预测性分析:预测

8、模型、机器学习、建模仿真4、语义引擎: 非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到足够的人工智能以足以从数据中主动地提取信息。5、数据质量和数据管理:大数据分析对医疗卫生领域带来巨大变化 麦肯锡在其报告中指出,排除体制障碍,大数据分析可以帮助美国的医疗服务业一年创造3000亿美元的附加价值。 大数据给我们带来了一个新的数据驱动的科学研究方法去发现、证实医疗卫生领域我们人类无法知道的知识和智慧,用它为我们服务。 1、解决传统的不知道的问题:通过“黑盒子”的办法挖掘出潜存的知识和智慧;2、花费是低的:建成大数据仓库就可以挖掘潜在的知识;3

9、、数据可重复利用,高产出的过程:随着算法研究,运算能力提高,就可以一直去运行,分析;4、解决更多的问题:带来方法学上的科学研究方面,是一个巨大的变革,可能更支持,从传统、宏观上解决更多的问题。医疗行业大数据的应用场景分析比较效果研究-找到针对特定病人的最佳治疗途径临床决策支持系统-提高工作效率和诊疗质量,更智能,对非结构数据的分析能力医疗数据透明度-医疗从业者、医疗机构的绩效更透明,间接促进医疗服务质量的提高病人远程监控-慢病管理效果分析,从对慢性病人的远程监控收集数据,分析结果,确定今后的用药和治疗方案病人档案分析(高危人群分析):应用高级分析可以确定哪些人是某类疾病的易感人群自动化系统医疗

10、索赔欺诈性分析基于卫生经济学和疗效研究的定价计划-药品定价、医疗服务定价,国家医疗开支的降低预测建模新药研究提高临床试验设计的统计工具和算法通过挖掘病人数据,评估招募患者是否符合试验条件临床实验数据的分析分析临床试验数据和病人记录可以确定药品更多的适应症和发现副作用。个性化治疗大型数据集(例如基因组数据)的分析发展个性化治疗疾病模式的分析帮助医疗产品企业制定战略性的研发投资决策汇总患者的临床记录新药研究提高临床试验设计的统计工具和算法通过挖掘病人数据,评估招募患者是否符合试验条件公众健康改善公众健康监控,检测传染病,进行全面的疫情监测。分类:临床操作付款/定价研发新的商业模式公众健康基于had

11、oop大数据医疗应用场景“卸载”模式“全量洞察”模式“新数据”模式现有数据系统不堪重负非实时复杂SQL数据处理基于NoSQL技术来替换数据样本分析+复杂模型全量数据+多个简单模型结构化数据为主非结构化数据、日志数据等低价值数据整合分析采集转换统计分析数据组织与查询 健康档案/电子病历对接采集 保存EHR/EMR/影像 数据仓库 信息共享 多维统计 科研决策统计报表辅助决策绩效管理业务特征 容量:数十TPB 范围:全数据 速度:秒分钟小时级 容量:10100T 范围:主题数据仓库 速度:秒分钟级方案FusionInsight软件(华为在Hadoop社区贡献,大企业第一) Hadoopx86服务器

12、FusionCube数据仓库一体机 关系数据库 FusionCube一体机技术特征 软件解决方案 海量数据处理 分布式并行计算 硬件解决方案 并发高性能计算 破解存储访问瓶颈业务预期容量:G/T级T/P级模型:采用大表/层次表,更容易建模速度:10倍以上卫生大数据处理与分析的两种途径根据医疗业务诉求确定数据处理方案结构化数据收集半结构化数据收集影像数据采集访问日志采集XX信息采集统计类处理数据提取、转换类处理数据挖掘类,聚类、分类神经网络等机器学习影像分析与处理建立不同主题的数据仓库或数据集市多维分析预处理数据项可动态扩展HIS/CIS/PACS数据获取用户/医生访问数据获取医疗应用协同数据获

13、取可穿戴设备数据获取XX数据获取EHR/EMR原始数据存储影像数据存储数据ETL数据挖掘分析药物信息主题个人健康主题疾病信息主题诊疗信息主题卫生管理主题XXX主题医疗业务服务平台(报表、查询、推荐等)数据采集ETL实时查询数据流程业务要求卫生统计报表、可视化历史病情、档案、影像快速查询相似病历诊断推荐HadoopHDFS/MapReduceHBase数据源应用系统华为FusionInsight Hadoop组成与增强 FusionInsight Hadoop管理维护安装配置告警监控向导日志北向升级审计用户管理标准Linux操作系统安全加固Linux操作系统 FusionInsight Hado

14、op 企业级增强集群资源授权管理数据服务封装接口集群资源动态调拨并发控制备份/容灾接入安全集群内HA数据私密数据导入FusionInsight Hadoop全量数据分析组件Apache HadoopHDFSHBaseYarnHiveZooKeeperOozieMapReduce行业模型(金融等)特征工程库R开源社区组件华为增强组件2011年据Hortorworks排名全球第七,大公司第一年份提交解决20112012112012399302华为团队社区问题/补丁贡献华为企业级增强重点特性易安装、易开发易管理运维客 户 价 值核心组件与社区保持一致,无特性损失,无厂商锁定社区主要贡献成员,具备内核

15、问题定位与解决能力,实施无技术障碍性能调优与特性增强,具备业务优化与平台定制能力增强组件可靠性、安全性,企业应用无后顾之忧易维护、易管理,便利、快捷行业经验,数据模型优化IBMHadoop集群硬件配置与选择硬件配置最低要求CPU2个8核Intel新一代高性能 Xeon E5-2690(Sandy Bridge-EP)系列处理器Bit-Mode64bit内存10GB每服务器(Hadoop平台运行最小内存需要36G)硬盘操作系统安装盘600GB,配置RAID1数据盘500GB,配置RAID0软件配置最低要求操作系统加固版本CIS RedHat Enterprise Linux 6 Benchmar

16、k v1.2CIS SUSE Linux Enterprise server 10 Benchmark v2.0.0服务器软硬件配置要求应用加速卡选配PCIE-压缩解压缩卡:和hadoop无缝对接,卸载服务器CPU压缩负载PCIE-SSD卡:用于M/R数据Shuffle时中间数据的缓存,提升计算性能计算、存储服务器数量确定数据容量考虑每机架服务器硬盘容量有效空间约510T(硬盘大小与配置数)数据副本:通常设为3个拷贝数据原始容量为XT,加上数据仓库数据量,数据总容量2.5*XT,同时建议预留40%空间服务器数量:2.5*X*3/510计算,I/O性能考虑:查询类应用:并发数/响应时延等,服务器

17、数量越多,性能线性增长计算类应用:服务器数量多,有利于加速分布式计算管理服务器数量确定 管理节点3个,由Zookeeper分布式选举算法决定总数量 3管理节点(Master)+x个计算/存储节点(Slave)Hadoop集群安装与部署Step2:配置集群拓扑Step3:配置集群参数自动完成安装配置1、集群安装/配置/管理涉及IP地址、硬盘分区、密码设置、系统与集群配置2、社区版手工命令行操作,费时费力社区版1、软件安装向导2、图形化向导式操作,Step by step引导;3、参数模板化配置,快速部署;华为FusionInsight hadoop Manager开始安装准备配置节点互信打开SS

18、H服务配置硬盘配置服务器时区关闭防火墙配置操作系统文件句柄数配置IP和主机名称的映射检查服务器Kerberos服务关闭操作系统Swap环境配置安装OMS配置集群结束Hadoop应用分布式数据处理三种开发方式适合于海量结构化与非结构化各类数据具备复杂的业务逻辑处理:如算法客户端采用Java编程,实现Map和Reduce Task,以及可选的Input与OutputFormat,Combine等任务方式1:基于Map/Reduce开发只能对结构化数据处理客户端采用Java+HQL(类SQL)编程,无需写Map/Reduce函数较复杂的业务逻辑采用UDF(用户自定义函数)完成,如从IP地址获取位置信

19、息方式2:基于Hive开发适合于复杂的业务处理通过定义DAG有向无环图,将多个M/R任务按一定逻辑或条件串起来实现一个完整业务通过XML描述任务间关系方式3:结合Oozie工作流开发HBase数据仓库构建支撑ClusterTable与关联查询ClusterTableSubTable_x需求:应用的关联查询关联查询在应用中广泛存在。而Hbase是一个大表,支持有限华为提供: ClusterTable解决方案ClusterTable:聚簇表,为一个实际的Hbase表SubTable:业务上一个或多个关联的子表,被聚簇到一个HBase大表中表Raw key设计:子表本身的Key按一定规则变换成为大表

20、RawKey关联查询:CluterTable提供访问接口,实现多个子表间的关联查询华为Hbase提供独有的ClusterTable表特性符合传统关系表的业务建模习惯降低设计和实现门槛提供可视化数据表设计工具支持子表间的关联查询HBase数据仓库构建支撑二级索引需求:多索引列基于多列索引在应用中广泛存在Hbase(key、value)模型,只有Rowkey索引不支持多个列的索引华为解决方案:华为Hbase提供高性能二级索引无需独立的索引表,在主表中划出独立的数据空间,存储索引信息索引表只有Key,没有value列,减少存储空间Key信息设计包括源数据Rawkey信息,设计规则支持快速提取主表插入

21、数据时,同步更新一个索引表该索引表Rowkey设计包括主表中列信息和该行的Rawkey信息,从而能快速查询获取主表中的信息二级索引原理二级索引解决方案示意基于Hadoop的医疗应用(报表/查询/BI/推荐等)HDFS(原始信息与影像数据)Hbase(健康档案、电子病历与影像索引)查询服务HDFS(病情/药物等分析、分类/标签)推荐、BI类应用MR算法挖掘(Mahout)Hbase(底层数据仓库)OLAP Server报表工具JDBC 驱动适配Hbase接口推荐、预测算法多维数据预计算报表类应用(综合卫生管理等)查询类应用:(健康档案/病历/区域影像查询等)BI/推荐类应用:(辅助诊断等)Hba

22、se(分类/标签信息存储)华为:合作方:开源:Pentaho商业:SAS, IBM Cognos其它分布式软件系统开发需考虑问题Zookeeper服务应用模型Zookeeper内各Server角色与功能配置管理示意:系统的配置数据都写在/conf节点,当节点信息发送变化时,自动通知watch的Client集群管理和Master/Salve仲裁示意:client信息写入目录/group下,某个Client连接断开,节点内容变化,自动通知其它Client,同时最小编号作为Master,实现主备仲裁需求全局系统配置与更新节点主备仲裁名字服务/节点集群故障管理解决方案利用Hadoop分布式协调服务组件

23、Zookeeper卫生专网:众多机构之间快捷可靠传递医疗协同公共卫生卫生管理计划生育综合管理公众服务药品管理医疗保障区卫平台医院疾控居民妇幼社康血站3大量增长数据的高效存储2接入人口数量增长,采集信息丰富(从基本信息、健康信息到诊疗信息、医学影像等,数据量从几十TB到PB级)区域卫生大数据的共享与分析1经过几年建设,一些区域卫生平台积累了大量的数据,如有进行有效的共享与分析,体现数据的价值安全:服务公众需要数据和系统安全稳定4信息平台承载大量居民医疗卫生关键数据,威胁来自于物理环境、网络、计算服务、应用等各层面,如何防御?运营管理:多系统、多业务、多品牌系统5交换机、路由器、服务器、防火墙、虚

24、拟化平台华为、思科、IBM、VMvare各种机构,各种协议,各种业务,如何满足快捷可靠的传递?带宽、计算、容量如何规划?6区域卫生信息化平台建设关注的几个主要问题具备大数据能力的区域卫生云数据中心电子政务外网专线/运营商网络上级平台医院公卫下级平台居民Anti-DDOS备份服务器存储区NIPUSGUSG核心交换机CE12800NE40E-X3接入交换机E6800机架:RH2288/RH5885刀片:E9000区域卫生数据中心SVN数据核心区NS2120区卫业务区管理与安全区门户区(DMZ)智能网卡出口区核心区接入区虚拟化平台 FusionSphere安全设备可靠接入卫生机构: 网络及带宽规划

25、接口丰富 双链路可靠接入 VPN安全接入统一存储:管理T/P级卫生数据专业文件系统,记录数十亿卫生业务活动自动高速备份与恢复技术数据中心网络: 64T大容量,无阻塞 强大云计算支持,1000VM/s迁移速度,支持快速业务上线、业务迁移、多活数据中心构建容灾:提供数据级、应用级、双活三种容灾方案虚拟化云平台:多年各行业核心应用验证可靠性SPECvirt验证性能领先开放兼容其他厂家硬件系列图形化运维工具 6重防护,保障安全:边界防护,入侵检测,主机安全,应用安全,防病毒,虚拟化安全eSight:统一运维,兼容多厂家数据中心机房:模块化,绿色,可定制服务器:机架,刀片,高密服务器13年出货国产No.

26、1运维:eSight模块化机房S5500T/S5600T/S5800T统一存储容灾NEAR卫生应用华为全系列可扩展和高可靠的IT产品中小企业/分支机构全球企业E6000 BladeX6000 for DC4U 4S / 8U 8SRH5885 V2RH2485 V22U 4SES3000SSD CardS2200TS5600TS5800TDorado2100 G2N8000UDSDorado5100数据中心存储服务器可扩展性/可靠性E9000 Blade融合架构RH2285 V2RH2288 V22U 2SRH1288 V21U 2SX8000Rack ServerFusionCubeFusi

27、onSphere云解决方案FusionAccess微数据中心模块化数据中心集装箱数据中心云数据中心ManageOne数据中心管理S2600TFusionInsightOceanStor18000系列(HVS85T/88T )OceanStor 9000目录 医疗卫生信息化进展与数据特点云计算与大数据的发展云计算与大数据改变医疗卫生234大数据案例共享5华为简介1实践表明,大数据技术大有可为FusionInsight软件(Hadoop)FusionCube 数据仓库一体机案例天津移动详细话单查询某银行非结构化数据历史明细、影像查询、数据营销某大企业财经系统数据仓库某运营商BI应用对比广东海事局智

28、慧海事数据报表预查询问题存储分散可靠性差高吞吐量高并发需求海量数据,无法查询,需手工历史明细150TB电子影像数据2PB月底结算时,高并发,存储性能上存在瓶颈,影响结算三个表数据量分别是: 5千万条,16亿条,16亿条大数据量的高速查询与报表生成方案采用FusionInsight进行业务分析,100台服务器,Fusion Insight存储历史明细和影像索引,分析客户特征财经报表数据集市卸载到FusionCube上2计算节点6存储节点FusionCube,对比x86+SAN,其他厂家集群FusionCubeDB集群效果HDFS统一存储;吞吐量25G/S实现大容量的快速查询,精准营销并发用户数达

29、到800,时延大幅降低相比4节点x86+SAN架构提升1128倍高性价比,降低投资成本全融合,更紧凑,易运维运营商案例SDP天津私有云日志详单项目存储规模:最大容量为150TB数据特征:结构化数据查询模式:类SQL操作支持join等操作录入模式:数据录入后基本不再修改网络银行操作的历史明细电子影像数据存储规模:最大容量为2PB数据特征:非结构化数据查询模式:由合同ID查询对应影像数据录入模式:数据录入后基本不再修改监管部门报表数据存储规模:数据全集数据特征:结构化和非结构化数据查询模式:报表数据对时延要求不高录入模式:数据录入后基本不再修改需求总结存储规模:中等以上规模数据特征:结构化/非结构

30、化数据查询模式:灵活,时延不是很敏感 录入模式:录入后基本不再修改金融案例1:某银行历史数据管理需求银行交易明细(结构化数据)直接存入HBase业务影像、凭证数据打包后存数HDFS集群,在HBase中存储其索引。银行交易明细(结构化数据)直接存入HBase;业务影像、凭证数据打包后存入HDFS集群,在HBase中存储其索引,可满足结构化、非结构化数据的快速检索;同时可基于HBase、HDFS进行数据分析或Ad-hoc查询。HDFSHIVE前端UI1. 入库2. 清洗3.11.导入hive3.1.2HQL分析MR分析Hadoop集群数据源QSM:Query support ModelLLM:lo

31、ad moduleLCM:clean moduleLAM:analysis moduleHbase金融案例2:某银行日志分析与方案描述项目需求:根据用户操作手机、网络银行日志信息,完成访问热点页面统计客户端分析地理位置与时间段分析客户访问路径分析客户群分析方案:基于HDFS保存原始日志采用MR或Hive完成各种统计分析分析结果保存在Hbase,可以和客户的其它信息进行Join操作供UI呈现或第三方服务快速访问互联网视频案例:某视频系统数据管理需求项目需求:根据用户点击视频网站信息,完成视频报表统计内容特征分析用户偏好分析基于内容、用户偏好的推荐方案:HDFS完成用户日志、内容元数据的存储基于M/R完成用户日志的批量处理基于M/R完成内容特征、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论