分布式计算、云计算与大数据第2版课件第10章实时医疗大数据分析案例

上传人：q*** IP属地：山东上传时间：2025-03-21 格式：PPT 页数：61 大小：10.17MB 积分：15 举报 版权申诉

已阅读5页，还剩56页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第10章实时医疗大数据分析案例提纲案例背景与需求概述设计方案环境准备实现方法不足与扩展习题与参考文献案例背景与需求概述目前我国的医疗行业现状是，优质医疗资源集中在大城市，地方以及偏远地区医疗条件较差，医疗资源的配置不合理，导致了大量的长尾需求，催生了广阔的互联网医疗市场。在此背景下，互联网的“连接”属性得以发挥，有效提高了长尾市场的信息流通，降低了产品扩大受众群的成本，而大数据技术的应用能够使得医疗服务更加完善和精准。医疗大数据的应用主要指的是将各个层次的医疗信息和数据，利用互联网以及大数据技术进行挖掘和分析，为医疗服务的提升提供有价值的依据，使医疗行业运营更高效，服务更精准，最终降低患者的医疗支出。本案例将先介绍某中医院的医疗大数据分析需求，然后采用多种大数据技术组件，形成一套从ETL、非格式化存储、大数据挖掘分析以及可视化等一系列数据解决方案。

案例背景与需求概述以心脏病临床诊断数据为处理对象通过对以往的病例进行归类打标签，预先评估出一些用以模型训练的病理数据利用大数据分析引擎（Hadoop、Spark等）计算出病理分类决策模型，再利用实时大数据平台建立实时大数据处理原型，对前端数据源传送过来的新病例，加以预测评估，演示包括平台建立、模型训练及评估等多项内容分类模型选择随机森林算法，心脏病临床诊断数据包括十三个医疗诊断属性案例背景与需求概述数据来源：/ml/machine-learning-databases/heart-disease/本实例使用的是processed.cleveland.data文档中的数据，先将数据保存到本地桌面data.txt文件以待后用，数据的部分截图如下：案例背景与需求概述案例背景与需求概述案例目标需要实现如下几个功能：(1)使用ETL工具将病理数据导入HDFS，作为训练数据；(2)基于SparkMLlib的RandomForests算法从病理数据中训练分类模型；(3)模拟数据源向Kafka传送测试实例；(4)通过SparkStreaming从Kafka中接收该实例，并交给分类模型做出决策，预测结果。整个流程以HDFS为中心存储、中间结果存储，中间输出结果以及最终结果都存储在HDFS，由ETL工具转存到其他存储系统中。提纲案例背景与需求概述设计方案环境准备实现方法不足与扩展习题与参考文献实时医疗大数据分析方案设计案例流程图设计方案实时医疗大数据分析方案设计ETL流程图ETL实时医疗大数据分析方案设计非格式化存储以HDFS、HBase等分布式存储系统为核心存储，通过ETL传输工具，例如Sqoop、Kettle等将非格式化数据，如网站日志、服务器日志等从磁盘存储直接导入到HDFS，并通过Hive等查询工具建立基本的格式化结构;也能将原关系数据库中存储的格式化数据，以文本形式或以Sequence结构的二进制数据存储在HDFS中。实时医疗大数据分析方案设计流处理流处理流程图实时医疗大数据分析方案设计训练模型与结果预测基于心脏病临床数据的检测模型，以RandomForests为分类模型，从病例数据中训练出病理预估模型，并通过错误率，MSE等指标量化模型评估。然后根据训练好的模型对测试数据进行分析与评估，并给出预测的结果。提纲案例背景与需求概述设计方案环境准备实现方法不足与扩展习题与参考文献实时医疗大数据分析环境准备

本例使用Ambari进行整个大数据平台的搭建。正如其官网介绍而言，ApacheAmbari项目旨在通过开发用于配置，管理和监控ApacheHadoop集群的软件，使管理Hadoop集群更方便简单。Ambari供了一个直观的，易于使用的Hadoop管理WebUI，在此之上，可以创建、管理、监视Hadoop的集群，这里的Hadoop是广义的，指的是Hadoop整个生态圈(例如Hive，Hbase，Sqoop，Zookeeper，Spark等)，而并不仅是特指Hadoop。用一句话来说，Ambari就是为了让Hadoop以及相关的大数据软件更容易使用的一个工具。建议:安装Ambari时建议自行搭建一个本地库(localrepository)进行安装，官方文档中有介绍，这里就不再详述。实时医疗大数据分析环境准备

集群架构图实时医疗大数据分析环境准备

节点规划实时医疗大数据分析环境准备

软件选型提纲案例背景与需求概述设计方案环境准备实现方法不足与扩展习题与参考文献实时医疗大数据分析实现方法

经过上面三个部分的说明，相信都已经明白了本案例的基本设计方案以及完成了整体环境的搭建，那么这一节就将脱离“纸上谈兵”，开始最关键的实践部分。首先，我们将一开始下载并保存好的data.txt病理数据经过ETL工具处理，最终将数据存储到HDFS中，作为训练数据集。接着，通过实现一个程序，模拟Kafka与SparkStreaming的交互，SparkStreaming将从Kafka处读取数据并最终存储到HDFS中，作为测试数据集。最后，通过使用SparkMLlib，根据训练数据集进行模型训练，然后利用训练好的模型对测试数据集进行预测，并将最终预测结果存储到HDFS中。这就是我们整个实现的流程，将分为3个环节进行，具体可见下文。实时医疗大数据分析实现方法

使用Kettle/Sqoop等ETL工具，将数据导入HDFS本环节是ETL环节，即使用ETL工具对原始数据(data.txt)进行清理并导入到HDFS中，所以这个环节的内容可以概括为两点:(1)清理:源病理数据中有些记录的某个字段含有“?”，会对后面的模型训练产生影响，因而需要把这部分数据清理掉;(2)导入:将清理后的数据导入到HDFS中，作为训练数据集。流行的ETL工具有很多，这里我们将使用Kettle。实时医疗大数据分析实现方法

使用Kettle/Sqoop等ETL工具，将数据导入HDFS（1）新建“转换”实时医疗大数据分析实现方法

使用Kettle/Sqoop等ETL工具，将数据导入HDFS（2）配置Hadoop集群信息

实时医疗大数据分析实现方法

使用Kettle/Sqoop等ETL工具，将数据导入HDFS（3）配置“输入”与“输出”

在核心对象-->输入这个地方拖出一个“文本文件输入”，在“BigData”目录下拖出“HadoopFileOutput”，如图:实时医疗大数据分析实现方法

使用Kettle/Sqoop等ETL工具，将数据导入HDFS（3）配置“输入”与“输出”

实时医疗大数据分析实现方法

使用Kettle/Sqoop等ETL工具，将数据导入HDFS（3）配置“输入”与“输出”

（3）配置“输入”与“输出”

实时医疗大数据分析实现方法

使用Kettle/Sqoop等ETL工具，将数据导入HDFS（3）配置“输入”与“输出”

实时医疗大数据分析实现方法

使用Kettle/Sqoop等ETL工具，将数据导入HDFS（3）配置“输入”与“输出”

实时医疗大数据分析实现方法

使用Kettle/Sqoop等ETL工具，将数据导入HDFS（3）配置“输入”与“输出”

实时医疗大数据分析实现方法

使用Kettle/Sqoop等ETL工具，将数据导入HDFS（4）执行“转换”

实时医疗大数据分析实现方法

使用Kettle/Sqoop等ETL工具，将数据导入HDFS（5）查看导入后的结果

前面我们把数据导入到了路径/data/test/data.txt中，现在来看一下HDFS中的这个文件是否存在，如下:可见确实有一个data.txt文件，继续看一下文件的内容:实时医疗大数据分析实现方法

基于SparkStreaming开发Kafka连接器组件本环节是Kafka与SparkStreaming交互的环节，我们将实现一个程序，实现SparkStreaming从Kafka处读取数据并最终存储到HDFS中，作为测试数据集，以便最后的预测使用。在这个环节中，我们将会有两大部分内容:(1)测试前面到的环境搭建时安装的Kafka集群是否能够正常运作;(2)创建Kafkaproducer，输入测试数据，SparkStreaming从Kafka处读取数据并最终存储到HDFS，模拟读取“医疗数据”的过程。实时医疗大数据分析实现方法

基于SparkStreaming开发Kafka连接器组件（1）下载用例程序相关jar包

本实例用到的jar包为:spark-streaming-kafka_2.10-1.5.2.jar，

kafka_2.10-.3.4.51-1.jar,metrics-core-2.2.0.jar,zkclient-0.7.jar实时医疗大数据分析实现方法

基于SparkStreaming开发Kafka连接器组件（2）程序代码解析

实时医疗大数据分析实现方法

基于SparkStreaming开发Kafka连接器组件（3）测试Kafka集群

实时医疗大数据分析实现方法

基于SparkStreaming开发Kafka连接器组件（3）测试Kafka集群

实时医疗大数据分析实现方法

基于SparkStreaming开发Kafka连接器组件（3）测试Kafka集群

实时医疗大数据分析实现方法

基于SparkStreaming开发Kafka连接器组件（3）测试Kafka集群

实时医疗大数据分析实现方法