疫情监测项目解决方案说明书_第1页
疫情监测项目解决方案说明书_第2页
疫情监测项目解决方案说明书_第3页
疫情监测项目解决方案说明书_第4页
疫情监测项目解决方案说明书_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

疫情监测项目解决方案说明书XX科技股份有限公司编制

目录一、项目存在问题及需解决问题 31.存在问题 32.需解决问题 4二、解决方案 51.解决方案架构 52.关键技术 6(1)Hadoop 6(2)SpringMVC 6(3)MyBatis 6(4)Echarts 7(5)MySQL 7(6)Hive 7(7)HBASE 8(8)Zookeeper 8(9)Flume 8三、开发范围 81.数据生产 82.数据采集/消费 93.数据分析 104.数据展示 11项目存在问题及需解决问题存在问题今年突如其来的新冠肺炎疫情,对我国的社会治理体系和治理能力是一次大考。在这场疫情防控阻击战中,大数据技术展现出广阔的应用前景,其与交通、医疗、教育等领域的深度融合,提升了疫情防控的组织和执行效率,是科学战疫的重要利剑,让人印象深刻。不过,在此次疫情应对中,也暴露出大数据及其智能技术在发展应用中存在的诸多瓶颈和制约。大数据的核心在于多源数据的互联互通,但此次疫情防控中数据分散割裂、聚而不通、通而不用的问题较为明显。数据开放共享不足,信息孤岛问题突出。疫情防控每时每刻都产生着大量的疫情大数据,但回过头看,各渠道获取的疫情数据普遍存在数据口径不规范、统计时间不准确、数据信度待提升等问题,多源数据质量堪忧,治理效率相对较低。此外,疫情期间,中小型企业应用大数据技术研发的创意小发明,有效支撑了疫情防控及复工复产,如无感人体测温系统等“小”技术。然而,进入后疫情时代,这些“小”技术如昙花一现,如AI测温系统等出现软件升级延缓问题,严重影响新技术的持续发展。数据产业规模欠缺,“小”技术韧性不足的问题值得引起关注。进入后疫情时代,数据多元化、高通量、分散随机等特点进一步凸显。作为一项复杂的系统性工程,大数据技术发展亟须补短板、强韧性。要加快打通多方数据壁垒,提升治理数字化水平。国家层面应给予数据汇聚适度授权,探索基于区块链技术的数据共享新模式,实现跨部门、跨平台、多源头数据的开放共享。结合数字身份标识技术,增强接入数据可信认证,推进国家人口基础数据、法人单位信息数据、空间地理基础数据等后疫情相关数据的跨部门、跨区域开放共享。需解决问题要加快制定多维标准体系,补齐数据标准化短板。系统梳理疫情防控过程中暴露的大数据技术标准化建设短板,围绕数据共享、流程再造、服务协同等要求,规范数据口径、统计标准、数据信度等。结合当前经济社会发展的形势及挑战,以国家标准、行业标准、地方标准为主体,以团体标准为补充,尽快制定疫情大数据收集利用的标准体系。综合应用大规模异构数据融合、认知计算等技术,深化政府数据和社会数据关联融合利用,提升后疫情时代数据治理效率。要加快培育强化创新生态,增强技术产业化韧性。借助疫情防控大数据技术应用实践,加快大数据技术协同创新共同体建设,建立创新要素开放共享机制,培育强化后疫情时代的大数据技术创新生态。加快大数据创新链与产业链的深度融合,尤其是加强大数据相关技术与防控物资智能物流、信息技术产业、人工智能与智能装备等后疫情产业的内嵌融合。围绕大数据关键技术疫情防控实践的积极进展,逐步完善大数据工具、平台和系统产品体系,增强技术产业化韧性。加快厘清数据权责边界,落实大数据监管监督。明确大数据存储、使用、传输、发布的权责关系,提升大数据安全管理水平,防范各种个人信息的大规模收集、使用可能带来的数据泄露风险。重视信息安全与隐私保护,建立安全、可信的数据加密和认证保护技术,制定相应的原则和标准完善大数据分类保护机制,筑牢后疫情时代大数据安全韧性。解决方案解决方案架构图1解决方案架构图系统开发平台使用Hadoop大数据开发平台。Hadoop是一个高度可扩展的存储平台,可以存储和分发横跨数百个并行操作的廉价的服务器数据集群。能扩展到处理大量的数据,能提供成百上千TB的数据节点上运行的应用程序。Hadoop能够有效的在几分钟内处理TB级的数据。相比关系型数据库管理系统更具有优势。它适用于任何规模的非结构化数据持续增长的企业,将帮助用户持续提高用户体验。系统采用面向对象的软件设计方法,把整个系统看作是多个离散对象的组合。系统设计时,首先把业务流程分解成功能模块及其业务实体对象,然后根据业务流程分析对于这些业务实体对象的操作方法,形成业务处理对象,最后把各个功能模块关联起来,形成系统。软件设计是一个将需求转变为软件的过程,系统通过逐步求精使得设计陈述逐渐接近于源代码。系统程序采用MVC的设计思想,将展现逻辑、控制逻辑、业务处理逻辑分离。系统采用参数化的设计思想,定义和管理系统的实体及配置,调整实体以适应外部变化。系统采用J2EE技术保证程序逻辑实现的平台无关性,并便于安装部署。系统采用AJAX技术,提高客户操作的交互性,保证实际使用的易用性。系统采用echarts可视化框架实现数据展示。关键技术HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。SpringMVCSpringMVC:属于SpringFrameWork的后续产品,已经融合在SpringWebFlow里面。Spring框架提供了构建Web应用程序的全功能MVC模块。MyBatisMYBatis:是支持普通SQL查询,存储过程和高级映射的优秀持久层框架。MyBatis消除了几乎所有的JDBC代码和参数的手工设置以及结果集的检索。MyBatis使用简单的XML或注解用于配置和原始映射,将接口和Java的POJOs(PlainOldJavaObjects,普通的Java对象)映射成数据库中的记录。EchartsECharts是一款基于Javascript的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。MySQLMySQL是一个关系型数据库管理系统,由瑞典MySQLAB公司开发,属于Oracle旗下产品。MySQL是最流行的关系型数据库管理系统之一,在WEB应用方面,MySQL是最好的RDBMS(RelationalDatabaseManagementSystem,关系数据库管理系统)应用软件之一。MySQL是一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言。MySQL软件采用了双授权政策,分为社区版和商业版,由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,一般中小型网站的开发都选择MySQL作为网站数据库。Hivehive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,这套SQL简称HiveSQL,使不熟悉mapreduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。而mapreduce开发人员可以把自己写的mapper和reducer作为插件来支持hive做更复杂的数据分析。它与关系型数据库的SQL略有不同,但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。它还提供了一系列的:具进行数据提取转化加载,用来存储、查询和分析存储在Hadoop中的大规模数据集,并支持UDF(User-DefinedFunction)、UDAF(User-DefnesAggregateFunction)和UDTF(User-DefinedTable-GeneratingFunction),也可以实现对map和reduce函数的定制,为数据操作提供了良好的伸缩性和可扩展性。HBASEHBase–HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。ZookeeperZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。FlumeFlume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。开发范围数据生产对于该模块的业务,即数据生产过程,一般并不会让你来进行操作,数据生产是一套完整且严密的体系,这样可以保证数据的安全性。但是如果涉及到项目的一体化方案的设计(数据的产生、存储、分析、展示),则必须清楚每一个环节是如何处理的,包括其中每个环境可能隐藏的问题;数据结构,数据内容可能出现的问题。数据采集/消费数据采集模块(消费),在企业中你要清楚流式数据采集框架flume和kafka的定位是什么。我们在此需要将实时数据通过flume采集到kafka然后供给给hbase消费。flume:cloudera公司研发适合下游数据消费者不多的情况;适合数据安全性要求不高的操作;适合与Hadoop生态圈对接的操作。kafka:linkedin公司研发适合数据下游消费众多的情况;适合数据安全性要求较高的操作(支持replication);因此我们常用的一种模型是:线上数据-->flume-->kafka-->flume(根据情景增删该流程)-->HDFS线上数据-->flume-->kafka-->sparkstr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论