版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术体系建设一、编制说明内容。数据汇聚是组织内的各类数据进行采集并处理的过程。主要目标要实现对结构化业务数据和非结构化数据的抽取、清洗、转换和存储。主要关键技ETLAPI等。大数据框架负责对数据系统中的数据进行计算,很多大数据框架已经通过Storm实时大数据计算,Hadoop离线大数据计算,Spark并行大数据计算,阿里云数据仓库解决方案等。大数据存储是将数量巨大、难于收集处理分析的数据持久化到计算机中。括传统数据仓库,MPPHadoop的技术扩展和封装,大数据一体机等。大数据分析是指对数据量大、速度快、类型多、价值低的数据进行分析。主要目标是实现对数据资源的分析和利用。主要关键技术包括传统BI、OLAP产品,可视化报表,数据挖掘,大数据画像,大数据模型构建和预测等。其他相关内容,请补充。二、编制内容建设现状现状总体架构环评应用 监测应用 监察应用 应急应用 网站应用环评应用 监测应用 监察应用 应急应用 网站应用部领导 局机关与直属单位 地方环保部门其他大数据管理平台大数据综合展示大数据资源目录大数据智能检索 大数据空间专题展示 大数据专题展示管控数据操作台数据并行分析计算大数据分析支撑系统作业调度与集群管理模型算法数据大数据建设 监控台安全与保密业务主题库污染源主数据元数据库文件其他关系型数据库NOSQL时序数据库分布式文件系统数据服务台标准规范数据集成与整合系统环保内部数据数据源环保外部数据其他数据环保云平台图错误!文档中没有指定样式的文字。总体架构行业云平台大数据管理平台建设完成后将按照生态环境大数据建设项目总体要求,部署在行业云平台上。数据集成和整合系统数据源包括行业内部数据、外部委数据以及其他互联网数据,统一规范各业务数据接入,实现数据抽取、数据校验及错误处理、数据清洗转换及加载、空间及业务对象关联等数据集成工作,为各业务应用提供高质量的数据应用。数据库建设NOSQL数据库、量数据存储管理。大数据分析支撑系统BI,利用现有的报表工具实现。大数据资源管控接口,能够提供内、外部的数据共享服务。大数据综合展示务。标准规范建设存在问题物理架构物理架构问题描述存储问题存储问题存储设备空间不足,日常备份完成后,需要将数据备份文件剪切到移动存储上,保证资源中心存储量的正常使用。硬件设备不稳定例如:资源中心从监测总站抽取数据时,总站的服务数据存储层器经常出现硬件故障,有时一个月5次损坏,造成数据交换不稳定。故障恢复时间长例如:监测总站服务器出现故障后,因资源中心没有权限运维该部分服务器,我们只能及时联系对方,对方排查问题,修复,这一过程时间较长。资源中心目前为目前资源中心应用是单节点部署,架构未采用集群方应用层单节点应用式。规划对标重点任方案 任务点 说务
任务完成情况生态合共享环境大数据建设总体方案统筹建设大数
能力。
式,提高对大气、水、土壤、生种污染源全面感知和实时监控能保数据及时上报和信息安全。大数据管理平台是数据资源传输交换、存储管理和分析处理的平台,为大数据应用提供统一的数据支撑服务。主要实现数据传输交换、管理监控、共享开放、分析挖掘等基
建设大数据管理平储能力。据平台 台。
本功能,支撑分布式计算、流式数据处理、大数据关联分析、趋势分析、空间分析,支撑大数据产品研发和应用。
上持续建设。未来规划建设目标型支持能力,为各类大数据应用建设政府科学决策提供支撑持依据。建设内容1、服务节点和基础存储能力升级:升级现有平台,扩展相应管理节点、存储节点、接入节点、应用节点,实现2PB的存储量。2、升级大数据管理平台:提升大数据存储管理能力,扩展大数据弹性分析引擎、大数据弹性流处理引擎、大数据弹性计算引擎、大数据统计查询引擎、大数据检索引擎,为大数据汇集、分析做好支撑。3、开发大数据支撑服务平台:增加大数据分析支撑服务能力,包括基础组织支持、大数据分析支持、大数据可视化支持、大数据运维模型支撑等内容,为业务应用分析做好支撑。4、平台非功能性建设:从高可用、安全、可扩展行、性能上进行整体设计及升级。建设方案总体架构如图总体架构总体架构主要包括以下几部分,其中标识紫色的部分是现在已搭建部分功能,红色部分是现在已初步建成,其余为后续陆续建立。大数据平台大数据平台包括生态大数据湖、一体化分析引擎、一体化查询引擎、一体化检索引擎、自动化运维五部分,平台基于大数据技术搭建,实现环境信息资源中心基础支撑能力。现已初步建立一体化查询引擎、一体化检索引擎。数据采集接入数据源包括行业内部数据、外部委数据以及其他互联网数据,统一规范各业务数据接入,实现数据抽取、数据校验及错误处理、数据清洗转换及加载、空间及业务对象关联等数据集成工作,为各业务应用提供高质量的数据应用。数据治理与深度融合数据治理与深度融合包括大数据治理、大数据融合、数据资源综合监控、数据资产评估。现在已初步形成数据资源综合监控,正在进行可视化升级。访问服务、分析服务、功能服务平台支持三种数据服务,现阶段只初步实现了业务数据访问、目录数据访问及部分专题数据访问功能。生态环境大数据资产服务目录现已建立基于环境业务、组织机构、环境要素、业务系统四大目录分类,初步形成大数据资产服务目录。后续需要在目录分发、目录审核等方面持续升级。技术架构web层。其中采集层、存储计算层主要是基于hadoop和docker的技术体系,webj2ee技术体系实现。接口层技术协议(REST,JavaSDK,JDBC)接口层技术协议(REST,JavaSDK,JDBC)数据协议(XML,JSON,Binary)JqueryJspNodeJsReactHtml其他web应用层应用支撑(报表工具,在线查看工具)应用服务器(Tomcat)分布式计算引擎(R,MR)时序数据查询引擎SQLonHadoop引擎IMPALA/HIVE环保快搜Solr元数据存储资源调度框架(YARN)存储计算层(mysql)序列化(Avro)时序数据 NoSQL数据 并行计算框架仓库 库(hbase) (MapReduce)列式存储(Parquet)关系数据库DB2分布式文件系统(HDFS)实时流计算(Storm)分布式程序协调(zookeeper)采集层分布式消息队列(Kafka)ETL工具(关系型数据、文件)中间库层关系数据库(DB2)文件系统ETL推送中间库层关系数据库(DB2)文件系统ETL推送数据源层关系型数据文件数据流数据权限管理集群管理元数据管理任务管理模型库管理平台管理数据监控hadoop的大数据存储和分析大数据的存储与计算采用基于或围绕hadoop衍生扩展而出的相关大数据hadoophadoop来实现对结构化、半结构化、非结构化大数据存储、分析的支撑。docker技术的系统部署dockerdocker是一个开源的应用容器linux相互之间不会有任何接口。j2eeweb应用j2ee技术体系具有跨平台的特性,j2eeB/S架构,利用成熟的开发平台,进行功能层面的开发。重点系统层介绍:采集层etlkafkastorm这些数据具有数据量大、实时性高等特点,比如:环境质量监测数据;etl工具将db2etl工具处理。存储计算层dockerhadoophadoop的各docker容器安装的,这样有利于资源的隔离和维护。stormozookeepehdfshadoop体系hbasehadoopyarnhadoop中mapReduceR语言,sqlonhadoopimpala、hive开源框架。web应用层webj2eeB/Stomcat,j2ee开发;文档在线查看工具是通过开源工具aspose转换为pdf或者html,然后浏览器通过pdf浏览插件或浏览器自身进行查看。最上层采用jsp,html,jquery等进行实现页面展现与交互。物理架构DMZDMZ政务网业务应用数据库故障转移集群关系型数据库集大数据集群OracleRACU3管理节点流处理节点 搜索节点应用节点业务1业务2U3负载均衡业务3业务4Node1 Node2数据节点N…核心交换机 核心交换机业务...业务nNode... NodeN文件服务器故障转移集群数据交换集群JobTracker防火墙文件服务器故障转移集群数据交换集群JobTracker负载均衡业务应用缓存服务集群业务1业务2TaskTrackerSlaveTaskTrackerWEB服务器业务3业务4MasterU3U3业务...业务nSlave政务网区:物理机(见上图浅绿色部分,其余节点均可为云虚机。OracleRAC设备上。大数据平台采用分布式集群部署,在其基础之上提供的WEB应用采用Nginx(单活)做负载均衡。Nginx(单活Tomcat群。数据交换采用分布式集群部署。文件服务器采用两台云虚机,采用故障转移集群(单活专用存储设备上。缓存服务器提供数据缓存和缓冲的功能,采用集群部署。DMZ区DMZ区全部由云平台提供云虚机。本区域的业务应用多为第三方厂商提供,不做具体规划。本区域的文件服务器、数据交换集群架构同专网区域。数据存储在专用存储设备上。大数据管理平台配置需求角色大数据管理平台配置需求角色类型型号个数备注整机需求数量cpumasterIntelE5-2697V4或金牌614032GDDR4SASSSD480GBSASSSD1.92TB支持Raid10104GB缓存10Gb光口双端口IntelE5-2697V4或2个内存系统盘数据磁盘16个24raid1),双电2raid网卡2个cpu2个批处理/存储节点(系统盘做数据盘做单盘 20raid0或无raid),双电内存金牌614032GDDR48个batch 系统盘SASSSD480GB2个数据磁盘SASSSD1.92TB4个数据磁盘SAS/SATA720012TB8个raidraidRaid10104GB缓存网卡10Gb光口 双端口2个cpustreamIntelE5-2697V4或金牌614032GDDR4SASSSD480GBSASSSD1.92TB支持Raid10106GB缓存2个内存系统盘数据磁盘828流处理节点(系统raid1,数据raid0无raid),双电4raid网卡10Gb光口 双端口2个cpuIn
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年义务教育学校标准化建设工作计划模版(3篇)
- 2024年弘扬传统美德演讲稿样本(2篇)
- 车辆设备、设施管理制度模版(2篇)
- 家具公司消防安全教育、培训制度模版(2篇)
- 夏季物资交流盛会实施方案例文(3篇)
- 维修安装改造合同模板
- 2024会场出租合同范文
- 2024贸易购销合同范本专业版范文
- 2024年学生感恩老师的演讲稿模版(3篇)
- 德州劳务合同范例
- DZ∕T 0227-2010 地质岩心钻探规程(正式版)
- 食品微生物检测技术智慧树知到期末考试答案章节答案2024年黑龙江生态工程职业学院
- 低血糖护理查房含内容课件两篇
- 小学二年级数学计算比赛试题
- 中国民族音乐作品鉴赏智慧树知到期末考试答案2024年
- 教育研究方法观察设计案例
- LED电子显示屏购销合同
- 外出培训学习成果汇报
- 心肌梗死内科学
- 拆除工程施工方案(5篇)
- 国有企业合规管理
评论
0/150
提交评论