版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智城建设大数据项目实施组织方案概述项目背景应用数据是大数据的重要来源之一,对大数据台需求迫切数据具有公共属性,需要满足多个行业的应用需求,因而需要支撑多个部门的应用及综合类应用,而传统的电子建设方式,各部门各自为,各地域的数据也不能实现共享和协同,因而急需采用大数据台对基础数据资源进行整合和挖掘利用。大数据具有面向跨行业服务的特点和数据融合、比对的需求数据由于其历史原因,使得产生的数据往往来自不同的部门,即使是相同的数据,在不同的部门中也有不同的产生途径,往往会造成数据的不准确和错误,这也是经常出现“数据打架”的原因,因而需要充分利用大数据台实现数据质量的提升,而数据的清洗和跨部门数据之间的比对是实现数据质量提升的重要手段。同时,城管理和民生服务中要求数据之间需要有更强的关联性,人、地、事、物、视频、物联网数据只有深度融合,才能实现对人口的全生命周期、事件的全过程进行管理,因而需要对不同来源的数据进行充分的关联比对和深度的融合。在大数据台建设中,提供了相关的工具,为实现海量数据的比对、分析和融合提供了强有力的支撑。大数据对数据的安全性和保密性要求高一般数据采用不同的防护手段,进而实现数据的安全性和保密性访问。大数据具有分地域、分领域的多层次安全管理需求电子、社会管理等各方面的数据的产生和使用具有较强的地域性,同时数据的密级不同,并且不同的行业对数据的需求也不一样,因而严格控制数据的分地域、分领域分级管理,以适应数据的安全管理需求.项目建设内容软件系统建设应用架构及设计XXX台的数据资源将作为XXX数据资源的一部分,沿用某地大数据台的数据标准体系。汇聚县各委办数据,并进行数据的梳理、数据标准的制定、数据的采集、数据清洗、数据比对、数据入库等数据治理工作,基于级六大基础库数据,定制六大基础数据库和各类专题业务专题库,实现县各行机构之间以及县各行机构与县各直行机构之间的数据交换共享,为县领导辅助决策和其他专业应用提供包括管理、民生服务、产业发展在内的各类数据分析主题。大数据基础县服务所需要的数据来自于各委办和街道,包含传统数据库数据、视频、图片、声音、日志文件、电子邮件、地图、Word、PDF等各种文档。这些数据分为结构化数据、半结构化数据和非结构化数据。这些类型的数据无法用传统关系型数据库进行数据处理和分析,必须借助于大数据基础台的HDFS、Hbase、MapReduce等技术手段进行处理和分析,支持顶层应用系统的数据利用。大数据基础台主要包括如下组件:大数据台运维管理组件运维管理组件提供大数据台组件部署及动态扩容,提供大数据台部署工具,组件部署管理及动态增加机器节点管理工具;组件服务监控管理,提供组件的运行状态、组件的负载情况监控及组件的启动、停止、移除等管理;组件故障自动迁移,节点组件出现故障时,集群中的其它节点中的相应组件自动接管故障组件的工作,保证组件正常服务。主要由两部分组成:运维管理组件-agent和运维管理组件-server。在agent端,采用puppet管理节点;在Server端,采用Jetty,Spring,Jetty,JAX-RS等;可以利用Ganglia,Nagios的分布式监控能力。下图是运维管理组件的系统架构。其中master模块接受API和AgentInterface的请求,完成运维管理组件-server的集中式管理监控逻辑,而每个agent节点只负责所在节点的状态采集及维护。运维管理组件架构图运维管理组件Server会读取Stack和Service的配置文件。当用运维管理组件创建集群的时候,运维管理组件Server传送Stack和Service的配置文件以及Service生命周期的控制脚本到运维管理组件Agent。Agent拿到配置文件后,会下载安装公共源里软件包(Redhat,就是使用yum服务)。安装完成后,运维管理组件Server会通知Agent去启动Service。之后运维管理组件Server会定期发送命令到Agent检查Service的状态,Agent上报给Server,并呈现在运维管理组件的GUI上。运维管理组件Server支持RestAPI,这样可以很容易的扩展和定制化运维管理组件。甚至于不用登陆运维管理组件的GUI,只需要在命令行通过curl就可以控制运维管理组件,以及控制Hadoop的cluster。分布式数据库采用分布式数据库Hbase。同时利用HBase中的主从复制和循环复制,使得系统达到一种高可用的状态。HBase复制是一种在不同HBase部署中复制数据的方法。它可以作为一种故障恢复的方法,并提供HBase层次的高可用性。在实际应用中,例如,可以将数据从一个面向页面的集群复制到一个MapReduce集群,后者可以同时处理新数据和历史数据。然后再自动将数据传回面向页面请求的集群。HBase复制中最基本的架构模式是“主推送”(master-push),因为每个regionserver都有自己的WAL(或HLog),所以很容易保存现在正在复制的位置。正如众所周知的解决方案-Mysql的主/从复制,只使用二进制文件来跟踪修改。一个主集群可以将数据复制到任意数目的从集群,每个regionserver都会参与复制自己的修改。复制是异步进行的,意味着集群可以是地理上彼此远离的,它们之间的连接可以在某个时刻断开,在主集群上的修改不能马上在从集群上进行同步(最终一致性)。和SQL语句不同,所有的WALEdits(包括来自客户端的Put和Delete产生的多单元格操作)都会被复制以保证原子性。来自每个regionserver的HLog是HBase复制的基础,并且只要它们需要将数据复制到从集群,它们就必须被保存到HDFS上。每个regionserver从它需要的最老的日志开始复制,同时在zookeeper中保存当前恢复的位置来简化错误恢复。每个从集群恢复的位置可能不同,但它们处理的HLog队列内容是相同的。参与复制的集群的规模可以不对等。主集群会通过随机分配尽量均衡从集群的负载。分布式数据仓库采用分布式数据仓库Hive。XData-Hadoop发行版中Hive的元数据是存储到Mysql中,利用mysql的ha对hive的元数据进行高可用设计。具体如下:安装MySQLHA集成环境的两个节点要配置无密码环境,并且两个节点互相加入了对方节点的known-hosts文件。Heartbeat主从节点都需要两个网卡,一个网卡需要为外网访问提供服务,一个网卡需要为心跳线服务,两个网卡配置IP不能在同一子网中,心跳线所使用网卡IP不要设置路由信息。主节点上的两个不同用处的网卡名称应该分别与从节点上的两个不同用处的网卡对应并相同。Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为QL,它允许熟悉SQL的用户查询数据。作为一个数据仓库,Hive的数据管理按照使用层次可以从元数据存储、数据存储和数据交换三个方面来介绍。1、元数据存储Hive将元数据存储在RDBMS中,有三种模式可以连接到数据库:SingleUserMode:此模式连接到一个In-memory的数据库Derby,一般用于UnitTest。MultiUserMode:通过网络连接到一个数据库中,这是最常用的模式。RemoteServerMode:用于非Java客户端访问元数据库,在服务器端启动一个MetaStoreServer,客户端则利用Thrift协议通过MetaStoreServer来访问元数据库。2、数据存储首先,Hive没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由地组织Hive中的表,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,它就可以解析数据了。其次,Hive中所有的数据都存储在HDFS中,Hive中包含4种数据模型:Table、ExternalTable、Partition、Bucket。Hive中的Table和数据库中的Table在概念上是类似的,每一个Table在Hive中都有一个相应的目录来存储数据。例如,一个表pvs,它在HDFS中的路径为:/wh/pvs,其中,wh是在hive-site.xml中由${hive.metastore.warehouse.dir}指定的数据仓库的目录,所有的Table数据(不包括ExternalTable)都保存在这个目录中。Partition对应于数据库中Partition列的密集索引,但是Hive中Partition的组织方式与数据库中的很不相同。在Hive中,表中的一个Partition对应于表下的一个目录,所有的Partition数据都存储在对应的目录中。例如:pvs表中包含ds和city两个Partition,则对应于ds=20090801,city=US的HDFS子目录为:/wh/pvs/ds=20090801/city=US;对应于ds=20090801,city=CA的HDFS子目录为:/wh/pvs/ds=20090801/city=CA。Buckets对指定列计算hash,根据hash值切分数据,目的是为了便于并行,每一个Buckets对应一个文件。将user列分散至32个Bucket上,首先对user列的值计算hash,比如,对应hash值为0的HDFS目录为:/wh/pvs/ds=20090801/city=US/part-00000;对应hash值为20的HDFS目录为:/wh/pvs/ds=20090801/city=US/part-00020。ExternalTable指向已经在HDFS中存在的数据,可以创建Partition。它和Table在元数据的组织结构上是相同的,而在实际数据的存储上则有较大的差异。在Table的创建过程和数据加载过程(这两个过程可以在同一个语句中完成)中,实际数据会被到数据仓库目录中。之后对数据的访问将会直接在数据仓库的目录中完成。删除表时,表中的数据和元数据将会被同时删除。ExternalTable只有一个过程,因为加载数据和创建表是同时完成的。实际数据是存储在Location后面指定的HDFS路径中的,它并不会到数据仓库目录中。3、数据交换数据交换主要分为以下几个部分数据交换组成部分用户接口:包括客户端、Web界面和数据库接口。元数据存储:通常是存储在关系数据库中的,如MySQL、Derby等。解释器、编译器、优化器、执行器。Hadoop:用HDFS进行存储,利用MapReduce进行计算。用户接口主要有三个:客户端、数据库接口和Web界面,其中最常用的是客户端。Client是Hive的客户端,当启动Client模式时,用户会想要连接HiveServer,这时需要指出HiveServer所在的节点,并且在该节点启动HiveServer。Web界面是通过浏览器访问Hive的。Hive将元数据存储在数据库中,如MySQL、Derby中。Hive中的元数据包括表的名字、表的列和分区及其属性、表的属性(是否为外部表等)、表数据所在的目录等。解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化到查询计划的生成。生成的查询计划存储在HDFS中,并在随后由MapReduce调用执行。Hive的数据存储在HDFS中,大部分的查询由MapReduce完成(包含*的查询不会生成MapRedcue任务,比如select*fromtbl)。以上从Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive入手介绍了Hadoop的数据管理,它们都通过自己的数据定义、体系结构实现了数据从宏观到微观的立体化管理,完成了Hadoop台上大规模的数据存储和任务处理。分布式计算模块利用MapReduce、Spark等分布式计算框架,为上层应用提供大数据分布式计算的支撑,提供Mahout,MLlib等算法库支撑,提供数据存储访问及分布式计算任务的调度、运行支撑环境能力。MapReduceXData-SDH的大数据批处理的计算模式是MapReduce,这是MapReduce设计之初的主要任务和目标。MapReduce是一个单输入、两阶段(Map和Reduce)的数据处理过程。首先,MapReduce对具有简单数据关系、易于划分的大规模数据采用“分而治之”的并行处理思想;然后将大量重复的数据记录处理过程总结成Map和Reduce两个抽象的操作;最后MapReduce提供了一个统一的并行计算框架,把并行计算所涉及到的诸多系统层细节都交给计算框架去完成,以此大大简化了程序员进行并行化程序设计的负担。MapReduce的简单易用性使其成为目前大数据处理最成功的主流并行计算模式。在开源社区的努力下,开源的Hadoop系统目前已成为较为成熟的大数据处理台,并已发展成一个包括众多数据处理工具和环境的完整的生态系统。目前几乎国内外的各个著名IT委办都在使用Hadoop台进行委办内大数据的计算处理。HadoopHDFS是GoogleGFS存储系统的开源实现,主要应用场景是作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase、HyperTable)的底层分布式文件系统。HDFS采用master/slave架构。一个HDFS集群是有由一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。如下图所示(HDFS体系结构图):HDFS体系结构图HadoopMapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上TB级别的数据集。一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由Map任务(task)以完全并行的方式处理它们。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。如下图所示(HadoopMapReduce处理流程图):HadoopMapReduce处理流程图Spark分布式计算框架Spark是一个通用的并行计算框架,是一种快速处理大规模数据的通用引擎。HadoopMapReduce的每一步完成必须将数据序列化写到分布式文件系统导致效率大幅降低。Spark尽可能地在内存上存储中间结果,极大地提高了计算速度。MapReduce是一路计算的优秀解决方案,但对于多路计算的问题必须将所有作业都转换为MapReduce模式并串行执行。Spark扩展了MapReduce模型,允许开发者使用有向无环图(DAG)开发复杂的多步数据管道。并且支持跨有向无环图的内存数据共享,以便不同的作业可以共同处理同一个数据。Spark不是Hadoop的替代方案而是其计算框架HadoopMapReduce的替代方案。Hadoop更多地作为集群管理系统为Spark提供底层支持。Spark可以使用本地Spark,HadoopYARN或ApacheMesos作为集群管理系统。Spark支持HDFS,Cassandra,OpenStackSwift作为分布式存储解决方案。Spark采用Scala语言开发运行于JVM上,并提供了Scala,Python,Java和R语言API,可以使用其中的Scala和Python进行交互式操作。流数据处理及消息框架支持主流的流处理框架,框架采用小批量流式处理方式,每隔设定间隔(100毫秒)处理当前批次数据;可支持复杂SQL应用和在线流式机器学习。并且支持Kafka,Flume等常见消息队列或采集工具,兼容现有Hadoop生态系统。支持storm流式处理框架。具有扩展性强、容错性强、延迟低、吞吐高等特点。而且可以将kafka,storm,Hbase等组件连接起来。SparkStreaming流式计算随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。SparkStreaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。本节将详细介绍SparkStreaming实时计算框架的原理与特点、适用场景。Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集,提供了比MapReduce更丰富的模型,可以在快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算算法。SparkStreaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。SparkStreaming的优势在于:能运行在100+的结点上,并达到秒级延迟。使用基于内存的Spark作为执行引擎,具有高效和容错的特性。能集成Spark的批处理和交互查询。为实现复杂的算法提供和批处理类似的简单接口。基于SparkonYarn的SparkStreaming总体架构如下图所示。SparkonYarn启动后,由SparkAppMaster把Receiver作为一个Task提交给某一个SparkExecutor;Receive启动后输入数据,生成数据块,然后通知SparkAppMaster;SparkAppMaster会根据数据块生成相应的Job,并把Job的Task提交给空闲SparkExecutor执行。图中蓝色的粗箭头显示被处理的数据流,输入数据流可以是磁盘、网络和HDFS等,输出可以是HDFS,数据库等。分布式消息框架分布式消息系统属于中间件产品,功能是将前端采集来的数据进行分布式缓存,以供后端进行实时处理。Kafka是一种分布式的,基于发布/订阅的分布式消息系统。可以用来缓存采集的流数据。Topic:特指Kafka处理的消息源的不同分类。Partition:Topic物理上的分组,一个topic可以分为多个partition,每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id(offset)。Message:消息,是通信的基本单位,每个producer可以向一个topic(主题)发布一些消息。Producers:消息和数据生产者,向Kafka的一个topic发布消息的过程叫做producers。Consumers:消息和数据消费者,订阅topics并处理其发布的消息的过程叫做consumers。Broker:缓存代理,Kafa集群中的一台或多台服务器统称为broker。数据采集管理组件对数据源的提供者、业务来源、连接信息、连接状态等进行管理,实现对数据来源的跟踪;数据库数据采集,提供自Oracle、SQLServer、MySql等数据库中采集数据的功能,并进行定时的自动化采集;结构化文件数据采集,提供自结构化数据文件中采集数据的功能,并对文件中的数据行进行自动化字段拆分;非结构化文件采集,提供自FTP自动化定时采集非结构化文件,并对采集到的文件进行统一管理。数据源管理可实现对数据源,可实现对本地文件、主流结构化数据库、分布式数据存储等数据源的提供者、业务来源、连接信息、连接状态等进行管理。支持的本地化文件包括excel、csv等;支持的主流结构化数据库包括MySql、Oracle、PostgreSql、SQLserver、DB2、MonetDB等;支持的分布式数据存储包括HDFS、Hive、Hbase等。数据采集数据采集包括数据库数据采集、结构化文件数据采集、非结构化数据采集。数据采集通过ETL工具实现,ETL负责将分散的、异构数据源中的数据如关系数据、面数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库或数据集中,成为联机分析处理、数据挖掘提供决策支持的数据。该系统采用SOA技术架构设计,采用组件复用和框架技术,以SOA面向服务的架构为基础,通过该服务台开发出的应用系统具备松散耦合、可重用服务、标准化的服务接口、支持各种消息模式,实现应用系统之间以及与其他外部应用系统无缝、高效集成。ETL即数据采集单元,是数据转出客户端,是与数据库服务器相连的负责采集相关数据的单元,一方链接数据库,一方链接VPN,如源数据库为多个,则ETL系统采集端部署多个与源数据库对应。ETL系统采集端功能如下:1、基本信息配置:设置合作伙伴编码与名称,设置ETL系统采集端编码;导出文件配置:导出文件的保存路径、数据文件名、数据文件列分隔符、导出文件的编码格式,目前数据文件默认为文本文件方式;2、链接配置:配置需要链接的数据库的数据库类型、链接的IP地址、数据库用户名和密码;配置对应的ETL系统入库端的链接地址、用户名及密码;3、数据集配置:配置需要提取的数据集清单与每种数据集的采集周期(比如年、月、日等);4、脚本编写及植入:可手工编写数据提取的SQL语句或存储过程,然后将脚本植入到数据采集单元中;5、运行监控:监控数据采集的过程,日志自动保存与输出、报错提醒(邮件\短信等)等;6、数据打包上传:对已经提取的数据进行加密、打包且上传到数据加载单元;为保证数据采集的及时性、准确性,需要根据机房环境和数据库种类的不同,为数据采集单元设计不同的部署方式。数据采集单元部署在机房,需要注意以下问题:根据机房环境,设计如何接入互联网的方案;数据采集单元通过VPN连入外联区域;为达到免责目的,数据采集单元务必独立于零售商的硬件设备;合理设计数据采集单元相对于防火墙的位置;在一般情况下,采用远程桌面方式执行日常维护。系统特点支持多种运行环境支持云台、Windows、Linux、Unix等主流操作系统厂商的运行环境;台可移植性高,并可对多终端的数据进行同步和协调。支持多数据源数据采集支持多数据源数据采集:支持从主流关系型数据库(oracle,MYSQL,SQLServer,DB2,sydbase,informix,达梦,神通),webservice接口,文件服务器等多种存储设备中采集数据。支持大数据存储和访问全面支持大数据存储和访问,支持大数据环境的数据采集。支持大数据存储载体Hadoop/HDFS和Avro,支持访问HDFS内的文件内容。支持主流NoSQL数据库,包括:Hbase,mongodb等。图形化作业支持图形化作业:从图形化界面创建数据采集转换、作业,以流程图方式呈现,具备清晰,直观的可视化操作界面。可视化作业支持可视化作业监控调度:在web可视化界面上统一调度作业,支持作业的执行,暂停,以及作业的日志报告查看。支持多数据标准支持XML、WebServices、JSON,JMS等数据标准;遵循restful风格遵循restful风格标准消息传递机制;数据运维管理组件数据运维管理组件提供对大数据台数据的统一监控和运维管理,具体功能包括:台数据监控,对大数据台中已有数据存储量、数据增量、表数量、在线访问人数等信息进行监控;台数据处理任务管理,对台中的数据采集处理任务信息进行集中查看及管理;台操作日志管理,对台中的用户登录情况、用户访问数据表的情况进行日志记录,并提供筛选及查询功能;用户及部门管理,提供多层级的部门管理及用户管理,并提供用户排序等功能;角色及数据权限管理,提供自定义管理员及台用户角色的功能,对不同角色可授予精细至表字段的数据访问权限管理;审批管理,提供审批权限配置工具,并根据配置进行流转审批管理。数据监控整体状态监控提供对交换节点、交换作业、吞吐量、异常情况的整体监控。可按照过去一小时、过去一周、过去30天等维度查看数据交换实时流量。可查看交换节点的服务器名称、主机名或IP地址、端口号、是否主服务器、用途、状态等详细信息。基础数据库(1)信息资源规划XXX台作为县部门数据交换中心和数据共享中心,需要实现数据的集中交换和集中存储,因此,在全面建设之前,必须通过信息资源梳理,对县各委办之间的输入数据及输出数据进行全面梳理,分析出需要集中交换与共享的数据。在此基础上,通过与中心交换的方式,实现各委办之间的数据共建共享,如下图所示:数据共享交换台示意图信息资源梳理是对县各委办在业务开展过程中,从数据的采集、存储、传输到使用的全面规划。通过对各委办的信息需求获取、现状信息环境调研、信息需求分析等一系列数据资源梳理分析工作,站在县整体的基础之上,设计XXX中心需要存储的数据和交换的数据,并在此基础之上,制定数据存储和交换的数据标准。(2)基础数据库XXX台未来需要集中存储的数据包括各委办需要交换进来的数据和需要交换出去的数据,两部分数据按照业务主题可划分为人口、法人、空间地理和宏观经济四类数据,每类数据结合国家目前正在建设的人口库、法人库、空间地理库和宏观经济库等内容,主要内容包括:人口类数据:存储与人口相关的各种属性信息,包括人口基本信息、人口扩展信息及专用信息,人口基本信息中存储人口最基本的数据项信息,包括:姓名、性别、民族、出生日期、住址、公民身份号码、照片,人口扩展信息中存储户籍、出生、死亡等信息,人口专用信息中按涉及人口管理的委办具体的行管理职能存储专用的人口信息,包括卫生、教育、税务、计生等专有信息。法人类数据:存储与法人相关的各种信息,包括法人基本信息及法人扩展信息。法人基本信息中存储法人最基本的数据项信息,包括:机构名称、机构类型、机构住所、法定代表人姓名、经营或业务范围、注册或登记机构名称、注册或登记号、资金币种、注册资本或开办资金金额、成立日期、行区域代码等信息;法人专用信息中按涉及法人管理的委办具体的行管理职能存储专用的法人信息,包括场监督管理、税务等专有信息。空间地理数据:存储与空间地理有关的元数据库、基础空间数据库、信息图层数据库、地名地址数据库、历史数据库、三维模型数据库等七大类。宏观经济数据:由部门数据信息和类别数据信息组成。部门数据信息反映从各委办采集、清洗、比对后的信息,信息的存储按照数据部门来源划分;类别数据信息是按照经济、社会、居民生活等数据类型进行存储,同一数据类别的信息可以来源于多个部门。(3)基础数据框架数据资源体系框架是XXX台从数据采集、处理、存储和管理的总体架构,为上层应用提供高档次的数据存储和处理环境,数据资源体系框架主要侧重于业务处理所需的信息和信息流,从实际业务出发,开展数据资源梳理,从数据采集、处理、传输、到使用进行统一规划,设计XXX台整体的数据资源架构。从存储信息对象上来看,主要存储三大库数据、以及从互联网上获取的各种信息的社会综合大数据。从数据处理过程来看,XXX台数据资源体系框架总体架构如下图所示:数据资源体系框架(4)基础数据分区根据数据资源共享交换台数据库规划,数据资源共享交换台的数据存储由交换数据临时存储区、操作型数据存储区、数据仓库、数据集4个区域构成,具体建设的时候需要根据它们各自的特点分别进行设计。交换数据临时存储区。交换数据临时存储区(ExchangeDataStore,EDS)是用来保证数据交换过程中安全隔离和临时存储的存储区,其数据结构应与接入的应用系统保持一致。操作型数据存储区。操作型数据存储区(OperationalDataStore,ODS)存放集成的、可更新的、近实时的业务数据。ODS主要用于异构业务数据源的明细数据整合后、进入数据仓库前的存储,并提供企业面向业务的、近实时的统一数据视图,支持企业全业务数据的近实时查询与分析。ODS是业务系统间公共和共享数据的存储区,是业务系统与数据仓库间的数据迁移的缓存区,是支持数据资源共享交换台应用中实时查询数据的存储区,是日常业务决策支持的数据存储区。ODS数据模型依据数据模型构建,基于主题域组织,其主题域划分和核心数据实体与企业数据模型相同。数据仓库。数据仓库(DataWarehouse,DW)存放面向主题的、集成的、相对稳定的、反应历史变化的数据。数据仓库统一存放与管理经整合后、具体分析价值的企业历史数据,支持基于大量历史数据的企业决策分析。数据仓库中存储从业务系统中到处的用于决策和挖掘的企业数据,也到处操作型数据的轻度汇总数据。数据仓库的数据一部分通过ODS导入,一部分通过业务系统直接导入。数据仓库的数据模型按照主题组织,主题域划分与数据模型相同,数据模型依据数据模型构建。数据集。数据集(DataMarkets,DM)是以数据仓库数据为唯一数据源、面向特定分析应用、俺一定方式重新组织的数据集合,是数据仓库的子集。数据集基于数据仓库创建,用于不同业务部门的需求和不同分析应用的分析数据的存储,数据集的数据模型与企业数据模型一直,用于描述企业业务部门、企业综合分析以及高级管理人员分析所需的数据。数据集模型也按主题组织,但其主题域划分与数据模型不同,数据集的主题是基于企业的不同部门、不同人员的分析需求而组织的。基础数据分层。XXX台数据模型是数据资源层的核心,是整个XXX台数据资源标准的具体体现,包括两级四层,分别为县级数据模型、应用级数据模型。县级数据模型包括县级概念数据模型和县级逻辑数据模型。县级概念数据模型定义XXX中心的主题域,反映业务的综合性信息需求。县级逻辑数据模型是对概念数据模型的分解和规范化,描述实体、属性及实体之间的关系,提供了XXX中心的总体数据视图。通过建立县级数据模型,规范应用级数据模型的设计,可减少信息化应用之间数据的重复定义和不一致性,从源头上保证数据的质量,降低应用集成和数据共享的难度。县级数据模型应在各应用系统建设之前,从整个县的角度,统一、集中设计数据模型,保证数据存储模式合理、学。应用级数据模型包括应用级逻辑数据模型和应用级物理数据模型。应用级逻辑数据模型是针对具体信息化应用的逻辑数据模型,通常为县级逻辑数据模型的子集,为系统开发提供数据规范。应用级物理数据模型是在应用级逻辑数据模型的基础上,考虑各种具体的技术实现因素,结合具体数据库管理系统,进行物理结构设计,以满足数据存储需要。应用级数据模型是应用系统的重要组成部分,按照应用系统建设进程不断建立和完善。数据管理台(1)资源目录服务按照国家信息资源目录体系标准,建立统一的信息资源目录体系,建设统一的信息资源管理中心,形成“物理分散、逻辑集中”信息资源管理模式;提高信息的交换能力,支持跨部门间的信息共享和业务协同,提高各单位、各部门协同、管理水。通过借鉴信息资源目录体系,设计XXX中心的信息资源目录服务系统,构建信息资源目录体系和信息资源共享环境,并通过目录服务实现跨部门的共享信息资源发现、定位与获取。该系统功能主要包括编目传输、目录服务、目录管理及共享服务。信息资源目录服务系统工作过程分为信息资源目录访问过程、目录服务形成与提供流程和共享信息资源定位与发现流程。目录服务流程准备:首先由各部门建立共享信息库,并建立共享信息服务系统,提供共享信息的浏览、查询和下载等服务;编目:各部门对共享信息的内容提取特征,通过编目系统形成目录内容库;注册:由各部门通过目录传输系统将目录内容传送到目录服务中心;发布:由目录服务中心对各部门的目录内容进行审核发布。(2)数据质量管理按照国家信息资源目录体系标准,建立覆盖全先的信息资源目录体系,建设全先统一的信息资源管理中心,形成“物理分散、逻辑集中”信息资源管理模式;提高信息的交换能力,支持跨委办之间的信息共享和业务协同,提高全先公共服务和社会管理的水。数据质量管理系统的功能包括数据质量监控、数据质量评估、数据质量报告、数据质量问题处理、数据质量知识库等功能。数据质量监控:根据数据检验等配置的规则,对发现的数据质量异常情况进行告警和拓扑呈现。主要包括源系统关键数据稽核、源系统维表稽核、实体数据检查、处理过程检查、关键指标检查、告警管理、拓扑呈现和规则配置等功能。数据质量评估:根据设定的评估方法对源接口基础数据质量评估和指标关联性分析,相关到评估结果以作为系统质量改进的参考和依据。数据质量报告:对数据质量管理各环节累积的各种信息进行汇总、梳理、统计和分析,形成统计报告,主要包括:报告生成、报告发布、报告查询和报告归档。数据质量问题处理:包括问题生成、问题分析、问题处理和问题总结。数据质量知识库:在台使用及运维过程中,由数据质量管理系统收集有关数据及过程问题的处理经验总结,按关键字的形式进行索引和分类管理。(3)业务建模业务建模是构建用户接口或上层业务应用与基础数据之间的逻辑模型。业务对象和业务分析模型在此实例化。应用服务层是生成并操作接收信息的业务规则和函数的集合。它们通过业务规则(可以频繁更改)完成该任务,并由此被封装到在物理上与应用程序程序逻辑本身相独立的组件中。1)居民身份验证模型居民身份验证模型用于居民个人电子档案建立及居民身份验证,是社区证明系统、业务流转系统等具体业务系统的支撑服务。它可以通过身份证号验证居民身份,比对大数据台中人口信息库中是否具有该居民信息,进行相关业务办理,也可以通过居民生物特征信息(指静脉信息)进行居民唯一身份验证,以此为依据办理相关业务。2)数据综合模型社区综合信息模型是网格化管理体系下动态信息获取的一个重要来源,社区综合信息采集服务将网格内房屋信息、常住人口、暂住人口、特殊人群、紧急情况等信息,通过表单、照片、空间定位等多种手段进行采集,并经2.5/3G/4G无线网络将所采集到的信息及时传送到大数据台,达到网格动态信息的快速更新、多方共享的目的。其主要功能包括:楼栋信息采集、门牌信息采集、人员信息采集、事件上报、营业网点信息采集、重点场所信息采集、紧急事件处理、代办需求处置、帮扶需求、城管事件上报及其他功能等。3)城运行体征动态模型城运行体征是一个城在完善基础设施、保障能源及各种资源供给、特殊时期营造相应氛围、提供安全应急保障等方面开展的工作。城运行检测以获取城运行全时段、全要素信息为基础,进行常态城运行态势的实时监控、综合评估、发展预测、协调会商、辅助决策等,其目的是要增强城管理工作的整体性、协调性、规范性,营造良好的城环境,以提升城综合运营能力,提高城建设服务管理水。4)城数据综合分析模型构建城运行管理数学模型,实现对海量的交通数据、地理位置检测数据、环境数据、医疗数据、数据、教育数据、数据的实时、全面、系统的数据采集,存储、分析、挖掘。智慧城数据分析系统主要完成分析或决策模型的创建、发布和管理等功能,其主要使用对象是各部门业务人员。数据分析系统能够支持指标的数据分析和处理,包括基础信息的统计分析、城特征指数分析、宏观经济分析等功能。5)电子模型电子是指综合运用互联网、手机、固定电话等多种方式,使公务人员之间、与公众之间可以随时随地实现相互间的信息传递,从而实现组织结构和工作流程的优化重组,超越时间、空间和部门分割的制约,全方位地向社会提供优质、规范、透明的服务。通过电子网上便民服务工程融合、民、税务、场监督管理、人力资源和社会保障、住房和城乡建设等机构,为县居民打造一个统一服务台,方便百姓随时随地利用各种方式进行业务查询、办理等。运行支撑台(1)引擎。服务引擎主要为顶层应用系统的开发提供共性的服务组件,以减少应用系统对于共性组件的重复采购,减少资源浪费,提高使用效率。服务引擎由手机短消息、即时通信、电子邮件、视频通信、GIS空间分析、工作流、搜索、表单定制等服务组成。权限。权限管理是根据系统设置的安全规则或者安全策略,用户可以访问而且只能访问自己被授权的资源。权限管理主要包括身份认证服务、单点登录服务和权限验证服务等服务。(3)监控。对于XXX中心,由于支撑了很多服务和应用,需要把分散在各个应用系统中的监控功能统一管理,形成一套对XXX中心有效监控的措施。统一监控服务要包含远程监控、本地监控、数据库空间监控、流程监控、负载监控、应用监控、报警通知和监控展示等服务。(4)接口。XXX台应充分调动、企业、居民等多方力量共同运营、维护与建设。在台体系中起主导和方向性引导作用,为大数据台提供权威数据和管理方法;企业为台提供创新的应用方式;居民为台提供动态的、鲜活的社会动态数据。XXX台开放接口服务,是一套专门为这三个方面用户提供的应用服务,使其方便调用与二次开发。数据门户通过数据门户建设,整合电子信息资源,建立以信息资源展示、二次开发服务为核心的服务系统;基于海量数据,汇集统计分析、工作动态等决策信息,为各级领导提供决策服务;拓展公开信息统一管理、公共服务、在线互动交流等功能,体现服务型数据中心新形象、逐步扩展数据门户网站功能,建设综合性信息网站门户。数据门户主要包括资源展示、在线查询和门户管理等功能。(1)资源展示。信息资源展示服务主要负责对采集的体征数据、事件数据等按照一定的查询条件统计的结果,在系统界面中以视频播放、列表、直方图、折线图、饼图、态势图、体征日报等方式展示出来。也可以将空间化专题信息通过GIS系统更加形象具体的展现出来。信息资源展示的内容包括空间信息地图展示、综合态势展示、事件展示、指标信息展示以及统计结果展示。(2)在线查询。随着数据的集中和整合系统可以提供如自然人口库基础信息查询、组织单位库基础信息查询和地理信息库基础信息查询等专题查询。同时,也可以提供只有数据整合才可以做到的部门数据关联查询和三库关联查询服务。(3)门户管理。门户基本管理服务用于实现对大数据中心服务接口对外发布的管理以及与各部门现有系统的对接;实现综合信息登记、审核和发布,应用系统集成单点登录以及门户网站内容管理等功能。应用服务层按企业、民生、三大业务领域规划了三类重点专项即面向企业服务、面向民生服务、面向服务。其中,面向企业服务包括中小企业服务台、产业经济运行监控台、智慧招商台、智慧物流台;面向民生服务包括民一卡通、社区公共服务台、智慧医疗;面向服务包括行审批台、公开台、领导决策支持系统、数字城管、智慧环保、智慧交通、综合应急指挥台和视频云支撑引擎。应用支撑系统应用支撑系统包括支持应用开发的JavaEE技术框架,支持台设计的SOA体系架构,实现服务接口标准化的WebService、XML等技术,以及包括数据适配器、服务总线、流程引擎、消息中间件、等相关支撑中间件组成,为构建大数据台提供应用支撑。消息中间件该台采用的是分布式消息中间件,分布式消息中间件是一种在分布式系统中应用程序借以传递消息的媒介,利用高效可靠的消息传递机制进行与台无关的数据交流,并基于数据通信来进行分布式系统的集成。通过提供消息传递和消息排队模型,它可以在分布式环境下提供应用解耦、弹性伸缩、冗余存储、流量削峰、异步通信、数据同步等等功能,其作为分布式系统架构中的一个重要组件,有着举足轻重的地位。分布式消息中间件提供了统一的后台程序运行框架格统一的消息收发接口,屏蔽操作系统差异,可以跨台传输海量数据消息,同时使开发者专注业务功能开发。在分布式应用系统中是一种非常重要且基础的组件。分布式中间件架构分布式中间件的设计理念是分层式模块化架构,消息中间件系统的逻辑结构分为四层,这种分层式设计概念主要是为了系统稳定性及扩展性问题。它的优势是将服务、接口和协议这三个概念明确地区分开来,减少模块间的耦合性,这样各层中的不同功能模块实现了不同的职责,中间件模型中将服务、接口和协议这三个概念明确地区分开来的目的是一般服务说明某一层为上一层提供一些什么功能,接口说明上一层如何使用下层的服务,而协议涉及如何实现本层的服务。这样使得各层之间具有很强的独立性。分布式中间件设计中间件模型分为以下四层:操作系统异构层、专用算法封装层、集群通信控制层、业务抽象层。各层的定义和相关功能如下:操作系统异构层:操作系统异构层定义了物理运行环境之上的不同操作系统的统一封装,支持LINUX和WINDOWS,将两个操作系统提供的有差异的系统调用进行整合,对向上层提供透明化接口封装,实现接口统一,调用者可以不用关心操作系统的差异。专用算法封装层:专用算法封装层向上层提供专用的算法支持,如随机数、加密、解密、数据压缩、高效HASH、签名算法等,是整个消息中间件系统的基础支撑部分。集群通信控制层:集群通信控制层定义了基于操作系统层之上的各物理服务器的虚拟网络系统,以便于消息的流转。集群通信控制层的特征是传输消息可在各逻辑运行服务器间按需要寻址传输,解决流量吞吐及消息并发处理。业务抽象层:业务抽象层定义基于消息中间件系统开发的业务程序的抽象接口,包括初始化、结束、TICK、秒TICK、节点连接、节点断连等相关接口,所有集群业务都必须按此规范进行编程。数据库中间件大数据数据存储系统可实现数据可靠存储和对今后数据中心的强力支撑,能及时备份系统所需各种数据,有极强的抗灾难能力和快速恢复能力,保证系统极大的无故障工作时间,支持JSON格式数据存储,与传统的关系型数据库相比,需提供了更大的数据存储灵活性。应用中间件应用中间件一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。中间件位于客户机/服务器的操作系统之上,管理计算机资源和网络通讯。是连接两个独立应用程序或独立系统的软件。相连接的系统,即使它们具有不同的接口,但通过中间件相互之间仍能交换信息。执行中间件的一个关键途径是信息传递。通过中间件,应用程序可以工作于多台或OS环境。根据本次系统架构和技术选型,支撑整个台运行的中间件需满足以下技术参数:1)支持各种主流的WINDOWS、Linux、Unix、Solaris操作系统。如WindowsXP/2000/2003/2008,Linux(redflag、redhat、Suse等),AIX5.x,HP-UX、Solaris等。2)支持场上主流的关系型数据库系统,实现配置易用,并可扩展。如ORACLE、IBMDB2、MYSQL、MSSQLServer、DAMENG、KINGBASE、SYBASE、POSTGRESQL、HSQL、INFORMIX等。3)支持业界多种开放性标准,包括如XML、WebServices、EJB,JMS、JTS的支持最新标准。支持JDK1.5(32/64位),JDK1.6(32/64位)4)应用服务器提供商需作为JavaEE6标准制定成员,并具有专家参与下一个版本(JSR316)的标准制定,并提供网址查询的截图材料。5)提供应用移植工具,实现应用程序包从其他应用服务器移植到本应用服务器环境。具体说明如何实现,并提供工具技术白皮书。6)支持JSP编译器,支持多版本编译方便WEB开发实现,如2.0和2.1等。7)支持X/OpenDTP异构数据库XA方式的两阶段交易处理,支持将第三方事务控制中间件作为事务控制代理。8)支持Web和EJB层级的负载均衡,确保故障恢复和故障迁移能力。负载策略支持简单轮转、加权轮转、随机、备份等方式。9)提供安全接口,支持第三方安全机制,可以外挂加密算法,支持与PKI产品结合使用,以增强系统的安全性。通过国家密码管理认证,拥有2012年度《商用密码产品销售许可证》。10)支持集群的统一管理配置。集群可通过中心配置管理集群过程,并可直接配置负载均衡器而不需要单独登陆到集群服务器。11)具有良好的易用性,支持Apache及硬件集群方式,支持图形化统一管理配置。12)支持集群动态扩展。在原业务系统不停机的情况下,必须支持动态增加服务器,扩展系统性能。而性能的扩展,由中间件通过配置来实现,和应用系统代码无关。13)提供JMS服务,除了支持标准的JMS1.1编程外,还提供对第三方消息产品(如IBMMQ、ActiveMQ、TongLINK/Q等)的整合,以增强JAVAEE之外的消息服务功能。对JMS的支持以JCA的适配器为基础架构,提供两种集成方式:JNDI和JavaBean的方式。14)支持JAAS实现基于容器的安全策略,提供基于文件、数据库和LDAP认证的LoginModule,支持单点登录。支持JACC架构,提供完整的授权和认证的解决方案。15)支持标准的安全协议SSL(SecureSocketLayer),支持与第三方PKI产品无缝集成,包括直接访问应用服务器方式和通过第三方WebServer集成的方式,并支持此两种方式下浏览器与服务器之间的双向认证。16)支持标准CORBA/IIOP协议、CSIV2协议的ORB连接。17)支持WebService的消息安全,提供SAML和WS-Security的完整解决方案;18)支持WebService,包括访问WebService端点和将容器内的Web组件或EJB组件包装成WebService端点对外提供服务。19)支持大并发用户量的多线程应用;具备管理JDBC连接池、EJB实例池等缓存技术。数据接口实现县智慧城各业务系统之间、与共享交换台、智慧城信息化项目之间,以及企业之间的实时信息抽取与交互。主要功能:序号接口名称功能描述1数据同步接口获取人口、综治事件信息、暂住人口信息、快递物流信息等2生态环境数据同步接口获取废气、废水、污染源、重大危险源、水质监测点、环评批复数据等3场监督管理数据同步接口获取行审批过程中场监督管理提供相关数据信息、文件信息、协查信息、协同办理等功能4智慧消防数据同步接口获取重点防护目标、消火栓点位信息、消防机构、建筑消防设施表等信息5公积金数据同步获取住房公积金个人总帐信息、个人结息对帐单信息、个人明细帐信息、账户余额及汇缴、补缴、提取、计息等账户明细等信息6人社数据同步获取人社失业人员信息、人社社保企业欠缴信息、人社社保失业待遇发放信息、社保个人参保信息等7其他系统标准化的同步接口实现通用型标准数据查询、数据同步接口,包括结构化数据和非结构化数据。数据处理与存储大数据台把实时数据,包括气象数据、环保数据、水务数据,与传统业务非实时数据进行整合,包括一些城交通、应急、消防等外联单位的历史数据。将各类结构化、非结构化、半结构化的数据,包括监控图像、抓拍信息和视频等信息,进行数据集成、数据转换处理,然后各自建模分析,形成专题数据,把专题数据应用到相应的应用系统中,提供支撑。分布式数据处理Apache Flume:是一个分布的、可靠的、高可用的海量日志聚合的系统,用于日志数据收集,flume可自动采集前端数据,统一汇集到大数据台。SparkStreaming:是流式处理框架,是SparkAPI的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是Kafka,Flume,Twitter,ZeroMQ或者TCPsockets,并且可以使用高级功能的复杂算子来处理流数据,主要用来处理大数据台中的实时性数据。DataX:是一个异构数据源离线同步工具,致力于实现包括关系型数据(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能,为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步,主要用来解决大数据台异构数据源间的数据同步问题。Kettle:Kettle是ETL中其中一个开源工具,ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环,也是工作量较大的一块。Kettle将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起。数据存储HDFS
分布式数据存储:HDFS主要是为了应对海量数据的存储,由于数据量非常大,因此一台服务器是解决不能够应付的,需要一个集群来存储这些数据。在这个集群中,存在一个
NameNode
节点,该节点用于管理元数据,即用户上传的文件位于哪个服务器上,都多少个副本等信息。此外,还有多个
DataNode
节点,这些节点就是文件存储位置。文件存储到集群中需要考虑以下这几个问题:1、保证数据的安全性,即数据应该有足够多的副本2、能够适应高并发的访问3、因为这些数据是存储在多个服务器上的,因此需要保证每个服务器的负载均衡HDFS的设计很巧妙,完美的解决了这几个问题。当用户上传一个文件时,会提供一个
虚拟路径,该路径是方便客户端对文件进行读写操作的,NameNode中存在该路径和真实的存储物理路径的映射。NameNode会先判断上传的文件是否存在,如果不存在,则允许用户继续上传。通过以上机制HDFS有效地保障了数据存储的安全性、一致性、读写高效性。PostgreSQL:PostgreSQL被业界誉为“最先进的开源数据库”,面向企业复杂SQL的OLTP业务场景,支持NoSQL数据类型(JSON/XML/hstore),可以存储array和json,可以在array和json上建索引,甚至还能用表达式索引,为了实现文档数据库的功能,设计了jsonb的存储结构。PostgreSQL的稳定性极强,Innodb等引擎在崩溃、断电之类的灾难场景下抗打击能力有了长足进步。PostgreSQL多年来在GIS领域处于优势地位,它有丰富的几何类型,实际上不止几何类型,PG有大量字典、数组、bitmap等数据类型,为大数据台空间地理信息存储分析提供了有力的支撑。Memcached:是一个高性能的内存缓存对象系统,其实质为一个键值对的hashmap索引,其事件处理和网络通信均是基于libevent。memcached区别于libevent,因为memcached是一个运行程序,不需要编译成动态连接库,供其他程序调用。memcached通常作为C/S模型中的S,也就是服务器端,客户端通过命令缓存数据。基本特点:1、协议简单:使用基于文本行的协议,二进制协议使用比较少。2、基于内存存储:数据存储在内存中,所以读取速度很快。3、事件处理:基于libevent开发,所以可以应对C10问题。4、不互相通信的分布式:多台memcached服务器之间不互相通信,由客户端实现分布式算法,所以通常客户端使用一致性hash策略,通常拥有快隔离,慢恢复的特性。在面对千万级用户量的应用时,特别是查询的时候,memcached分布式缓存可以在特定的应用场景下解决数据访问与数据存储并发瓶颈问题。标准规范体系建设标准体系概述标准体系建设是大数据台建设的基础性工作,根据业务和数据特点,设计数据和管理的统一标准,在整个台建设中起着重要的作用。标准体系是实现台建设目标的重要保障。标准体系必须依据行业标准为基础,再结合本项目业务信息系统的建设的基础上进行量身定制。面对大数据台这样涵盖业务范围较广的大型综合信息与网络化系统,要实现多应用系统的数据、应用和系统的集成,实现互联互通,并最大限度地进行互操作,首先必须建立完善的标准规范体系。如果缺乏标准化和规范化,项目建设势必难以兼容互通,信息资源难以共享,而且还将浪费大量的资源、经费和时间。因此,必须依据本项目的建设的目标和任务,建设该系统的标准规范体系,保障标准的可持续发展能力,实现真正意义上的互联互通互操作,是本项目建设急需开展的重要工作之一。以信息化标准化理论为指导,以项目建设对标准化的需求为依据,以建立和完善大数据台标准体系为工作目标,在相关行业标准体系的指导和电子标准化的框架下,根据相关国家标准和行业标准的发展状况,借鉴各单位有关信息化标准化的成果和经验,加强与项目承建商的有机结合,协调互动,共同建立项目标准体系和关键技术标准,确保项目快速、有序、高效、健康地发展。标准体系的建设原则标准规范体系是由一定范围内的具有内在联系的标准组成的学的有机整体,它包括现有的、正在制定的和应着手制定的各类标准,是促进一定范围内的标准组成趋向学化和合理化的手段,通常用标准体系框架和明细表的方式来表达。标准和规范的建设是一项复杂而艰巨的任务,它的工作量很大,并且需要协调的方面很多。因此在建设的过程中要必须遵循以下原则:统一标准,保障安全统一标准,保障安全是大数据台建设必须坚持的重要原则之一。切实可行,准确实用标准和规范必须根据实际情况而制订和修改,这样才能使标准符合实际。标准的制订和修订要求准确实用,使执行者易于理解和执行,具有较强的可操作性。遵循电子的国家标准、行业标准标准和规范的制订应遵照、继承和贯彻国家标准、行业标准,避免重复建设,参考国家标准和相关行业标准。前瞻性强,易于扩展由于大数据台建设是一个跨部门、复杂的系统,各个部门都有其特点,因此标准的制订和采用应具有前瞻性并成熟可用,满足易于扩展的需求,使之能适应行业的变化。统一组织,积极参与标准和规范建设涉及面广,不是一个部门所能解决的。因此,在标准的制订过程中必须调动各部门的积极性,吸收尽可能多的部门参与。特别是业务处理规范和业务数据标准的制订,必须有各级业务部门的业务人员的参与。在标准和规范的执行过程中,也需要各级业务部门的配合。在统一采集数据的基础上,建立系统的、分层次的指标规范。标准规范大数据台的标准规范主要包括以下部分:1、目录体系技术规范目录体系技术规范主要定义了大数据台信息资源目录体系的技术架构(包括系统部署、目录传输模式、目录中心互访机制等)、部门共享信息服务环境、目录中心环境等方面的标准。2、目录体系接口规范目录接口技术规范规定目录服务接口及其调用方法。主要包括数据库服务接口、文件服务接口、目录内容查询接口、目录中心注册接口、共享信息服务接口等。3、信息资源编目规范信息资源编目规范主要是参照国家目录中关于信息资源编目的标准,结合大数据台的实际情况,对信息资源分类、元数据定义、信息资源标识符、编目流程等进行具体的描述和赋值。4、信息资源目录信息资源目录主要是指通过本次项目建设中对参建部门的信息资源的梳理,所形成的大数据台信息资源目录指标项。5、信息交换系统技术规范信息交换系统技术规范主要定义了大数据台信息交换系统的技术架构、系统部署、部门接入、信息交换模式、部门前置交换环境、交换中心环境等方面的标准。6、信息交换接口规范信息交换接口技术规范规定信息交换交换过程中有关数据格式、编码规则、封装业务数据采用的数据接口规范,交换指标项、交换流程等内容。管理制度大数据台目录与交换体系的管理制度主要包括以下部分:1、共享信息资源管理制度共享信息资源管理制度明确共享信息资源采集、注册、存储、更新、注销、发布服务等涉及共享信息资源各方面管理办法,以保证共享信息资源可靠性、准确性、安全性。2、信息资源目录管理制度信息资源目录管理制度明确信息资源目录的编制、审核、上报、回退、发布等各方面管理办法,以保证信息资源目录可靠性、准确性、安全性。3、信息交换系统管理制度信息交换系统管理制度明确了信息资源提供方、信息资源使用方、技术台管理运维单位、技术台建设单位等其他相关部门及人员在台运行维护、日常管理中的责权利关系,岗位职责等。4、部门接入管理制度对外服务指明确了各部门将应用系统接入到目录与交换体系技术台过程中所应该填写的表单、所遵循的工作流程等。5、安全运行维护管理制度安全管理制度从信息资源、设备及软件系统、系统日常运行、人员、管理等各方面做出规定,全面保护目录与交换体系的安全运行。安全系统建设物理层网络安全保证计算机系统各种设备的物理安全是整个计算机信息系统安全的前提,物理安全是保护计算机网络设备、设施以及其他媒体免遭诸如地震、水灾、火灾环境事故以及人为操作失误或错误及各种计算机犯罪行为导致的破坏过程。机房应采取防雷、消防、防盗和防电磁辐射等安全措施。链路层安全在数据进入广域网之前采用VPN方式对IP数据包进行加密,以防数据在链路中被窃听、篡改。虚拟专用网(VPN)是一种以公用网络为基础,综合运用隧道封装、认证、加密、访问控制等多种网络安全技术,为各部门人员提供安全的网络互通和资源共享的技术,包括和该技术相关的多种安全管理机制。虚拟专用网的重点在于建立安全的数据通道,该通道应具备以下的基本安全要素保证数据的真实性,通信主机必须是经过授权的,要有抵抗地址假冒(IPSpoofing)的能力。保证数据的完整性,接收到的数据必须与发送时的一致,要有抵抗不法分子篡改数据的能力。保证通道的机密性,提供强有力的加密手段,必须使偷听者不能破解拦截到的通道数据。提供动态密钥交换功能和集中安全管理服务。提供安全防护措施和访问控制,具有抵抗黑客通过VPN通道攻击企业网络的能力,并且可以对VPN通道进行访问控制。网络层安全防火墙在出口区我们采用防火墙双机热备系统,外网口连接到出口交换机,DMZ口连接公众服务器区,内网口连接到核心交换机。内部数据中心也采用双机热备系统,外网口连接到核心交换机,DMZ口连接内网服务器区,内网口连接核心服务器区。防火墙的主要功能如下:问控制类功能:提供基于状态检测技术的对象式访问控制,高效的透明代理实现细粒度应用级管理控制。支持对URL过滤,支持邮件过滤和内容安全审计,双向NAT,IP与MAC地址绑定、IP与用户绑定。支持流量控制等。②防御类功能:防TCP、UDP等端口扫描,抗DOS/DDOS攻击,防源路由攻击、IP碎片包攻击、DNS/RIP/ICMP攻击、SYN等多种攻击等。③安全管理类功能提供基于OTP机制的管理员认证,提供分权管理安全机制,提供安全策略检测机制,提供丰富完整的日志等等。网络安全评估分析(漏洞扫描系统)在现有的漏洞扫描系统上升级,利用该系统对网络进行检查,查找其中是否有可被黑客利用的漏洞,对系统安全状况进行评估、分析,并对发现的问题提出解决建议从而提高网络系统安全性能的过程。漏洞扫描系统的主要性能如下:能基于网络和主机进行检测;能扫描Windows2000及以上版本、Linux、AIX、Tru64UNIX、Solaris等多种操作系统,可采用TCP/IP等多种网络协议进行扫描能对服务器、防火墙、路由器等网络设备进行测试;能检测CGI脆弱性、邮件服务器的脆弱性、FTP服务器的脆弱性、RPC的脆弱性、FINGER服务的脆弱性、ROOT权限攻击检查、后门和特洛伊木马、Windows脆弱性等漏洞;能准确而全面的报告网络系统中存在的脆弱性和漏洞;能准确报告受检对象的相关信息,包括操作系统版本、对外开放的服务类型等;能提供详细的漏洞说明、风险等级、补救办法、专家建议;能根据用户需要生成各种分析报告等。入侵检测系统入侵检测就是通过从计算机网络系统中的若干关键节点收集信息,并分析这些信息,监控网络中是否有违反安全策略的行为或者是否存在入侵行为。入侵检测系统作为安全侦测的最后一道防线,能提供安全审计、监视、攻击识别和反攻击等多项功能,对内部攻击、外部攻击和误操作进行实时监控,是其它安全措施的必要补充,在网络安全技术中起到了不可替代的作用,是安全防御体系的一个重要组成部分。入侵检测系统按照其数据来源来看,可以分为三类:第一类:基于主机的入侵检测系统(HIDS);第二类:基于网络的入侵检测系统(NIDS);基于网络的入侵检测系统,通过在计算机网络中的某些点,被动地监听网络上传输的原始流量,对获取的网络数据进行处理,从中获取有用的信息,再与已知攻击特征相匹配,或与正常网络行为原型相比较,来识别攻击事件。第三类:采用上述两种数据来源的分布式的入侵检测系统。本方案采用基于主机的入侵检测系统(HIDS)和基于网络的入侵检测系统(NIDS)相结合的方式配置入侵检测系统。在公众服务器区、内部网络服务器区和核心服务器区需要保护的服务器上配置基于主机的入侵检测主机传感器,在公众服务器区、内部网络服务器区和核心服务器区核心交换机的监听断口配置基于网络的入侵检测网络传感器,在核心服务器区配置入侵检测控制台。原有的IDS系统可以升级后装备到公众服务器区。系统层安全操作系统的安全除了考虑提升操作系统的安全等级外,最主要的是从两个方面来检测分析现有操作系统的安全性,并进行相应的修补和改进。一方面要分析寻找当前系统中存在的配置问题;另一方面寻找系统已经被侵入的迹象。如:当前配置检测:分析当前系统配置,找出可能使用户或闯入者获得未认证访问的配置。配置文件检测:检查各类系统配置文件并发现系统可能被侵入的问题,如系统口令文件、系统启动文件、设置允许文件等等;软件版本检测:寻找那些不可靠的软件版本;文件宿主和允许检测:查看重要的系统文件是否对于未被认证的修改是脆弱的,或是能让未认证的用户读取可以侵入系统的信息;不规则文件检测:在用户的系统中寻找每一类非寻常文件,包括:临时路径中的设备文件、特殊命名的文件和放错位置的配置文件等等;用户帐户检测:扫描与帐户安全有关的问题,用户帐号往往是被攻击的对象;工作组设置检测:寻找有关帐户工作组定义方面的问题,这些问题可能引起不同的帐户获得其不该拥有的访问权限;口令检测:寻找和帐户口令有关的问题,包括:口令丢失和可猜测的口令;系统受损检测:检查被记录下来的来自用户或闯入者未被认证的访问,包括:系统更改检测和“黑客”签名检测。前者寻找可疑的系统配置的改动;后者发现已有的“黑客”行为;系统更改检测:将当前配置和过去的配置相比较,以保证系统是安全的。可疑的系统配置改动显示可能有闯入者或是未被认证的用户入侵了系统;数据库系统安全数据库安全系统主要侧重于用户帐户的管理和用户对特定数据库目标的操作许可。数据库系统的安全主要从加强数据库系统的安全分析,找出所有可能的潜在漏洞,并进行修补。同时加强帐户安全管理、系统级权限管理、对象安全管理和安全审计管理。应用层安全应用系统安全是整个安全体系不可缺少的一个重要部分,应用的安全在很大程度上能够弥补系统安全的不足,由于各个系统应用的对象,实现的目标都有差异,都必须在应用系统设计时给出相应的安全设计。第四级结构化保护级的一个重要特点就是将第三级系统中的自主和强制访问控制扩展到所有主体与客体。所以,为了提升应用系统的安全,按照第四级保护级的要求,全网采用单点登录、统一用户管理、严格访问权限控制等安全措施,加强自主访问控制、强制访问控制、标记、身份鉴别等安全措施。本次系统建设的应用层安全设计主要从如下几个方面考虑:单点登录与访问权限控制大数据台是由多种异构系统集成而成,统一门户子系统具备集成多种系统、封装多种功能。满足多类用户一次进入,自动访问所有授权的应用软件系统,无需记忆多种登录过程、ID或口令,从而提高整体安全性。在应用台设计中,考虑了单点登录、统一用户管理的支撑,安全系统中,着重考虑身份验证、权限管理等功能。其实现的功能包括:与身份认证及数字签名服务的集成身份验证是权限控制的基础。大数据台可提供对客户和服务方双向身份的验证,为每个联网用户发放电子证书(如装载在E-key上),通过基于数字证书的认证方法来确认用户身份,为进行交互业务的实体定义唯一的电子身份标识,保证身份的真实性,提供基于数字证书的授权控制来实现对信息资源和应用的访问控制;通过对消息摘要和数字签名的验证来提供完整性保护;采用数字签名提供不可否认服务,为第三方验证信息源的真实性和信息的完整性提供证据。在CA中心没有建成之前,可以采用是SSL的握手协议与Kerberos身份认证协议相结合的方式进行身份验证。与权限控制及可信授权服务的集成把信息资源划分成不同级别,并把使用信息资源的用户划分成不同角色,实现不同类型人员对不同级别信息访问的控制策略;依据授权服务为不同身份的登录用户提供对信息、应用等资源的授权访问能力。另外,还可以结合J2EE台的安全控制能力,使系统的安全性进一步增强。对于某些复杂的页面,需施加字段级的安全控制,使得某些字段只有具有权限的人才能察看或修改,为应用程序提供更加细粒度的安全控制。集中的权限控制摆脱了以往复杂繁琐的ACL权限分配方式,实现基于角色的权限管理模型。分权分域管理系统可根据不同的应用及各栏目分配和管理权限,将各栏目分配给不同的人员不同权限,栏目权限可细分到各级的栏目。统一注册管理与授权服务大数据台统一门户子系统应提供统一用户管理(UUM)机制来对注册的用户进行管理。为了避免用户的重复注册,造成大数据台用户的重复和管理上的不便,应建立统一的注册中心库。这种注册中心库,可能是全的LDAP目录,也有可能是基于数据中心的分布式数据库体系。统一用户管理(UUM)机制采用标准的LDAP/NIS+协议作为存取接口,同时提供支持数据库,RADIUS等多种接口,便于各种服务的程序存取用户数据,除了各个应用所需的公共的用户属性(姓名、密码、证书号码、电子邮件、性别等)外,还可以根据不同应用或服务的需求自由设置它所要求的特殊的用户属性,门户通过标准接口支持对上述各种类型注册中心库的访问和更新。与安全审计系统、日志有机联接通过大数据台,用户必须从唯一的入口登录所有应用系统,因此在用户的登录入口处可以集中进行审计记录。这种审计记录是基于用户身份的,它可以准确地记录用户
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理课件设计与教学实践技巧
- 手术前风险评估与防范
- 二手房转让合同集锦15篇
- 《高层建筑施工垂直度控制技术对施工成本的影响与控制》教学研究课题报告
- 保护树木的倡议书10篇
- 高中物理实验:家庭节水装置的力学分析与节水效率提升策略教学研究课题报告
- 《基于物联网的垃圾焚烧发电厂二噁英排放实时监测与控制技术研究》教学研究课题报告
- 《SDN在校园网络中实现高效网络监控与流量分析的研究》教学研究课题报告
- 云架构师面试题及答案详解
- 宁波港轮机员面试技巧与常见问题解答
- (新版)无人机驾驶员理论题库(全真题库)
- CJ/T 216-2013给水排水用软密封闸阀
- 白介素6的课件
- 2025保险公司定期存款合同书范本
- 《t检验统计》课件
- 医学检验考试复习资料
- DBJ50T-建筑分布式光伏电站消防技术标准
- 某工程消防系统施工组织设计
- 军事训练伤的防治知识
- 应急管理理论与实践 课件 第3、4章 应急预案编制与全面应急准备、应急响应启动与科学现场指挥
- KCA数据库试题库
评论
0/150
提交评论