版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、PAGE PAGE 59企业大数据平台建设方案目录 TOC o 1-3 h z u HYPERLINK l _Toc528762939 1 大数据平台建设方案 PAGEREF _Toc528762939 h 5 HYPERLINK l _Toc528762940 1.1 大数据服务工程平台架构 PAGEREF _Toc528762940 h 5 HYPERLINK l _Toc528762941 1.2 信息资源共享服务平台建设原则 PAGEREF _Toc528762941 h 8 HYPERLINK l _Toc528762942 1.3 数据快速汇集 PAGEREF _Toc528762
2、942 h 9 HYPERLINK l _Toc528762943 1.3.1 数据资源分析 PAGEREF _Toc528762943 h 9 HYPERLINK l _Toc528762944 1.3.2 数据整合流程节点 PAGEREF _Toc528762944 h 10 HYPERLINK l _Toc528762945 1.3.3 技术路线 PAGEREF _Toc528762945 h 10 HYPERLINK l _Toc528762946 1.4 数据混合存储 PAGEREF _Toc528762946 h 11 HYPERLINK l _Toc528762947 1.4.1
3、 结构化并行数据库 PAGEREF _Toc528762947 h 12 HYPERLINK l _Toc528762948 1.4.2 统一大数据处理平台 PAGEREF _Toc528762948 h 29 HYPERLINK l _Toc528762949 1.4.3 大数据管理平台功能 PAGEREF _Toc528762949 h 34 HYPERLINK l _Toc528762950 1.5 数据多维管理 PAGEREF _Toc528762950 h 38 HYPERLINK l _Toc528762951 1.5.1 元数据管理 PAGEREF _Toc528762951 h
4、 38 HYPERLINK l _Toc528762952 1.5.2 数据资源库管理 PAGEREF _Toc528762952 h 39 HYPERLINK l _Toc528762953 1.5.3 数据预加工管理 PAGEREF _Toc528762953 h 40 HYPERLINK l _Toc528762954 1.5.4 数据质量管理 PAGEREF _Toc528762954 h 40 HYPERLINK l _Toc528762955 1.5.5 数据生命周期管理 PAGEREF _Toc528762955 h 42 HYPERLINK l _Toc528762956 1.
5、5.6 数据处理过程管理监控 PAGEREF _Toc528762956 h 42 HYPERLINK l _Toc528762957 1.6 通用数据分析模型 PAGEREF _Toc528762957 h 43 HYPERLINK l _Toc528762958 1.6.1 综合查询 PAGEREF _Toc528762958 h 43 HYPERLINK l _Toc528762959 1.6.2 分类统计、排序 PAGEREF _Toc528762959 h 43 HYPERLINK l _Toc528762960 1.6.3 数据比对 PAGEREF _Toc528762960 h
6、44 HYPERLINK l _Toc528762961 1.6.4 活动轨迹PGIS应用 PAGEREF _Toc528762961 h 44 HYPERLINK l _Toc528762962 1.6.5 智能报警 PAGEREF _Toc528762962 h 45 HYPERLINK l _Toc528762963 1.7 数据资源共享服务平台门户 PAGEREF _Toc528762963 h 45 HYPERLINK l _Toc528762964 1.7.1 平台门户功能 PAGEREF _Toc528762964 h 45 HYPERLINK l _Toc528762965 1
7、.7.2 界面设计原则 PAGEREF _Toc528762965 h 46 HYPERLINK l _Toc528762966 1.8 管理体系建设 PAGEREF _Toc528762966 h 47 HYPERLINK l _Toc528762967 1.8.1 数据资源管理系统 PAGEREF _Toc528762967 h 47 HYPERLINK l _Toc528762968 1.8.2 授权管理 PAGEREF _Toc528762968 h 47 HYPERLINK l _Toc528762969 1.8.3 日志管理 PAGEREF _Toc528762969 h 47 H
8、YPERLINK l _Toc528762970 1.8.4 运行监控 PAGEREF _Toc528762970 h 48 HYPERLINK l _Toc528762971 2 项目实施与管理 PAGEREF _Toc528762971 h 48 HYPERLINK l _Toc528762972 2.1 实施计划 PAGEREF _Toc528762972 h 48 HYPERLINK l _Toc528762973 2.2 实施周期 PAGEREF _Toc528762973 h 49 HYPERLINK l _Toc528762974 2.3 项目建设机构 PAGEREF _Toc5
9、28762974 h 50 HYPERLINK l _Toc528762975 2.4 人员配置 PAGEREF _Toc528762975 h 51 HYPERLINK l _Toc528762976 2.5 项目沟通 PAGEREF _Toc528762976 h 52 HYPERLINK l _Toc528762977 2.6 项目文档管理 PAGEREF _Toc528762977 h 52 HYPERLINK l _Toc528762978 3 应急处置预案服务 PAGEREF _Toc528762978 h 53 HYPERLINK l _Toc528762979 3.1 系统故障
10、应急流程说明 PAGEREF _Toc528762979 h 53 HYPERLINK l _Toc528762980 3.2 数据中心机房应急服务 PAGEREF _Toc528762980 h 55 HYPERLINK l _Toc528762981 3.2.1 机房漏水应急预案 PAGEREF _Toc528762981 h 55 HYPERLINK l _Toc528762982 3.2.2 设备发生被盗或人为损害事件应急预案 PAGEREF _Toc528762982 h 56 HYPERLINK l _Toc528762983 3.2.3 机房长时间停电应急预案 PAGEREF _
11、Toc528762983 h 56 HYPERLINK l _Toc528762984 3.2.4 通信网络故障应急预案 PAGEREF _Toc528762984 h 57 HYPERLINK l _Toc528762985 3.2.5 不良信息和网络病毒事件应急预案 PAGEREF _Toc528762985 h 57 HYPERLINK l _Toc528762986 3.2.6 黑客攻击事件应急预案 PAGEREF _Toc528762986 h 59 HYPERLINK l _Toc528762987 3.2.7 服务器软件系统故障应急预案 PAGEREF _Toc528762987
12、 h 59 HYPERLINK l _Toc528762988 3.2.8 核心设备硬件故障应急预案 PAGEREF _Toc528762988 h 60 HYPERLINK l _Toc528762989 3.2.9 业务数据损坏应急预案 PAGEREF _Toc528762989 h 60 HYPERLINK l _Toc528762990 3.2.10 雷击事故应急预案 PAGEREF _Toc528762990 h 61 HYPERLINK l _Toc528762991 3.3 系统应急预案处置保障 PAGEREF _Toc528762991 h 62 HYPERLINK l _To
13、c528762992 3.3.1 应急预案启动原则 PAGEREF _Toc528762992 h 62 HYPERLINK l _Toc528762993 3.3.2 应急预案指挥原则 PAGEREF _Toc528762993 h 62 HYPERLINK l _Toc528762994 3.3.3 应急保障措施 PAGEREF _Toc528762994 h 62 HYPERLINK l _Toc528762995 4 售后服务方案 PAGEREF _Toc528762995 h 63 HYPERLINK l _Toc528762996 4.1 售后服务期限 PAGEREF _Toc52
14、8762996 h 63 HYPERLINK l _Toc528762997 4.2 售后服务内容 PAGEREF _Toc528762997 h 64 HYPERLINK l _Toc528762998 4.3 响应时间 PAGEREF _Toc528762998 h 64 HYPERLINK l _Toc528762999 4.4 服务体系 PAGEREF _Toc528762999 h 64 HYPERLINK l _Toc528763000 4.4.1 支持服务 PAGEREF _Toc528763000 h 64 HYPERLINK l _Toc528763001 4.4.2 咨询服
15、务 PAGEREF _Toc528763001 h 65 HYPERLINK l _Toc528763002 4.4.3 部署服务 PAGEREF _Toc528763002 h 66 HYPERLINK l _Toc528763003 4.4.4 故障排除服务 PAGEREF _Toc528763003 h 67大数据平台建设方案大数据服务工程平台架构园区信息化进入“大整合、高共享、深应用”阶段后,数据种类不断丰富、总量急速增长、结构不断异化,大数据体系已见形成,基于大数据特征构建园区信息化数据中心总体架构及信息资源服务平台结构,是云计算、大数据技术在园区信息化建设中落地与深化应用的新课题.
16、区别于商业大数据的政务大数据特征:目前在商业上,特别是针对互联网的商业领域,对“大数据”(Big Data)已经有了一个比较清晰的定义,它一般是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”通常用数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)以及处理速度快(Velocity)4个V来概括大数据的特征。当前智慧环保产业园区大数据服务工程面临的“大数据”现状显然无法直接套用上述商业领域的定义。智慧环保产业园区是一个以政府部门(管理委员会)为主导,融合各种服务与管理部门,对园区企业进行管理,提供服务的场所。政府部门在体系
17、中掌握主导权并拥有众多数据,但在工程建设过程中必须尊重企业的信息安全和商业机密保护,整体建设程序一个复杂的态势,从信息资源角度看,智慧环保产业园区大数据服务工程的“大数据”有如下三个显著特征:(1)企业数据资源相对私有,仅可提供对政府开放。商业上“大数据”一个特点是数据来源是公开的,商业“大数据”公司一般是通过独有的应用利用公开数据为客户提供服务,而园区的“大数据”主要是来源于企业和园区内部,也有一部分会来自政府其他行业部门、商业化的社会公司,同时还包括一些来自互联网资源。但这些数据绝大部分最终是归企业和园区各部门私有的。且一般情况下不可能直接提供给第三方,但园区提供社会服务的组织特性又让其具
18、有对外服务的需求。如园区的人口数据,公安部门明确规定为“私有”数据,此类数据一般不可能完全交给第三方处理,但这个数据又必须对外提供相应的服务,类似的情况还有企业商业机密等数据。(2)数据分布统分结合,且以结构化数据为主。目前园区信息化建设尚处在以数据库为核心的传统信息系统建设阶段,所以无论是企业还是园区,占数据绝大多数的部分是结构化数据;并且,这些数据分散分布在园区各企业和服务部门处,又会周期性汇总到管委会处,数据分布城西统分结合,结构化为主的特点。(3)企业、部门壁垒森严,共享应用是最大难点。这是大数据工程建设过程中一个显著的特点。从根本上讲,“大数据”工程就是想把原本分散的资源聚集起来,再
19、以服务的形式提供给受众。但是,园区内部不同的成员之间往往在资源和信息方面是呈现不对称的情况的。如何促进资源,特别是数据在园区内部聚集和共享,是智慧环保园区大数据服务工程“大数据”应用的最难,也是最终要解决的问题。因此,建设一个园区统一的数据中心,是“大数据”工程的关键起步。这个项目的建设目的,其核心是整合原有分散在各个部门、各个企业中的数据,这里要注意,是整合而不是绝对的汇聚,即把所有数据汇聚到某个中心,是针对智慧环保产业园区的特点,按照“汇聚整合是原则,分布处理是例外”的总体原则,有策略、有计划的整合和共享多个系统的数据,特别注意是在进行海量数据分析时,必需进行统一的一体化分布式处理。这其中
20、包含了三方面的主要内容:一是数据以及接口服务的标准与规范,包括数据模型。这个与传统单点的处理差别不大,增加的内容是在数据模型建设中需要更多的考虑分布式数据的标准规范及之间的相关性。二是数据处理框架和相应的平台。这部分从技术上讲和传统区别很大,不但需对传统的、单点状态下的关系型数据进行优化处理,更不是单单引入目前所谓商业上成熟的大数据技术平台,如Hadoop平台等,而是必须结合上述园区数据现状的三个特征,特别是目前以分布的结构化数据为主的这一特征,建设一个基于服务总线的以分布式并行处理模式为主,引入商业大数据技术和优化传统处理模式为辅的综合处理框架。三是平台应用最终落脚点在体现业务价值。信息资源
21、服务平台建设的最终目的是希望经过处理和分析后的数据,不但能够全局共享,实现查询、比对、统计等基础应用,更需要支撑进一步的深度应用,比如趋势预测、辅助决策等,这样才能最大限度的体现信息资源服务平台建设的业务价值。因此,智慧环保园区大数据服务工程平台必须本着“前瞻思维、落地实现”的规划和建设原则,基于园区大数据特征, 以云计算、大数据处理等新技术为关键支撑,以数据资源汇聚整合为基础,以数据处理为核心,以服务实际应用为目标,实现园区数据中心建设从传统模式向大数据计算、云服务应用新型模式的战略性转变,同时基于数据中心总体架构建信息资源服务平台,把其作为城市信息资源服务平台和智慧城市工程总体框架中的独立
22、节点开展建设,基于数据服务总线、请求服务系统、数据接入平台,建设以分布式并行处理模式为主、引入商业大数据技术和优化传统处理模式为辅的综合处理框架,实现跨系统、跨部门的交换共享、集成联通、服务联动、一体化应用。基于智慧环保产业园区大数据特征构建的园区综合信息资源服务平台结构,由数据汇集、数据存储、数据管理、数据服务、数据分析、安全防护等部分构成。信息资源共享服务平台建设原则信息资源共享服务平台实现汇总数据的统一存储,实现汇总数据的标准化,对汇总数据进行归纳索引,对汇总数据进行业务分类,对汇总数据进行关联,对汇总数据进行统一管理。信息资源共享服务平台的功能定位:信息资源汇聚的中心仓库,数据服务共享
23、的统一窗口,高端综合应用的信息源头,基础应用发展的拉动引擎。与现有业务数据相对融合现有业务数据和信息资源共享服务平台的作用、服务对象、出发点不同,要求业务数据库和信息资源共享服务平台建设既相关又独立。做到:基础数据与业务数据统一存储;数据拥有、使用权限分离管控;数据处理采用统一框架,增加数据处理效率,维护数据的安全性。要素关联在组织信息资源服务平台的过程中按照各要素信息,实现数据、要素之间的无限关联关系。应用导向建设信息资源共享服务平台的最终目标就是为了以综合库为基础开展各种服务应用,所以系统设计必须以支持应用服务为目标导向,能够支撑不同综合应用的需求。标准化信息资源共享服务平台是各部门、企业
24、信息化实现数据共享的统一服务,所以信息资源共享服务平台的数据元、逻辑结构和信息代码标准及应用接口都应实现标准化和规范化,以保证园区信息共享和应用支持。扩展性信息资源服务平台设计应能够满足数据源、数据内容和数据格式不断变化,方便实现更多种类数据的汇聚及更多应用的开展。开放性信息资源服务平台是各类综合应用的基础,必须具有很好的开放性,方便内外数据服务共享。数据快速汇集基础数据整合汇集依托复合型数据抽取整合工具,按照现代数据仓库建设的理念和流程,汇集公安内外部数据资源。数据资源分析数据整合资源来源包括园区云平台服务数据、园区政府部门业务数据、园区企业管理平台系统数据、地理信息系统数据、平安园区综合监
25、控平台数据等条线系统数据、电子政务数据、社会信息数据、移动互联网数据。汇聚整合资源数据种类包括数字、文本、图表、视频、音频、地理空间等结构化、半结构化、非结构化数据。数据整合流程节点第一步,数据接入缓存:数据汇集平台建设,基于数据服务总线整体框架,通过公共数据交换平台和请求服务平台,实现将公安内网数据源的数据汇聚缓存至数据平台数据缓冲层;通过数据接入平台实现社会信息数据、电子政务数据、移动互联网数据的接入数据缓存层。第二步,数据ETL:数据汇集平台数据整合集成在梳理园区政务服务业务流程与信息资源的基础上,建立数据整合的业务逻辑和数据模型,采用可视化ETL工具,进行数据抽取、转换、清洗、加载等基
26、础功能,并可根据业务逻辑新增或变更ETL数据情况过程。第三步,数据存储:数据汇集平台数据整合最终采用物理集中方式进行存储,经过ETL清洗的数据根据实际业务的需求,频繁比对数据存于基于Spark内存数据库的数据存储空间,静态数据存储于基于Hadoop文件系统的Hive或Hbase存储空间。技术路线数据汇集技术难点主要集中与数据清洗ETL过程,由于整体数据量庞大且数据来源多种多样,为数据ETL工具的性能和全能型提出更高层次的要求。本次ETL设计选型充分考虑性能和功能两个角度,性能上充分利用数据总线调度框架,接入调用Spark并行任务框架,采用可动态调节多线程ETL处理架构,充分发挥大数据中心的性能
27、,提升数据入库及清洗的效率;功能上集成针对结构式数据库、非结构化文件数据、流式数据等多种数据接入模块,为智慧环保产业园区大数据服务工程建设提供全部可扩展的支撑。其技术路线如下:数据混合存储数据存储层基于分布式混合型存储架构,构建源头数据汇聚库和系列服务应用专题库等数据库群,在存储介质上选择MPP数据库、Hadoop数据仓库、Spark内存数据三者融合存储架构,为不同类型数据选择不同数据存储介质,保证数据存储及处理的高效性、开放性与扩展性;结构化并行数据库对于经过前端数据采集系统预处理后形成的海量数据结构化数据来说,是一些能够存储在数据库中的行数据,可以用二维表结构来表达实现,这部分数据必须实现
28、实时入库和查询分析。由于其数据量非常巨大,所以海量数据存储分析平台的结构化数据处理子系统将采用具有较好扩展性能的集群数据库系统。加载到目的分析数据库中的数据可对用户提供实时的过滤和统计查询,满足用户各类的数据分析和数据挖掘应用,同时用户还可以根据具体的分析和挖掘需求,设计自定义的查询任务流,以满足广泛的应用需求。海量数据存储分析平台的结构化数据处理子系统采用专为分析网络监控数据设计的并行数据库中间件XData-DRAC,该系统已成功部署在国家某大型项目、某市大型项目等多个系统中,其底层采用无共享(shared-nothing)的oracle数据库节点作为数据节点,具有较好的扩展性和系统可靠性。
29、系统软件将用户的操作透明地转化成对底层数据库的操作,而对用户呈现为单一的数据库系统映像。另外,子系统采用低成本的存储服务器搭载数据库节点,并可根据数据的访问频度和重要性进行划分,实施多级存储的方案,降低整个系统的TCO,提高系统的性价比。系统架构下图是结构化数据处理子系统XData-DRAC的系统架构。系统中的节点分为两大类:存储数据的数据库节点和提供并行数据管理功能的服务节点。后者包括:加载服务、查询服务、数据复制和数据定义服务。所有类型的节点个数均可根据容量和性能的需要而灵活配置。数据库节点采用具有大存储容量的、高性能、高性价比的存储服务器。节点上安装单机版的Oracle数据库管理系统。按
30、照一定的数据划分策略(目前数据划分支持Hash、Range、List和Round-robin分布策略),每个数据库节点保存全部的复制数据和分片数据表的一部分。每个数据库节点上数据均可使用Oracle的索引、分区等特性。数据库的功能被分成加载、查询、数据复制、数据定义等服务,每种服务部署在单独的物理节点上。任一服务节点均建立到所有的数据库连接。加载节点启动若干个加载线程,线程将一批数据写入某一数据库节点。由于海量数据分布存储在各数据库节点上,查询服务首先并行地在处理各数据库节点上的局部数据得到中间结果,然后将中间结果汇总成最终结果。复制数据是指将一个表的数据同时存储到一组数据库节点上,以此避免两
31、个表的连接操作。数据复制服务专用于处理这部分数据的操作。它通过分布式事务在有关节点上同时执行事务操作,保证复制前后数据都是一致的。数据定义服务用于维护系统的元数据,它并行地执行表结构、表空间和其它数据库模式改变等元数据操作。采用这种服务分离的设计,用户可以灵活地配置各种服务的个数,以达到整个体统资源的最佳利用。图 XData-DRAC系统架构XData-DRAC子系统采用Shared-Nothing的架构,即所有存储数据的数据库节点除互联网络外,不共享任何资源。除此之外,并行数据库还有Shared-Memory和Shared-Disk两种架构。学术界普遍认为,Shared-Nothing架构有
32、很强的扩展性。另外,系统不需要存储网络设施,也不依赖于昂贵的高端盘阵。这样可以很好降低用户的硬件成本,在大规模部署时有很高的性价比。Shared-Memory结构是多个处理器通过内存总线与多个共享内存相连接,再通过I/O总线共享多个存储设备。Shared-Memory 结构是典型的向上扩展类型,即在单节点上加入更多的处理器、内存、磁盘和网卡。典型的Shared-Memory结构是RISC架构的SMP小型机,多家厂商的产品已经证明,在常规商务负载环境下,SMP 服务器能够提供 10 倍于单处理器系统的向上扩展能力。然而,随着 CPU 个数增多,共享的内存带宽成为瓶颈,同时多处理器竞争降低了系统总
33、线的利用率,因此Shared-Memory 结构难以扩展到大规模。比如目前业界处理性能最强的IBM Power 795,其配置可达到32路8核,面向大型数据库应用,却依然无法处理海量的300TB数据。另外,由于大容量的Shared-Memory结构数据库节点采用价格昂贵的小型机,成本很高,在面向非事务处理的网监系统数据存储分析中不采用。Shared-Disk结构中每个节点有自己的内存,共享磁盘。每个节点都可以读取和修改所有数据。通过分布式的并发控制机制来保证数据一致性。随着节点数增多,并发开销增大,因此商用 Shared-Disk构建的实用数据库系统一般只有 6-8个节点。在系统中,单元数据库
34、除了采用单机Oracle之外,还可以采用Shared-Disk的并行数据库,如Oracle RAC。这是一种融合了Shared-Disk和Shared-Nothing结构的系统,可以扩展到更大的规模。但是,即使采用Oracle RAC,也无法满足上百TB的数据量需求。Shared-Nothing 结构属于多处理单元多数据单元结构。Shared-Nothing 环境下,每个处理器有自己的内存和磁盘存储设备,所有处理器通过节点间互连网络进行连接,对于节点间通信少、返回结果集少的应用(如数据仓库或DSS),具有良好的扩展性。可达数千个节点。Shared-Nothing架构下,数据库节点如果失效将导致
35、数据不可访问。XData-DRAC提供了双写的策略,对于要求高的数据存储在两个节点上。只要有一个节点存在,数据仍然及时可用。根据系统建设的需求,通过以上数据库架构的分析对比,可以看出,Shared-Memory和Shared-Disk在存储容量上都会达到瓶颈,无法适用于网监系统的海量数据实时分析场景当中,故结构化数据处理子系统应当采用高扩展、高性价比的Shared-Memory并行数据库架构。XData-DRAC是位于客户与数据存储之间的一层中间件软件,对上要提供统一的客户端程序的接口,对下要支持对多个数据存储系统的数据加载、数据查询、数据备份、数据统计和管理功能。底层的数据管理系统包括数据库
36、(结构化数据)和文本检索(半结构化或非结构化数据)系统。整体的软件功能模块结构示意图,如下图所示。XData-DRAC系统对使用者做到位置透明、副本透明、并发透明和故障透明等四个透明。 如下图所示,前端为客户端程序接口,它为客户端提供访问海量数据处理的通道;后端由若干独立运行的数据库系统,或者文本检索系统组成,负责具体的数据加载存储、索引、查询和检索、以及管理;中间层由若干服务中间件组成,对上屏蔽数据分布存储和请求的分布执行细节,同时为客户提供一个单一的运行接口和环境,对下协调多数据服务器的数据分布和协同工作。图 XData-DRAC系统软件结构XData系统中间件服务主要可以分为以下四部分:
37、各类服务程序,对外提供数据服务的接口,并对用户请求进行处理。主要包括数据加载服务,查询服务,配置管理服务,数据定义服务,以及服务管理。服务内部的公共模块,为各类服务提供所需的信息,包括数据分布信息,异常处理模块,全局的消息服务,负载均衡策略,以及日志管理模块。辅助的服务和任务。主要包括数据备份和恢复,系统的容错和故障处理,数据统计,以及定时任务管理等。对底层的数据访问接口。主要包括连接池管理和各类数据访问的驱动。XData-DRAC是一个通用的海量结构化数据处理平台,各服务模块均分为客户端接口封装和服务器端程序两部分。对外屏蔽了客户端和服务器端的通信细节。并将所有服务的客户端接口封装成XJDB
38、C(编程和使用风格类似于JDBC,可减小应用迁移和用户学习成本)接口的动态链接库。对应用程序来说,采用XJDBC接口对数据对象进行访问和管理,看到的是一个单一的数据处理系统映像。因此客户端程序并不需要判断连接哪台服务器上的哪个具体的服务进行操作。关键技术XData-DRAC是一套完整的并行数据库系统,除上述特征外,下面再给出并行加载、并行查询和数据双写等关键技术。数据划分和存储组织XData-DRAC的存储划分成了四个层次:记录,分区,节点何节点组。一条记录是数据的最小元组,表示数据库的一行,有相同属性的多条记录可以组成一个分区,而节点和节点组是服务器层面的划分,一个节点包含多个数据分区(虚分
39、区),多个节点组成一个节点组。XData-DRAC系统支持数据在某个节点组内的节点间的多样化的数据分布策略,包括hash,range,list的分区策略,即数据按照某一列的属性值,存储在某些特定的节点上,可以加速数据查询的速度。此外XData-DRAC还支持round-robin的数据分布,即数据按照轮询的方式,均匀的分布到所有的数据节点。为了适应节点数的动态扩展,XData-DRAC采用了一种虚分区的技术,即分区和节点是多对一的关系,每个节点包含多个虚分区。P1P2P5P6P3P4P7P8节 点 1节点组P9P10P13P14P11P12P15P16节 点 2存储划分: 记录分区节点节点组图
40、 数据存储划分虚分区的数据存储划分如上图所示, 每个表定义时需要指定一个节点组,包含若干数据节点。分区表进行存储划分时,每个节点包含若干分区(也叫虚分区),分区数量可以设定为CPU的核数2,或者更多。因此分区表的存储划可以分为分区,节点和节点组的三层包含关系。当系统规模扩大时,比如往节点组中增加新的节点时,需要对在线数据进行迁移,以保证节点组内各节点间的数据均衡。采用虚分区技术,数据迁移时只需将一定数量的分区整体迁移到新增节点,避免了重新分区的开销,同时也可以保证节点间的最小数据迁移。并行实时加载提高系统加载能力的关键是提高单机加载能力和充分利用系统资源。系统的并行加载技术包括如下层面上的设计
41、。1)单线程直接路径加载。加载线程使用预处理过程将被写数据的格式告知数据库,然后接受客户端的一大批记录,以直接路径加载的方式一次性将数据写入数据库。这是Oracle提供的最快的在线数据加载方法。2)单机多线程同时加载。每个加载节点都维护一个线程,当有请求到达时,即分配一个线程向某一个数据库节点加载。这样能充分利用加载节点的带宽和计算资源,提高其利用率。3)多数据库并行加载。每个加载节点的多个线程可以同时向多个数据库并行加载。当加载节点较多的时候,可以充分利用数据库的加载能力,使系统的加载性能达到最大。上述三种设计的考虑使系统能提供很高的加载速度和近似线性的加载扩展比。数据均衡是Shared-N
42、othing架构的并行数据库要解决的一个重要问题。在采用round-robin的数据划分策略时,解决数据均衡的关键是避免某个节点上的数据过多。出现这种情况,将导致该节点上的查询任务完成地最晚,因为并行任务的完成时间取决于最慢的操作,所以会导致查询扩展性严重下降。系统每次都选择当前加载量最小的节点进行加载,保持当前的数据均衡。如果某个数据库节点失效后重新启动,导致一段时间内加载量过小,后续就会出现短期内加载过多的情况。针对面向流数据应用,采取周期性计数的方法。当超出一个周期后,计数归零。在上述情况发生时,上个周期数据量不会影响到下一个周期的数据平衡。并行查询查询请求分析器将查询语句分解成查询任务
43、流图,其主要流程如下图所示。主要包括查询语句的确性检查,词法分析,语法分析,语义分解和生成查询算子任务流图这四个步骤。图 XData-DRAC系统查询分析流程词法分析:将查询语句分解成单词序列。语法分析:语法分析将单词序列按照查询语句的关键字进行结构划分。语义分解:语义分解,将进行结构划分的查询语句拆分成多个可以独立执行的子句,这些子句不含有联合查询和嵌套查询。生成查询任务流图:将查询子句转化为可并行执行的查询任务流。每个查询子句又称为查询算子,是指可独立在某个数据库节点执行的查询操作。而查询任务流图是指可被并行运行的任务序列,每个查询任务是一个4元组。下图是一个查询任务流图的示例。算子1算子
44、2算子2算子4算子5图 查询任务流图查询任务流图是查询语句在海量数据处理平台上的执行计划,指出各任务间的依赖关系和执行顺序。可表示为任务序列,其中S是指同步点,可视情况加在任务间, Tx是指任务。通用的并行查询执行框架读取查询任务流图作为输入,输出最终的查询结果。并行查询执行框架是XData-DRAC系统的核心,所有的并行查询任务流,均可通过并行查询执行框架运行,并返回最终结果。所有的查询计算均在数据库节点执行,查询服务器主要负责任务流执行的同步控制、数据传输和结果汇总,不参与查询任务的具体执行。查询节点作为并行任务的控制节点,负责查询请求的分解和执行控制,并汇总最后的查询结果。所有的查询任务
45、(除最后的查询结果汇总以外)均运行在数据库节点,充分利用节点间的并行性。查询处理时的中间结果采用文件进行组织存储,比如在结构化数据处理方面,利用Oracle数据库的外部表特性,文件的数据写入速度是数据库表写入的10倍以上,而测试表明外部表的查询性能和内部表接近,但可以答复提升查询中间结果的写入速度。数据分派方法:通常情况下是hash分派,即将结果按照某一列的值进行hash,并按照目标节点节点数进行取模分派。此外针对某些特殊查询模式,可采用范围分派进行优化。用户自定义任务流处理XData-DRAC数据处理平台支持用户自定义的数据处理任务,以适应更广泛的应用类型。用户提交的SQL语句,通过SQL解
46、析,生成并行查询任务流,任务流由并行查询引擎执行,得到最终的查询结果。由于查询服务的SQL解析和并行查询引擎是两个独立的模块,因此用户可以通过SQL解析模块将查询分解成任务流输出,对任务流进行修改,作为并行查询引擎的输入。通过支持用户自定义的并行查询任务流,XData-DRAC可以支持任何查询类型。用户自定义的并行查询任务流的执行过程如下图所示。图 用户自定义并行查询任务流执行XData-DRAC通过提供SQL解析和并行查询引擎模块的对外接口来实现用户自定义的任务流执行。并行查询任务流采用配置文件的格式进行描述。可在SQL解析完成的并行任务流基础上进行修改,避免查询任务流的格式出现错误。在用户
47、自定义的并行查询任务流中,也可嵌入用户自定义的方法,比如说嵌入一些开源的数据挖掘算法和数据处理的方法,对每个任务的结果进行处理。在使用时,只需提供自定义方法的代码或者函数连接库。抽象数据访问驱动抽象数据驱动是XData-DRAC对底层各种类型数据访问的接口,采用portable的设计,针对不同的数据类型,可添加或者转载新的驱动。特别地,对于结构化数据,目前支持对Oracle数据库的访问,对于文本索引,设计支持对Lucene文本索引访问接口的支持。当有新的数据类型加入时,可通过添加新的驱动库增加对新数据类型访问的支持。LuceneLucene访问接口DB访问接口通用数据访问驱动层其他数据访问接口
48、DBFS图 通用数据访问驱动层通过统一的数据驱动层,可以屏蔽数据访问的细节,将对不同类型数据的访问,统一在通用海量数据处理平台下,简化了系统的设计和实现。同时也对不同数据的联合查询分析提供了基础,实现对不同类型数据的通用处理。比如常见的数字图书馆等应用,将文本检索和数据库查询相结合进行数据分析,包括先进行文本关键字检索相关文献,再进行数据库查询得到作者和出版等明细数据;或者进行数据库的作者和出版相关信息查询,然后进行文本抽取等查询。在对各类数据进行查询和检索时,用户采用统一的类SQL语句表达查询请求,无需知道底层的数据组织和查询处理的细节,能够满足广泛的应用需求。采用类SQL的查询请求设计,规
49、范了用户的数据访问,简化了查询处理,同时也能支持更多的应用类型。数据双写对于要求数据可靠性和可用性要求很高的用户,XData-DRAC提供数据双写功能。如下图所示,每个数据库节点上创建两个数据库,如d1和d2是同一物理机上的两个数据库。节点之间的数据库做完全镜象,数据在写入的时间同时保存在镜象的两个数据库中。图中给出了交错的镜象关系,除任一数据库节点失效后数据仍可用外,上面或下面所有数据库节点损坏,系统中的数据仍然可用。d1d2d3d4d5d6d7d8d9d10d111d12d13d14d15d16图 XData-DRAC的数据双写系统优势作为成熟、先进、高效的并行数据库系统来说,XData-
50、DRAC打通了传统oracle数据库处理能力的瓶颈,解决了海量结构化数据分析处理与存储的需求。采用XData-DRAC作为海量结构化数据存储分析的解决方案,具有以下众多优势。高可用系统采用多种方式提高系统的可用性,完全可以提供7*24小时无间断运行。按离用户的远近,其高可用性包括如下层面:高可用的负载均衡机制。标准情况下配置两个负载均衡器,当其中一个不可用时,客户端接口库自动使用另一个,因此负载均衡器是高可用的。高可用的服务。每种服务(加载、查询、复制引擎)都可以配置在多个物理服务器上,只要还有一个可用,这种服务就是可用的。高可用数据库。系统配置多个互相独立的数据库节点。当某个数据库出现故障时
51、,这种故障分临时性故障、节点宕机和数据损坏三种情况。如果是临时性的故障或节点宕机,正在进行的查询不能获得这部分数据的结果,但其余节点上的计算结果会返回给用户并提示“结果集不完整”。当节点宕机时,这种状态要持续到机器重新启动为止。启动双写机制后,即使数据库失效,数据也不会丢失,并且随时可用。扩展性对于系统来说,只要增加数据库节点,系统的容量可随即增加。与此同时,所有数据库的处理能力近似为整个系统的处理能力,也随之扩展。当系统规模扩大时,系统的性能表现,即扩展性是并行系统的重要特征。达到所有数据库的写速度之前,数据加载的性能和加载节点的个数呈近线性的增长。大部分的查询则随数据库节点个数的增加,也呈
52、近线性的结果。根据应用的实际需求,用于加载和查询等任务的服务器可以方便地增加和删除,但系统总的处理能力主要受数据库节点能力的限制。所有节点均可在不中断业务的情况下进行。软件也可以实现在线升级。系统在生产系统的部署中超过40个数据库节点,处理的数据量超过800TB。系统备份恢复系统高可用性的介绍中已经从4个层面上介绍了在部分设备出现故障的时候系统如何保证对外服务的连续可用性。在未发生数据丢失的情况下只需替换故障设备,重新加入系统,即可恢复故障。为了防范出现数据丢失的严重故障,系统提供备份工具dmbk,它分别从各数据库节点导出需要的数据,经过压缩后存储在备份介质上。当需要时,它从备份介质上读出数据
53、,解压缩后导入原数据库。简易管理系统的各种服务及数据库节点均是“逻辑节点”,它们可以部署在任何的物理节点上,因此针对特定的系统结构,只需指明“逻辑节点”和“物理节点”的映射关系,即可用工具简易完成包括底层数据库在内的整个的系统部署。它可以部署在包括单个节点在内的任意数量机器的系统上。系统基于B/S模式进行部署、监控和管理,用户可直接通过浏览器对系统进行监管。另外,系统对外提供单一系统映像,用户使用类似ODBC或JDBC的接口提交SQL语句。这些操作被服务节点自动地并行执行。高性价比和Oracle RAC等并行数据库不同,XData-DRAC不需要光纤交换机和较高端的磁盘阵列,而是采用普通的千兆
54、以太网交换机和通用的存储服务器,硬件成本低。配合灵活部署和简易管理的工具,在大规模部署时有较高的性能价格比,保护用户投资,降低TCO。统一大数据处理平台系统架构XData大数据平台,可以实现对结构化数据XData-DRAC,非结构化数据存储和检索XData-Parastor和以及离线数据分析的hadoop系统的统一访问和管理,支持不同类型数据的处理。XData系统将节点分为两大类:存储数据的数据节点和提供并行数据管理功能的服务节点。后者根据不同的功能划分,包括:加载服务、查询服务、数据复制和数据定义服务。所有类型的节点个数均必须支持根据容量和性能的需要而灵活配置。数据节点是带独立存储系统的存储
55、服务器。每个节点上既可以安装单机版的数据库(如Oracle/Postgresql等数据库)管理系统,或者部署成分布式文件系统的数据节点(如Hadoop系统中的HDFS的DataNode),以及这些数据存储和处理系统的复合。XData大数据的中间件软件服务按照其功能可以被分成加载、查询、控制配置、数据定义等服务,每种服务部署在单独的物理节点或者单独的虚拟机上,以达到每个服务程序的相互隔离性。任何一个服务节点均建立到所有的数据节点的连接。其中加载节点启动若干个加载线程,线程将一批数据写入某一数据库节点。由于海量数据分布存储在各数据节点上,查询服务首先并行地在处理各数据节点上的局部数据得到中间结果,
56、然后将中间结果汇总成最终结果。数据控制配置服务专用于对数据修改操作,保证集群环境下的数据修改的事务性。数据定义服务用于维护系统的元数据,它主要负责整个系统的对象定义、存储组织、增删改操作和其它数据模式改变等元数据操作。采用这种服务分离的设计,用户可以灵活地配置各种服务的个数,以达到整个体统资源的最佳利用。图 系统整体架构上图给出了XData 大数据平台系统的整体结构设计。大数据处理系统在客户与数据存储之间构架了一层中间件软件,对上要提供统一的客户端程序的接口,对下要支持对多个不同数据存储系统的数据加载、数据查询、数据备份、数据统计和管理功能。底层的数据管理系统包括数据库(结构化数据)和Hado
57、op(非结构化数据)系统,本版本主要针对Hadoop的半结构化和非结构化数据的处理。大数据处理系统实现对数据的逻辑划分功能,支持按照数据语义对数据进行Hash,Range,List和Round-robing的划分策略。针对结构化数据处理的数据库系统,每个数据节点保存整个数据集的一部分。每个数据节点上数据均可使用成熟的数据库的索引、分区等特性。针对非结构化数据处理的Hadoop系统,则可以将应用数据划分成不同的文件(或者文件夹),每个文件(或文件夹)保存数据集的一部分,表示符合某个特定属性的数据集合。关键技术XData大数据处理平台,是在XData-DRAC 结构化数据处理系统的基础上,增加对非
58、结构化数据的处理,实现结构化和非结构化数据的统一处理。该系统的关键技术包括以下几个方面:支持Hadoop/HBase/Hive和Database的柔性系统架构XData支持对Hadoop/HBase/Hive的数据处理模式,同时也支持对Oracle/Postgresql的数据库处理方式,对外提供统一的数据处理访问接口,系统结构可以随着数据量进行柔性配置,最大支持的节点数不低于256个,总数据量不低于16PB。实时分析和离线分析的融合技术XData大数据平台能够同时支持结构化和非结构化数据的处理,采用统一的架构,存储组织和划分,以及查询处理技术,实现海量数据的实时入库和实时查询检索,同时也提供对
59、超大规模数据量的分析处理。按照不同的查询处理类型,可分别达到如下性能指标:a) 点查询和过滤查询,达到秒级的响应速度;b) 统计类查询,可达到分钟级别的响应速度;c) 关联和嵌套查询,根据数据量的差异,执行时间从数秒到数小时不等;d) 实现对超大数据集的查询处理能力。数据的模式定义和数据划分技术支持结构化和非结构化数据的存储划分,包括数据的模式定义和物理存储定义。其中模式是指对数据的解释方式,而存储定义表示数据的存储组织方式。系统支持数据按照某类属性的Hash/Range等进行划分。提供存储参数的设置,如入库的并行度设置,数据块大小设置等。SQL/MapReduce语义定义和分析技术采用类SQ
60、L的方式,实现对SQL和MapReduce语义的定义和分解。计算语义的定义支持SQL/MapReduce的级联和关联,以及这两种数据处理方式的混合任务流定义,可以支持广泛的数据处理应用。支持SQL/MapReduce计算语义的执行控制技术通用的并行查询引擎支持对SQL和MapReduce作业的调度和执行控制,包括多个任务之间的同步控制,数据划分和传输,以及中间结果的转换等技术。其中查询服务器负责执行控制和结果采集,而所有的数据处理均在数据节点执行,充分利用多节点的并行性。大表关联查询和嵌套查询技术XData系统针对大表关联和大表嵌套等复杂计算进行了技术攻关,在国内首次实现了分布环境下的大数据关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学五年级混合运算练习题
- 小学四年级数学乘除法竖式计算题
- 小学数学二年级100以内连加连减口算题
- 高考语文模拟试题(二十)
- 2025年中考语文文言文总复习-学生版-专题01:文言文阅读之理解实词含义(讲义)
- 北京市丰台区2022-2023学年高三上学期期末练习英语学科试卷
- 房屋装修行业顾问工作总结
- 制药业行政后勤工作总结
- 《公司团队培训游戏》课件
- 演出票务公司营业员服务总结
- 普外科医疗组长竞聘演讲
- 【企业盈利能力探析的国内外文献综述2400字】
- 医学生创新创业基础智慧树知到期末考试答案2024年
- 大学生国家安全教育智慧树知到期末考试答案2024年
- 油墨组成和分类
- DB37T 5175-2021 建筑与市政工程绿色施工技术标准
- 自动喷漆线使用说明书
- 科研项目评审评分表
- 国家开放大学《土木工程力学(本)》章节测试参考答案
- 医疗器械数据分析控制程序
- 稻盛和夫经营哲学.ppt
评论
0/150
提交评论