海量数据分析平台方案设计_第1页
海量数据分析平台方案设计_第2页
海量数据分析平台方案设计_第3页
海量数据分析平台方案设计_第4页
海量数据分析平台方案设计_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 海量数据分析平台方案设计目 录 TOC o 1-3 h z u HYPERLINK l _Toc526966557 1.1 海量数据分析挖掘平台设计 PAGEREF _Toc526966557 h 1 HYPERLINK l _Toc526966558 1.1.1 系统设计 PAGEREF _Toc526966558 h 1 HYPERLINK l _Toc526966559 1.1.2 平台总体框架设计 PAGEREF _Toc526966559 h 3 HYPERLINK l _Toc526966560 1.1.3 结构化数据分析挖掘系统 PAGEREF _Toc526966560 h

2、5 HYPERLINK l _Toc526966561 1.1.4 非结构化数据离线分析挖掘系统 PAGEREF _Toc526966561 h 18 HYPERLINK l _Toc526966562 1.1.5 统一数据处理平台 PAGEREF _Toc526966562 h 20 HYPERLINK l _Toc526966563 1.1.6 统一管理监控 PAGEREF _Toc526966563 h 24海量数据分析挖掘平台设计根据当前数据建设现状和新的系统建设目标来看,既要保证对现有业务系统数据的充分利用,又要尽可能少对原有业务系统和数据的修改与交叉,比较好的一个策略是只通过业务系

3、统来交互需要的信息,另建一个数量数据分析挖掘平台用来进行相关数据的存储、分析和挖掘,而业务数据存储系统功能相对保持独立。系统设计数据分析及挖掘系统是云数据中心的核心组件,为云数据中心给上层业务应用提供数据分析服务。数据分析挖掘系统一般不直接接收原始数据,而是处理由数据加工系统处理规整之后的数据。需同时支持海量结构化数据(主要为分析数据加工系统预处理之后产生的记录、日志等信息,也包括业务应用系统对数据处理之后产生的分析结果)和海量非结构化数据(主要为从业务系统抓取的原始数据,也包括业务系统预处理之后得到的数据文件)。由业务系统产生的结构化数据具备如下特点:数据量庞大,总容量达到几十甚至上百TB写

4、入速度很高,每秒钟写入几万甚至几十万条数据记录,数据写入速度达GB级/秒;每天写入数据总量可达到40亿条,加载数据达TB级/天;单台数据库无法完成更新操作极少,数据以追加方式写入,一旦写入,几乎没有数据修改查询涉及大量的磁盘读操作,查询处理产生大量的临时结果不同类型的数据存在联合分析查询数据入库实时性要求高:数据一旦写入即要求实时可查数据访问具有时间热点特性由业务系统产生的非结构化数据具备如下特点:格式多样化(包括文本,图片,语音和视频文件等业务数据)内容复杂,需要复杂的后续计算才能得到有用数据入库时通常需要进行结构化特征提取,即非结构化数据一般可分解为结构化特征加非结构化文件相结合的形式,通

5、过文件路径(如file path或者URL)描述两者关系,以便于后续的查询分析和检索因此,在海量数据存储分析挖掘平台的构建中,必须要利用这些特点,有针对性的采用分布式处理技术,才能有效面对海量数据的处理要求。同样,对于业务系统来说,对结构化数据和非结构化数据存储分析也有着不同的使用需求。对结构化数据的存储而言,核心是并行数据库系统。最主要的需求通过多节点并行提高数据库的加载与查询性能。具体而言,就是要求结构化数据分析平台具备如下特性:高吞吐率,支持高并发加载数据可伸缩,可根据前端数据量要求弹性地调整规模快速响应,实时地将数据存下来高可用支持类SQL语义支持多节点间的数据划分策略支持过滤型及分析

6、型快速查询操作支持复杂的关联查询操作无需支持事务操作结构化数据存储平台典型的应用场景为实时数据加工系统中大量处理节点实时地将产生的日志、分析记录进行入库。因此结构化数据处理平台必须提供批量数据加载的接口,满足数据的高速入库要求。后续统计和分析业务应用通过查询语句访问这些数据,可以支持预定义的统计报表类的查询,也可以支持用户的即席查询。对于非结构化数据的存储,一般采用分布式存储系统的方式来实现。业务系统还原得到的非结构化数据,这些数据需要实时进行存储和加工,再交给分析挖掘平台或者应用做后续处理。这就要求这套系统需要实时、并发的进行文件存储,并且这里存储的一般为海量文件,具备良好的写入性能。对于海

7、量数据的分析挖掘是系统的核心,一般根据分析的特点分为在线分析和离线分析两个过程。在线分析一般算法相对简单,并且在执行在线分析过程中,系统仍支持不断的加载数据。大多数的在线分析都是基于结构化数据进行分析。对于更深度的数据挖掘、非结构化数据、和非结构化数据与结构化数据组合分析的场景,由于分析时间较长,为不影响数据的正常加载,一般放到离线分析阶段来做。这一阶段主要需要利用MapReduce的方式将计算分布化以提高性能,采用主流的Hadoop平台进行系统的搭建。海量数据存储分析挖掘平台的数据流程如下图所示:图 海量数据存储分析挖掘平台的数据流程在数据分析挖掘平台的建设中,除了要选择适合业务应用的结构化

8、数据处理平台和高质量地搭建hadoop系统外,如何将这两者有机的结合起来是建设的难点。自主研发的XData海量数据存储分析平台除了包含XData-神通进行结构化数据的挖掘处理,也包含XData-Hadoop对统一(结构化与非结构化)数据进行深度挖掘的离线处理。更重要的是,XData对外提供了一种统一的访问接口,将两者很好的结合在一起,丰富了应用的分析手段的同时,也降低了开发和管理的难度。平台总体框架设计海量数据分析挖掘平台包括六个组成部分,可实现系统存储资源的整合,对海量结构化数据、非结构化数据,在线分析以及离线分析进行统一的处理。平台总体架构如下图所示。图 平台总体架构XData的六个组成部

9、分功能如下:定制的服务器和操作系统通过对通用的服务器、存储服务器和Linux操作系统进行定制与优化,使其能够更好的适用于海量数据存储分析系统,提高系统处理效率。数据源层数据源层能够导入和导出各种数据源,包括Sqoop和Flume两个模块。其中Sqoop用于在Hadoop与传统的关系型数据库间进行数据的传递;Flume实现了对日志的收集与传输。数据存储层数据存储层实现对海量结构化和非结构化数据的并行存储,包括神通数据仓库模块、ParaStor并行文件存储系统和基于开源Hadoop的存储分析系统。其中Hive是基于Hadoop的一个离线 HYPERLINK /view/19711.htm t _b

10、lank 数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行;HBase是一个分布式的、面向列的NoSQL数据库;HDFS是Hadoop分布式文件系统。数据处理层数据处理层提供完整的分布式数据处理框架。其中MapReduce是Hadoop的并行计算框架,包含Map(映射)和Reduce(化简);SQL+为经过优化和扩展的SQL;Katta/Lucene是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分 HYPERLINK /view/3488135.htm t _blank 文本分析引擎;Data

11、 Processing Lib是自定义的数据处理库,可以实现结构化和非结构化数据的统一存储和处理,实现高速数据流的实时处理;Mahout为机器学习模块。应用层应用层对系统内的功能进行抽象与封装,并对外提供用户使用的接口,从而方便用户使用,简化操作流程。其中Search API提供数据查询API;Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口;SJDBC为自主研发的类JDBC接口,用户编程只需要

12、头文件和库文件;UDF为用户定义的函数,根据用户实际应用的需要而自行开发的函数;Hive QL为Hive的查询语言模块。系统管理层系统管理层对整个XData海量数据存储分析平台进行监管,功能包括系统、日志管理、账户管理、配置管理、资源调度和系统高可用。结构化数据分析挖掘系统数据仓库系统数据仓库模型设计技术服务实现航天数据仓库建设,包括对数据仓库设计流程的要求和数据仓库模型设计要求。数据仓库设计流程确定分析型应用需求根据航天现有业务需求和业务未来发展规划,分析分析型应用需求,在现有数据基础上设计专业的、可行的分析专题。数据特征分析为了能够建设高效的数据仓库,支撑复杂的统计分析应用,数据仓库建设将

13、分析业务数据特征,重点分析业务数据的类型和数据值分布特点,根据数据的集中趋势、离散程度等,设计恰当的数据仓库模型,并对数据仓库进行优化。根据对应用和数据分析,按照不同的主题建立数据仓库模型(星型模型) 数据仓库概念模型设计(概念模型E-R图、数据词典)数据仓库逻辑模型设计(ROLAP、模式对象)数据仓库物理模型设计(存储结构、存取方法建立索引)各部门根据各自的数据分析需求,建立数据集市(星型模型)数据集市概念模型设计(概念模型E-R图、数据词典)数据集市逻辑模型设计(ROLAP、模式对象)数据集市物理模型设计(存储结构、存取方法建立索引)根据既定数据同步策略,通过ETL工具,将业务库的数据加载

14、到数据仓库,并实现数据的自动增量同步。数据仓库模型设计数据仓库模型设计为星型模型,首先分析业务需求进行调研分析,确定分析主题,根据不同的分析主题设计相应的星型模型。数据仓库模型设计流程如下:根据主题建立星型模型,由一个事实表和若干个维度表构成。事实表设计:将指标数据放在一个大表事实表中。事实表包含事实表主键,所有维度表的主键和指标数据项。事实表应包含尽可能全的指标数据,即包含相关主题所要考察的所有指标数据项。维度表设计:根据主题确定维度。选择维度的粒度,确定数据结构中数据的详细程度。确保每一个维度中的数据元素相互之间保持一致。维度表字段应尽可能少。选择数据库的持久度,决定应该保存多长时间的历史

15、数据。专业数据库系统专业数据库系统主要包括:产品类应用数据库,如主要涉及“设计参数”、“重量”等类型数据信息;参考数据库,如“海洋环境”、“重力场”等类型数据;试验数据库,如:“飞行试验数据库”、“阀门数据库”等。专业数据库中可能包含了大量已建成的专业数据库和数据,这类数据库一方面继续保持现有应用方式不变,同时可根据需要做统一的接口扩展,如:单点登录集成。这样可以满足现有应用需要和新平台建设的要求和方向。后续还可增加如某项应用的特有接口来为平台提供专项应用服务,如:提供特定的数据检索,甚至数据处理服务等。此种接口模式既可以是通过跳转到该系统处理,也可是通过提供处理界面来集成到平台应用系统中的方

16、式。新开发系统可根据平台要求,事先约定标准接口来为数据平台提供特定数据服务,避免重复开发与资源浪费。专业数据库系统分别采用Oracle 11g和神通通用数据库,按照数据的重要性,分为一级和二级,其中比较重要的一级数据采用Oracle 11g,二级数据采用神通通用数据库。数据仓库存储航天数据仓库产品选择神通分布式并行数据库集群实现。神通分布式并行数据库集群的架构设计充分满足了海量数据分析需求,是具有高效复杂统计和分析能力的列存储关系型数据库管理系统。产品面向分析型应用领域,以列为基本存储方式和数据运算对象,结合列数据压缩处理、并行处理、智能索引等新型数据处理技术。神通分布式并行数据库集群采用Sh

17、ared-Nothing架构,相对于Shared-Everything架构,在处理海量数据时有非常大的优势。Shared-Everything架构使用共享的SCSI或光纤通道,每个节点使用其本地磁盘存储操作系统交换空间和系统文件,而应用数据存储在共享磁盘上,每个节点均可读取由其它节点写入的数据。应用间的并发磁盘访问需要分布锁定管理器(DLM),而且共享磁盘子系统与其集群节点之间的距离会受到所选择介质(SCSI或光纤通道等)的限制。Shared-Nothing(简称SN)集群称为无共享集群,是一种分布式计算结构,此结构设计中每个节点都是独立的和自满足的,无需单独设立主控节点,可避免数据量大、访问

18、集中造成主控节点成为性能瓶颈而影响集群访问性能。Shared Nothing集群采用大规模并行处理(MPP)的硬件构架保障。无共享的环境将加载与查询划分为若干个小块,每个节点一小块,再由各节点不同的处理器并发地执行。每个小块的并行进程经过统一分配,相对独立的处理各自管辖的数据分区,与其它节点不相干。Shared-Nothing集群只需部署在普通硬件上,而无需用户在昂贵的高端硬件设施上作过多的投资。Shared-Nothing集群采取多份数据的机制来保证数据的高可靠性。数据冗余存储,可存储一份或多份。数据进行分片存储,SQL算子的并行执行保证了系统的水平扩展性。SN集群的性能可以随着节点的增加实

19、现线性的扩展。由于SN集群构架对用户硬件要求较低,它逐渐能够使用户体会到在普通传统硬件上前所未有的性能提升。此外,SN集群构架对硬件的要求特性使得它在Linux平台上可以始终保持兼容性与可扩展性。概括来说, SN MPP集群构架可以体现出如下的特性:对用户硬件要求较低,数据库可以运行在用户已有的硬件平台上;对查询的处理进程可以直接在各节点本地数据上进行;没有用户的同步问题,整个体系没有I/O瓶颈;适用于海量数据的分析型应用。与SN集群相比,Shared-Everything架构的扩展性无法满足数据仓库数据量日益膨胀的需求。Shared-Everything架构的局限性在于节点间的信息提取与传输

20、,这些信息能够将其它节点的状况告知一个节点。SD体系中节点越多,所需传输的状态信息也就越复杂,传输时间也就越长。仅此扩展性一点所产生的影响便使得SD集群构架不适合数据仓库的应用。Shared-Everything架构集群在4个节点的体系中能够发挥良好,但扩展至4个以上节点时,便会产生问题。神通分布式并行数据库集群管理是云数据管理平台核心架构和管理支撑平台,主要研究分布式集群管理平台集群的资源调度、集群管理和数据访问。分布式集群支持线性扩展,能够在不间断运行的条件下动态增删节点,实现集群的线性扩容,并保证在数据量增加的情况下性能不下降。分布式集群能够对海量的结构化和非结构化数据资源整合管理,在分

21、布式环境下,保证数据访问的高可用性和高扩展性。产品设计的主导思想如下:三个“1/10”:把同样一条查询 SQL 需要的 I/O 降低到传统行存储数据库的 1/10 以下;在启动压缩的情况下,同样的裸数据加载到数据库后占有的磁盘空间是传统行存储数据库的 1/10 以下;人工管理费用(安装,调试,优化,维护,扩展)是传统行存储数据库的1/10以下。两个“10 倍以上”:在面对海量数据分析型应用中,平均综合查询性能(复杂查询,即席查询,模糊查询,分页类查询,TOP-N 查询等)是传统行存储数据库的 10 倍以上;压缩比 10 倍以上。以分布式SN集群的分布式查询、分布式调度、远程管理、高可用机制、数

22、据分片存储、远程数据加载、统一访问接口为主要研究内容,主要包括以下几个方面:统一数据访问接口:研究对于结构化数据和非结构化数据的统一访问,应用通过标准的SQL语句访问云数据管理平台,对于应用完全透明,只需要一条SQL语句即可完成对结构化数据检索、全文检索和非结构化数据检索,大大降低了应用开发的复杂程度。统一数据接口,实现了对SQL 92、Full Text和PATH的接口封装。远程数据加载:实现海量数据的高速并行入库,满足大数据量入库时的性能需求。数据分片存储:适用不同的场景,采用不同的方法(range、round robin、hash),把数据与其相关的索引的分片存储在一个节点中。分布式查询

23、、调度:研究分布式集群调度各节点的工作,分解查询请求,制订节点查询计划,并对不同节点的查询结果进行汇总。远程管理:检测和监控云数据管理平台的运行状况。高可用机制:研究分布式SN集群的多副本机制,以便提升整个平台的运行性能。产品特点包括:采用列存储的专门面向分析型应用的新型分布式并行数据库集群;支持多CPU,能够充分利用现代的多核 CPU 资源并行处理海量数据;遵循标准规范:SQL92、JDBC2.0、JDBC3.0、ODBC3.0;支持 C API、JDBC、ODBC、.NET应用开发接口;支持多语种,多字符集,如GB、GBK、UNICODE、UTF-8等;能够支撑海量数据存储,能够通过集群线

24、性扩容,支持百TB级以上的数据存储;具备高效数据加载性能:数据加载速度快,支持并行批量加载;具备良好查询性能:具备高效查询优化机制;良好地支持复杂查询,即席查询,模糊查询,分页类查询,TOP-N查询等操作;能够自动高效地并行执行SQL查询;支持SN集群,支持集群在线增删节点服务器,支持集群的线性扩容;具备良好的并发能力,能够通过集群扩展并发支撑能力;具备良好的数据膨胀控制机制,建立索引后的膨胀率不超过百分之一;具备高效的业务负载均衡能力; 数据采集平台数据采集平台负责从业务数据库及外部数据源中获取资源库所需的数据。数据采集平台位于业务数据库和数据转换平台之间,屏蔽了后续数据处理与数据来源间的直

25、接关系。数据采集平台对保障资源库数据的有效性起着关键的作用。数据采集平台的核心功能是数据的清洗和转换处理。它从数据采集平台获取数据,然后进行后续的加工处理,并将加工处理完毕的数据存储到目标信息资源库中。数据采集平台的目标顾名思义,数据转换平台的主要功能是根据数据的真实性、有效性验证规则,对数据进行转换清洗。其常见工作内容包括:消除同名异义和异名同义现象一致性检查去冗余 数据归并上述的数据转换需求,假如通过编程实现,其工作量非常浩大,而且面临着质量保证的问题。因此,我们推荐采用神通ETL作为数据转换平台,利用它本身丰富的数据转换功能,进行图形化的编辑,保障系统数据的真实性和一致性。数据采集平台的

26、功能我们推荐采用神通ETL作为数据转换平台。神通ETL建立了一个坚实的数据抽取、清洗和转换的集成环境,以其易用性、完善功能和优越性能帮助系统进行数据转换。其特点为:完善的数据源支持神通ETL可通过一个job提供各种数据来源系统与目标系统的支持,包括:文本文件复杂的XML数据结构ERP系统各种数据库的数据,包括已分区的数据库,如Oracle、DB2、Informix、Sybase、Teradata、SQL Server、神通数据库、GBase数据库以及使用ODBC存取的数据。实时或者定时数据转换神通ETL可以在整合了大量数据的同一个平台上实时/定时转换或传送数据。如果客户有实时数据交换的需要,可

27、以触发系统预先定义的神通ETL的数据采集功能,自动进行数据采集、转换并收集到八大资源库。完善的开发环境神通ETL的开发人员通过数据流模式的程序设计功能建立一连串的数据流程图。完整的图形接口允许开发人员使用GUI拖放功能来描绘出企业内部的数据流。多样性的描述语言、强大的调试排错功能以及允许使用外部程序代码的开放式应用程序设计接口(API)都可让开发人员在设计时更得心应手。强大的数据转换功能神通ETL提供业界中最广泛的数据整合开发环境,它的链接库提供了上百种内建函数与程序,供开发人员选取使用。在开发市局的应用时,这些内置的函数能极大地减少数据验证和清洗处理的开发量。相对于业界其他的数据抽取清洗和转

28、换工具,神通ETL在数据清洗方面的功能强大性是无可比拟的。分割与自动重新分割神通ETL的并行处理技术使用分区处理技巧,将大型的整合工作切割为分区(分割并行处理),并将这些分区同时传送给所有处理器(管道并行处理)。管道与分区并行处理的组合可提供完整的并行处理功能(效能提升与处理器数量成正比),并让硬件成为性能的唯一决定性因素。广泛的并行处理硬件支持神通ETL可从SMP与SMP集群扩充到拥有数百个处理器的MPP。重要的整合应用程序可随企业发展的规模同步扩充。将来八大资源库需要进行数据量扩展,以及应用扩展时,数据采集工具在这方面的能力很重要。综上所述,神通ETL通过强大的数据转换函数,以及分割与管道

29、并行处理的技术,支持来自数据采集平台的数据,并将其迅速转换成为真实的、一致的数据,形成了一个有效的数据转换平台。数据库管理平台综合数据库管理数据标准按照航天制定资源库数据结构标准,资源库的设计将有以下设计原则:以综合库共享数据项集为基础进行扩展;遵循业务系统的数据内容;统一规范,包括描述、命名、长度、类型等;统一引用标准,国标、部标、资源库标准;考虑扩展性;考虑数据的关联性。可扩展性遵照数据标准进行的数据库逻辑设计,在综合考虑数据量、数据应用频度、索引分布等数据库设计要素后,可以进行数据库物理设计。考虑每年的增长情况,和需要纳入的新数据源。在这种情况下,传统的数据表设计将经受比较大的性能压力。

30、在考虑到数据库将来的可扩展性和平滑增长,我们建议结合神通分析型数据库集群的数据分区功能来进行分区设计,保障整个系统的处理性能。安全性本方案的数据采集平台和数据转换平台均有独立的安全性管理机制,具有包括用户认证提交、源数据访问控制、用户管理和权限定义的功能;从资源库一级,可以采用用户认证、用户管理、权限管理等模块来进行访问控制。因此,数据采集平台和数据转换平台的安全性管理机制,结合资源库本身的数据库安全管理方式,以及资源库使用时的应用安全管理模式,可以形成从数据采集、数据转换、数据存储、数据使用、数据传输等一系列的安全保障。而且,数据采集/转换平台和资源库的安全保障机制还可以进一步结合市局统一部

31、署的安全保障平台,进行统一的身份认证和权限管理。备份策略在系统运行环境下进行备份,可以采用物理备份的方式,或者在保障数据一致性的情况下采用逻辑备份。同时,我们考虑到资源库原始数据量和每年数据增量,在这种情况下,每天全量备份如此大的数据库基本上是不现实的。因此,需要考虑全量备份与增量备份相结合的问题,也就是说,在比较长的周期(例如每个月),进行全量备份,在这个周期内,使用增量备份的方式来满足要求。资源库扩展和变更管理本文建议的解决方案中,采用了数据转换平台对数据进行了转换处理,有效地支持了资源库的变更和扩展。当资源库的数据增加或者合并时,只需要改变资源库的逻辑设计和物理设计,然后在数据转换平台,

32、修改原有转换流程的数据目标,或者添加相应的新数据流程即可。只要不要求增加新的业务数据,整个数据采集平台无需改变,因此能将系统的变化量减到最低。如果新的业务数据也要增加进来,则数据采集平台会增加新的采集流程,。整个变更和数据转换的过程可以很清晰地通过图形化界面来展现出来,数据转换的所有更改都可以通过元数据管理展现出来,并在需要改变时在图形化界面修改定义和配置,无需大的编程工作量,就可以实现资源库的扩展,充分发挥出灵活和扩展性强的特点。管理平台主要负责基础信息管理(人员信息,型号,密级等),单点登录服务(统一身份验证),集中化系统管理(依托开发平台中的“数据标准接口服务”集合)开发平台一是针对已有

33、数据库中各类数据的二次开发,提取可被复用的数据和处理,按照标准数据接口来开发出可供上层系统统一调用的接口服务;二是针对一系列接口应用的统一管理和灵活的用户定制界面,可为用户提供特定的,多内容交叉的综合数据服务。应用平台在开发和管理两平台的基础上,为用户提供友好的人机交互界面和相应的各类数据处理服务,如数据回放,检索,数据判读,数据分析等。数据质量监控系统数据质量监控系统可以自动地扫描数据样本以判断其数据质量和数据结构。这个分析工具帮助了解集成流程的各种输入,从各个字段直到高级数据实体,还让您能够提前纠正数据结构或数据有效性方面的问题,避免它们影响项目。在许多情况下,用户必须确保数据、值和规则适

34、合业务用户理解。根据业务知识检验数据是重要的步骤。 业务知识构成数据监视和审计的基础,从而确保数据有效、准确且符合内部标准和行业规定。尽管分析源数据是任何集成项目的关键步骤,但是还必须持续监视数据的质量。提供标准的数据剖析特性和质量控制。元数据存储库存储数据分析结果和项目元数据,比如项目级和角色级安全性和功能管理。通过基于任务的用户界面帮助业务用户检查数据中的异常和变化,向开发人员提供关键的功能性和设计信息。通过共用的并行处理技术处理大量数据,利用连接性等共用服务访问各种数据源和目标。提供全程数据生命周期管理(从数据访问和分析直到数据监视),从而减少在整个企业中发现、评估、纠正和检验数据所需的

35、时间和成本。使用单一主动式元数据存储库提供共用的平台视图。采用大容量可伸缩的并行处理设计,提供对大型数据源的高性能分析。当业务需求发生变化时,允许您审查并采用新的数据格式和数据值。数据质量监控系统帮助管理业务规则的定义和分析,检查源和目标数据,跨各个列分析有效的值组合、合适的数据范围、准确的计算公式和正确的 if-then-else 运算。数据质量监控系统为度量这些业务规则建立指标,存储这些分析和指标的历史以反映数据质量趋势。数据标准管理系统数据标准管理系统分为两部分,一是标准数据的存储,这部分由ETL通过清洗转换判断将标准数据进行存储;二是数据的标准定义,也就是对于数据的统一描述,统一理解。

36、数据标准管理系统让用户能够创建、管理和共享业务词汇表和分类系统。它帮助用户创建集中的业务词汇表。业务词汇表是包含与企业相关的词汇以及词汇与信息资产的关系的集合。设计它的目的是帮助用户理解业务语言和信息资产(比如数据库、作业、数据库表和列以及业务智能化报告)的业务含义。常用的业务词汇数据的业务含义和描述业务信息主题领域的层次结构负责的专员数据源和数据流共用的词汇表让不同的用户对业务概念形成一致的理解,这会改进交流和效率。例如,组织中的一个部门可能使用单词“customers”,另一个部门使用“users”,而第三个部门使用“client”,它们都是指同一群人。数据标准管理系统让企业能够捕捉这些词

37、汇、定义它们的含义、创建它们之间的关系(在上面的示例中,三个词的含义相同,所以它们是同义词)并整合词汇,从而提高交流的准确性。其他词汇表用户随时可以参考这些信息。用户可以指定关于词汇和类别的信息,描述它们在企业中的使用。例如,对于给定的词汇或类别,作者可以定义描述、使用状态以及与其他词汇和类别的关系。作者还可以为词汇指定专员(负责词汇定义和维护的个人或组)。作者可以指定词汇的属性、与其他词汇的关系和同义词,可以为词汇定义客户化(与企业相关的)属性。管理员可以导入和导出词汇表内容。这样就可以添加来自其他源的词汇表内容、离线地修改词汇表内容、在词汇表之间传输内容以及创建词汇表的存档。应用支撑平台航

38、天应用支撑平台,可以提供辅助领导决策和满足工作人员工作需求的可视化展现平台。综合应用展现将借助神通商业智能BI系统实现。神通商业智能(BI)产品,是数据整合、查询、分析和展示的全过程可视化工具集合,其敏捷的实施过程和易用的界面设计贴合用户的需求。产品以全新的方式分析数据,以绚丽的图表形式展示结果,以全面的视觊揭示数据的关系、趋势和KPI指标,并支持图表中的数据联劢和钻取等交互操作,更深入的获取数据的价值,协劣用户高效、正确的预测和决策。产品提供了全面的查询、分析和展示等功能,满足当前企业对数据处理的多样性需求。并依托公司数据库产品研发的技术积累,实现海量数据处理的高性能。 集成服务 集成数据源

39、、数据模型(语义层)管理和数据访问的后台服务,包含用户及权限管理、CMS管理、行为审计等功能,提供二次开发和应用集成接口,为整个BI系统提供核心服务; 门户 统一内容和应用发布及使用平台,可定制属于用户自己的工作空间。支持BI内容的自劢分发和更新,借劣内容导航工具全面迅速搜索和阅读BI内容; 呈现器 支持几乎全部种类的PC浏览器和android PAD(安卐操作系统)阅读BI内容。包括交互式图表的格式转换、数据联劢钻取操作,页面内容导出和打印等功能; 智能查询 融合“即系查询Ad Hoc”与“多维分析OLAP”两项重要功能,满足用户对数据快速查询与钻取分析的双重需求,通过拖拽无需编写SQL即可

40、按需查询和分析数据,并生成统计图形,以及选择不同的文件格式或打印机输出; 交互报表 支持列表、交叉表和中国式网格表等格式,报表数据可为静态与动态两种方式的企业级报表系统。支持图表混合、数据展开、钻取(跳转)、预警、Excel文件的导入导出等主要功能; 交互图表 高效快捷的创建BI内容,支持上百种统计图形、多种表格、报表格式、图形化KPI显示。可将报表、GIS、Ad Hoc、OLAP、统计图等内容绘制在同一页面,支持多页、跳转、数据和图形的联动与钻取等交互操作; 空间分析 带有位置信息的统计数据可以选择不同的地图图层,以区域着色、位置标注、统计图形叠加等方式进行分析,并展示在BI内容中;预测与挖

41、掘支持200余种函数组合的表达式,可按分类和时间进行数据分析与预测,支持用户扩展复杂预测和分析模型。一经在数据模型和报表中定义,就可以在所有BI工具和内容中使用。神通商业智能BI系统具有以下功能及特点:高集成度的个性化门户,实现用户个性化信息的定制和管理功能。具备即席查询功能:即能够满足用户灵活多变的统计分析和查询需求。能够让用户自己根据需求组合查询条件和设定查询结果列表。对于即席查询结果报表的部分统计数据能够通过图形展示,做到图表结合。能够打印查询结果报表。能够将查询结果导出成PDF、EXCEL等多种格式。能够对查询结果列表的一列设置预警条件并以不同的颜色标识。能够对查询结果报表的行高、列宽

42、、字体、字号、对齐方式进行设置。能够对查询结果列表的一列进行求和、求平均、计数、求最大值、求最小值等运算。具备设计和展现交互式图表的专用工具:能够让用户自己根据需求设计动态统计图形。不仅支持饼图、柱图、线图等常见统计图形,还支持气泡图、散点图、地图示意图、TreeMap和HeatMap等特殊统计图形。支持柱线组合图、线散点组合图等组合图。支持数据的表格展现。可以对图形进行丰富的显示特性的设定。支持普通图的类型转换,比如柱图可以转换成线图。有多种图形颜色主题供用户选择。可以对柱图等常见图形进行维度和度量的显示转换。支持图形之间的联动(通过多个图形的互动,综合展示统计信息)操作并提供丰富的数据过滤

43、组件。支持图形的钻取(通过点击图形的某部分,进一步用图形展示不同层次维度的统计信息)操作。可以将设计的交互图表发布到门户中显示。具备OLAP多维分析功能:能够让用户自己根据需求设计不同的维度组合进行OLAP多维分析,支持OLAP的钻取、切片、行列转换等操作,能够支持MDX,并支持与图形相结合展示分析结果。提供交互式图表展现工具,通过该展现工具能够灵活的把交互式的统计图表嵌入到其他应用系统中进行展示。非结构化数据离线分析挖掘系统对于数据处理系统加工之后,需要进行深度数据挖掘及分析处理的海量非结构化数据来说,由于会涉及大量、复杂、长时间的挖掘过程,并且会涉及到与结构化数据的组合分析,这部分工作并不

44、适合放在在线数据分析系统当中,而是通过离线数据挖掘子系统来实现对深度数据挖掘的需求。目前,业内对于离线数据挖掘的一个成熟、高性能、高可靠、高性价比的解决方案是通过对开源的Hadoop架构进行针对性的优化来实现的。Hadoop是一个针对海量数据处理的分布式计算平台,能够很好的解决海量非结构化数据/半结构化数据的离线分析与处理问题,可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。高效性:Hado

45、op能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此其处理速度非常快。高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。对开源的Hadoop进行了优化,使其作为海量数据存储分析平台的离线数据挖掘子系统,能够很好的与结构化数据处理子系统结合,形成面对海量结构化数据、半结构化数据、非结构化数据检索、分析处理与深度挖掘的一体化解决方案。 系统架构下图给出了基于Hadoop技术的数据离线分析挖掘系统架构。它从逻辑上分为硬件层、存储层和计算层,对上支持各种业务模型。图 基于Hadoop技术的统一数据离线分析挖掘系统架构硬件平台统一为整合计算和存储能力的存储服

46、务器,服务器之间通过以太网络互相连接。这种不再需要门类繁多的存储设备和服务器类型的设计可以大大简化管理和建设的复杂程度。存储层解决各种类型数据的存储问题。上层业务的数据可以分解为:结构化数据、文本(包括网页)、图片、影像、XML文件以及索引文件等。结构化程度高、事务性强、需要反复操作的数据仍然保存在关系数据库里,网页信息等可以Key-Value的形式保存在NoSQL存储系统中。大量小图片、XML文件等可以保存在分布式存储系统中。为了提高检索效率,各种索引以特有的格式分散保存。计算层负责将存储层中管理的数据转化成上层应用所需要的数据集。这些转化包括基本的数据存取,如基于唯一性的关键字获取属性值或

47、内容;通过关键字快速检索某一应用的数据,或者整合多个系统的检索结果呈现给用户;使用Map-Reduce和并行查询分别快速从大规模的文件数据或数据库中分析出感兴趣的信息。从技术选择上来看,数据库存储可以选择横向扩展、支持复杂并行处理模式的MPP数据库系统,NoSQL key-Value存储可以选择Hadoop-HBase系统,分布式存储可以选择业界优秀的集群存储系统,选择支持可以插件形式扩展各种应用的检索系统。 实现方式在数据分析平台中,随着业务的不断扩大,生产环境中的数据格式因版本更新而发生升级扩展,这就需要处理平台能够高效地动态建立索引。这就需要通过将内容存放在HBase中来实现。通过在Hb

48、ase中索引信息,快速获取满足条件的文档数据。在海量数据中,采用Hbase的key-value结构,根据生命周期、活动、问题事件等不同维度,快速检索对应文档数据并展现。只要提供类似Key-Value方式的创建索引和检索算法,每个子系统都可以向公共的大数据平台申请专有的检索服务。例如图片可以根据标签进行检索,而文本则根据内容进行模糊检索。系统同时提供跨应用的全局检索,它将关键字按规则转化成各应用的搜索请求,并合并中间结果。基于Hadoop技术的非结构化数据处理子系统还提供通过统计分析,不断改进业务水平的能力。通过用户行为统计分析,可以得到用户的使用喜好,向某些人群推送特定内容,提高用户粘性。另外

49、对系统负载、不同区域的特征分析,都可以改进服务质量,也可以对系统的升级、维护提出预警。这些分析一般是通过记录用户访问的日志,以及系统运行、维护过程中产生的日志。可以采用MPP数据库的方式,也可以采用Hadoop-Hive,结合Mahout的分析功能实现信息的抽取。统一数据处理平台系统架构XData大数据一体机,可以实现对结构化数据XData-神通数据仓库,非结构化数据存储和检索XData-Parastor和以及离线数据分析的hadoop系统的统一访问和管理,提供不同类型数据的统一处理平台。XData系统将节点分为两大类:存储数据的数据节点和提供并行数据管理功能的服务节点。后者根据不同的功能划分

50、,包括:加载服务、查询服务、数据复制和数据定义服务。所有类型的节点个数均必须支持根据容量和性能的需要而灵活配置。数据节点是带独立存储系统的存储服务器。每个节点上既可以安装单机版的数据库(如Oracle/Postgresql等数据库)管理系统,或者部署成分布式文件系统的数据节点(如Hadoop系统中的HDFS的DataNode),以及这些数据存储和处理系统的复合。XData大数据一体机的中间件软件服务按照其功能可以被分成加载、查询、控制配置、数据定义等服务,每种服务部署在单独的物理节点或者单独的虚拟机上,以达到每个服务程序的相互隔离性。任何一个服务节点均建立到所有的数据节点的连接。其中加载节点启

51、动若干个加载线程,线程将一批数据写入某一数据库节点。由于海量数据分布存储在各数据节点上,查询服务首先并行地在处理各数据节点上的局部数据得到中间结果,然后将中间结果汇总成最终结果。数据控制配置服务专用于对数据修改操作,保证集群环境下的数据修改的事务性。数据定义服务用于维护系统的元数据,它主要负责整个系统的对象定义、存储组织、增删改操作和其它数据模式改变等元数据操作。采用这种服务分离的设计,用户可以灵活地配置各种服务的个数,以达到整个体统资源的最佳利用。图 系统整体架构上图给出了XData 大数据一体机系统的整体结构设计。大数据处理系统在客户与数据存储之间构架了一层中间件软件,对上要提供统一的客户

52、端程序的接口,对下要支持对多个不同数据存储系统的数据加载、数据查询、数据备份、数据统计和管理功能。底层的数据管理系统包括数据库(结构化数据)和Hadoop(非结构化数据)系统,本版本主要针对Hadoop的半结构化和非结构化数据的处理。大数据处理系统实现对数据的逻辑划分功能,支持按照数据语义对数据进行Hash,Range,List和Round-robing的划分策略。针对结构化数据处理的数据库系统,每个数据节点保存整个数据集的一部分。每个数据节点上数据均可使用成熟的数据库的索引、分区等特性。针对非结构化数据处理的Hadoop系统,则可以将应用数据划分成不同的文件(或者文件夹),每个文件(或文件夹

53、)保存数据集的一部分,表示符合某个特定属性的数据集合。关键技术XData大数据处理一体机,是在神通结构化数据处理系统的基础上,增加对非结构化数据的处理,实现结构化和非结构化数据的统一处理。该系统的关键技术包括以下几个方面:支持Hadoop/HBase/Hive和Database的柔性系统架构XData支持对Hadoop/HBase/Hive的数据处理模式,同时也支持对Oracle/Postgresql的数据库处理方式,对外提供统一的数据处理访问接口,系统结构可以随着数据量进行柔性配置,最大支持的节点数不低于256个,总数据量不低于16PB。实时分析和离线分析的融合技术XData大数据一体机实现结构化和非结构化数据的统一处理,采用统一的架构,存储组织和划分,以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论