ch10面对大数据仓库系统_第1页
ch10面对大数据仓库系统_第2页
ch10面对大数据仓库系统_第3页
ch10面对大数据仓库系统_第4页
ch10面对大数据仓库系统_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

王宏志哈尔滨工业大学海量数据计算研究中心Massive

Data

Computing

Lab

@

HIT大数据分析·原理与实践10、面对大数据的数据仓库系统数据仓库数据分析的对象是“数据”因此必须对数据进行有效管理,这便是数据仓库的职责。数据仓库两方面的需求可扩展性和高效率。面对大数据的数据仓库系统对这个需求要求更高,因此分布式数据仓库系统和内存数据仓库系统应运而生。目录数据仓库概述分布式数据仓库系统内存数据仓库系统123目录数据仓库概述分布式数据仓库系统内存数据仓库系统123数据仓库概述什么是数据仓库一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策指定过程。——W.

H.

Inmon美国著名信息工程学家、数据仓库之父数据仓库概述什么是数据仓库一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策指定过程。——W.

H.

Inmon美国著名信息工程学家、数据仓库之父数据仓库概述什么是数据仓库面向主题这意味着在数据仓库的设计过程中,数据以所代表的业务内容划分,而不是以应用划分。数据集成性数据仓库中的数据采取统一的格式和编码方式。稳定的这意味着数据仓库中的数据不进行实时更新。与时间相关的这意味数据仓库中的数据组织方式要便于按时间段计算和提取数据。面向主题集成的稳定的与时间相关的的数据仓库概述数据仓库的内涵支持多种数据源数据仓库应支持多种数据源,不仅仅是数据库,还应有各种数据文件、文本文件、应用程序等。不只存放数据数据仓库中存放的应该不仅是供分析使用的数据,还应有在一定激发条件下能主动起作用的处理规则、算法、甚至是过程。虚拟数据仓库传统的物理数据仓库方法并非唯一的选择,应根据需求的具体情况,建立虚拟数据仓库的解决方案。汇总并统一据仓库中的数据并不完全是原始数据的简单归并和搬家,而应该是增值和统一。因此“汇总并统一”是数据仓库的必须内涵描述。数据仓库概述四个基本功能数据定义这部分主要完成数据仓库的结构和环境的定义。数据提取这部分负责从数据源提取数据,并对获得的源数据进行必要的加工处理,使其成为数据仓库可以管理的数据格式和语义规范。数据管理数据管理由一组系统服务工具组成,负责数据的分配和维护,支持数据应用。数据应用数据仓库的数据应用除了一般的直接检索性使用外,还应当能够完成比较常用的数据表示和分析,如图表表示、统计分析、结构分析等。数据仓库概述数据仓库系统的体系结构元数据是关于数据的数据,是关于

数据和信息资源的描述信息。是数据仓库的核心。数据仓库概述数据仓库系统的体系结构元数据源数据是分布在不同应用系统中,存储在不同平台和不同数据库中的大量数据信息。是数据仓库的物质基础。数据仓库概述数据仓库系统的体系结构元数据源数据数据变换工具为了优化数据仓库的分析性

能,源数据必须经过变换以

最适宜的方式进入数据仓库。包括数据抽取,数据转换,数据装载。数据仓库概述数据仓库系统的体系结构元数据源数据数据变换工具数据仓库源数据经过变换后进入数据仓库。数据仓库以多维方式来组织数据和显示数据。属性维和时间维时数据仓库反映现实世界动态变化的基础,它们的数据组织方式时整个数据仓库的关键。。数据仓库概述数据仓库系统的体系结构元数据源数据数据变换工具数据仓库数据分析工具数据库系统的目标是提供决策支持,它不仅需要一般的统计分析工具,更需要强大的分析和挖掘工具。数据仓库概述数据仓库系统的体系结构元数据源数据数据变换工具数据仓库数据分析工具分析工具主要用于对数据仓

库中的数据进行分析和综合。挖掘工具负责从大量数据中发现数据之间的关系,找到可能忽略的信息,预测趋势和行为。数据仓库概述数据仓库系统的建立主题在数据分析或前端展现的某一方面的分析对象,例如分析某年某月某一地区的啤酒销售情况。一个主题在数据仓库中即为一个数据集市,数据集市体现了某一方面的信息,多个数据集市构成了数据仓库。数据仓库概述数据仓库系统的建立确定主题确定主题需要综合考虑。主题的确定必须建立在现有联机事务处理(

OLTP)系统的基础上,否则按此主题设计的数据仓库将成为一个空壳,缺少可存储的数据。但一味注重OLTP数据信息,也将迷失数据提取方向,偏离主题。故需要在OLTP数据和主题之间找到一个”平衡点“。数据仓库概述数据仓库系统的建立选择合适的软件平台数据库、建模工具、分析工具等。需要考虑的因素系统对数据量、响应时间、分析功能的要求等。数据仓库概述数据仓库系统的建立需要考虑的因素一些公认的标准:数据库对大数据量的支持能力数据库是否支持并行操作能否提供数据仓库的建模工具是否支持对源数据的管理能否提供支持大数据量的数据加载、转换、传输工具能否提供完整的决策工具集能否满足数据仓库中各类用户的需要数据仓库概述数据仓库系统的建立3.

建立数据仓库的模型数据仓库的模型包括逻辑模型和数据模型。什么是逻辑模型数据仓库的逻辑模型是为解决业务需求而定义的数据仓库模型的解决方案。它是指导进行数据存放、数据组织

以及如何支持定义的蓝图,用以定

义需要追踪和管理的各种重要实体、属性和关系。数据仓库概述数据仓库系统的建立3.

建立数据仓库的模型逻辑模型的建立首先,确定建立数据仓库逻辑模型的基本方法。然后,基于主题试图,把主题视图

中的数据定义转到逻辑数据模型中。继而识别主题之间的关系,分解多对多的关系。最后,对逻辑模型加以校验,包括利用数据库的范式理论检验逻辑数据模型的自动方法和由用户审核逻辑数据模型的人工方法。数据仓库概述数据仓库系统的建立3.

建立数据仓库的模型数据模型建立的步骤·删除非战略性数据·数据仓库模型中不需要包含逻辑数据模型中的全部数据项,需要删除某些用于操作处理的数据项。·增加时间主键·数据仓库中的数据一定是时间的快照,因此必须增加时间主键。·增加派生数据·对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。·加入不同级别粒度的汇总数据·

度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的

数据量和可以执行的查询类型。数据仓库概述数据仓库系统的建立3.

建立数据仓库的模型粒度粒度级别越低,支持的查询越多;反之,能支持的查询就越少。对数据操作的效率与能得到数据的详细程度是矛盾的。通常,人们希望建成的系统既有较高的效率,又能得到所需的详细资料。实施数据仓库的一个重要原则就是不要试图包括所有详细数据,因为

90%的分析需求是在汇总数据上进行的。数据仓库概述数据仓库系统的建立3.

建立数据仓库的模型数据模型的三个重要因素·量度·

量度是依据数据仓库的主题,要分析的技术指标。如年销售额,

一般为数值型数据,或者将该数据汇总,或者将该数据取最大/小值等。·事实数据粒度·“最小粒度原则”。如按照时间对销售额进行汇总的情况下,如果OLTP数据库中记录了每天的交易额,那么最好不要在数据仓库中进行按月或者年汇总,需要保持到“天”,以便后续的分析。数据仓库概述数据仓库系统的建立3.

建立数据仓库的模型数据模型的三个重要因素3.

·维度·

例如,我们希望按照时间、

地区或者产品进行分析,那么时间、地区、产品就是相应的维度。这里首先要确定维度的层次和级别。维度的层次是指该维度的所有级别,包括各级别的属性;维度的级别是

指该维度下的成员。例如,建立地区维度时,我们将地区维度作为一个级别,层次为省、市、县三层。数据仓库概述数据仓库系统的建立优化的目的在设计数据仓库时,性能是一项主要考虑的因素。在数据仓库建成后,也需要经常对其性能进行监控,并依据需求和数据量的变更对数据仓库的数据模型进行优化,以提高性能。优化的方法合并不同的数据表增加汇总表避免数据的动态汇总通过冗余字段减少表连接的数量使用ID而不是描述信息作为键值对数据表做分区等等数据仓库概述数据仓库系统的建立为什么要进行这一步业务系统所使用的软硬件平台不同,编码方式不同。在业务系统中的数据加载到数据仓

库之间,必须对其进行清晰和转换,以保证数据仓库中数据的一致性。数据加载方案的几项要求加载方案必须能够支持访问不同数据库和文件系统。数据的清洗、转换和传输必须能够在规定的时间范围内完成。支持各种转换方法。支持增量加载。数据仓库概述数据仓库系统的建立建立数据仓库的最终目的是为业务部门提供决策支持能力,因此必须为业务部门选择合适的工具。几项要求·全面·必须能够满足用户的全部分析功能要求。·灵活的表现形式·使分析的结果能够以直观、灵活的方式表现。·接口和集成·事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具实现的,因此必须考虑接口和集成问题。数据仓库概述数据仓库系统的建立需要考虑的几个方面·安全性管理·数据仓库中的用户只能访问到其授权范围内的数据,即数据在传输过程中的加密策略。·备份和恢复·数据仓库的大小和备份频率直接影响到到备份策略。·如何保证系统的可用性·硬件方法或软件方法。·数据老化·

设计数据仓库中数据的

存放时间周期和对过期数据的处理

办法,如历史数据值保存汇总数据,当年数据保存详细记录。·源数据的管理·维护数据采集、数据管理和数据展现阶段的不同源数据。目录数据仓库概述分布式数据仓库系统内存数据仓库系统123分布式数据仓库系统基于Hadoop的数据仓库系统Hadoop上数据仓库系统的设计动机容错性与性能的一个折中·并行数据库技术·并行数据管理系统(PDBMS)支持标准的

关系表以及SQL。性能上有很好的竞争力,但在容错以及可扩展性上表现不佳。·MapReduce·MapReduce的表现则和PDBMS互补,它有很好的容错性以及扩展性,但其性能以及效率方面却有所丢失。分布式数据仓库系统容错性性能基于Hadoop的数据仓库系统:HiveHive是基于Hadoop的开源数据仓库系统解决方案。它具有如下特点支持像SQL语言相似的查询;提供数据仓库架构;提供工具包使数据的ETL实现更加方便;允许程序自定义映射以及消减操作。分布式数据仓库系统基于Hadoop的数据仓库系统:Hive分布式数据仓库系统基于Hadoop的数据仓库系统:HadoopDB分布式数据仓库系统MapReduce与DBMS的结合HadoopDB是一个MapReduce和传统关系型数据库的结合方案,以充分利用

RDBMS的性能和Hadoop的容错、分布特性。2009年被Yale大学教授Abadi提出,继而商业化为Hadapt。基于Hadoop的数据仓库系统:HadoopDB分布式数据仓库系统HadoopDB的整体框架分布式数据仓库系统Shark:基于Spark的数据仓库系统SparkSpark是UC

Berkeley

AMP

lab所开源的

类Hadoop

MapReduce的通用并行框架,

Spark

,拥有Hadoop

MapReduce所具有的优点;但不同于MapReduce的是

Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。分布式数据仓库系统Shark:基于Spark的数据仓库系统SharkShark是UC

Berkeley

AMPLAB开源的一款数据仓库产品,它完全兼容Hive的HQL

语法,但与Hive不同的是,Hive

的计算框架采用

Hadoop,而Shark采用Spark。所以,Hive是SQL

on

Map-Reduce,而Shark是Hive

on

Spark。分布式数据仓库系统MesaMesaMesa是一个具备跨地域复制和近实时

特性的可扩展的分析型数据仓库系统,

Mesa由Google公司开发,其动机为了给Google的核心业务——互联网广告铺路。谷歌研究人员在报告中表示:“Mesa能够处理数千兆字节的数据、每秒数百万行的更新以及每天数十亿查询请求。”目录数据仓库概述分布式数据仓库系统内存数据仓库系统123内存数据仓库系统SAP

HANAHANAHANA是一个提供高性能的数据查询功能的软硬件结合体,用户可以直接对大量实时业务数据进行查询和分析,而不需要对业务数据进行建模、聚合等。HANA的内存数据库(SAPIn-MemoryDatabase,IMDB)是其重要组成部分,包括数据库服务器(In-Memory

Database

Server)、建模工具(Studio)和客户端工具(

ODBO

、JDBC

、ODBC

、SQLDBC

等)。HANA

的计算引擎

(Computing

Engine)是其核心,负责解析并处理对大量数据的各类CRUDQ操作,支持SQL和MDX语句、SA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论