BI-数据仓库基础_第1页
BI-数据仓库基础_第2页
BI-数据仓库基础_第3页
BI-数据仓库基础_第4页
BI-数据仓库基础_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1BIBusiness Intelligence,即商业智能,商务智能综合企业所有沉淀下来的信息,用科学的分析方法,为企业领导提供科学决策信息的过程。BOSS业务运营支撑系BPM企业绩效管理BPR业务流程重整CRM客户关系管理CUBE立方体DM(Datamart)数据集市 数据仓库的子集,它含有较少的主题域且历史时间更短数据量更少,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。DM(DataMine)数据挖掘DSS决策支持系统EDM企业数据模型3ERPEnterprise Resourse Planning企业资源规划。它是一个以管理会计为核心的信息系统,识别和规划企业资

2、源,从而获取客户订单,完成加工和交付,最后得到客户付款。换言之,ERP将企业内部所有资源整合在一起,对八个采购、生产、成本、库存、分销、运输、财务、人力资源进行规划,从而达到最佳资源组合,取得最佳效益。4ETL数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。KDD数据库中知识发现5 KPI企业关键业绩指标(KPI:KeyProcessIndication)是通过对组织内部流程的输入端、输出端的关键参数进行设置

3、、取样、计算、分析,衡量流程绩效的一种目标式量化管理指标,是把企业的战略目标分解为可操作的工作目标的工具,是企业绩效管理的基础。LDM逻辑数据模型6 MDD多维数据库(Multi Dimesional Database,MDD)可以简单地理解为:将数据存放在一个n维数组中,而不是像关系数据库那样以记录的形式存放。因此它存在大量稀疏矩阵,人们可以通过多维视图来观察数据。多维数据库增加了一个时间维,与关系数据库相比,它的优势在于可以提高数据处理速度,加快反应时间,提高查询效率。Metadata(元数据),它是“关于数据的数据,其内容主要包括数据仓库的数据字典、数据的定义、数据的抽取规则、数据的转换

4、规则、数据加载频率等信息。MOLAP自行建立了多维数据库,来存放联机分析系统数据7 ODS(四个特点)(Oprational Data Store)操作型数据存储,是建立在数据准备区和数据仓库之间的一个部件。用来满足企业集成的、综合的操作型处理需要,操作数据存储是个可选的部件。对于一些准实时的业务数据库当中的数据的暂时存储,支持一些同时关连到历史数据与实时数据分析的数据暂时存储区域。8 什么是数据集市DM数据集市可以看作是数据仓库的一个子集,它含有较少的主题域且历史时间更短数据量更少,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。二 数据仓库DWDatawarehouse

5、,数据仓库是一个集合或过程,4要素面向主题,集成,时间相关(反映历史变化), (稳定)不可修改的数据集合。数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。特点传统操作型数据库数据仓库面向主题菜市场按功能来分类每一个模块就如一个小摊位,萝卜,青菜都有超市按类型分类如都为利润的分为一个事实表事实表和维表的分类集成的与特定的应用相关,数据库之间独立的有联系,ETL的过程已经是将多个数据库联系统一,去除之间的不一致性。相对稳定通常实时更新,数据根据需要及时发生变化供

6、企业决策分析之用,数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常定期的加载、刷新。反映历史变化主要关心当前某一个时间段内的数据包含历史信息,系统记录了企业从过去某一时点下图是一个典型的企业数据仓库系统,通常包含数据源、数据存储与管理、数据的访问三个部分:最为重要的一张图这张图可以看出四个特点中,面向对象,集成,数据源:是指企业操作型数据库中的各种生产运营数据 即OLIP 数据的存储与管理:数据仓库的存储主要由元数据的存储及数据的存储两部分组成。元数据是关于数据的数据,其内容主要包括数据仓库的数据字典

7、、数据的定义、数据的抽取规则、数据的转换规则、数据加载频率等信息。各操作数据库中的数据按照元数据库中定义的规则,经过抽取、清理、转换、集成,按照主题重新组织,依照相应的存储结构进行存储数据的访问:由OLAP(联机分析处理)、数据挖掘、统计报表、即席查询等几部分组成。例如OLAP:针对特定的分析主题,设计多种可能的观察形式,设计相应的分析主题结构(即进行事实表和维表的设计),使管理决策人员在多维数据模型的基础上进行快速、稳定和交互性的访问,并进行各种复杂的分析和预测工作。按照存储方式来分,OLAP可以分成MOLAP以及ROLAP等方式,MOLAP (Multi-Dimension OLAP)将O

8、LAP分析所需的数据存放在多维数据库中。分析主题的数据可以形成一个或多个多维立方体。ROLAP(Relational OLAP)将OLAP分析所需的数据存放在关系型数据库中。分析主题的数据以“事实表-维表”的星型模式组织。三 企业信息工厂企业信息工厂(Corporate Information Factory,简称EIF)是一种构建数据仓库的架构。企业信息工厂主要包括五个集成转换层(I&T)、操作数据存储(ODS)、企业级数据仓库(EDW)、数据集市(DM)、探索仓库(EW)等部件。这些部件有机的结合在一起,为企业提供信息服务。企业级数据仓库是企业信息工厂的核心部件,用来保存整个企业的数据。一

9、般,也称数据仓库,是用来满足企业战略决策的需要。数据仓库的数据来自数据准备区和操作数据存储。数据集市的数据来源是数据仓库。企业信息工厂中的数据集市一般来说是非规范化的、定制的和汇总的。而多维体系架构中的数据集市分为两种,分别是原子数据集市和聚集数据集市。一般来说,企业信息工厂中的数据集市相当于多维体系架构中的聚集数据集市。企业信息工厂中的数据流向一般是从源系统到数据准备区到操作数据存储到数据仓库到数据集市维Dimension维,是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。商店、时间和产品都是维。各个商店的集合是一个维,时间的集合是一个维,商品的集合也是一个维。代理关键

10、字(维ID)代理关键字一般是指维度表中使用顺序(序列)分配的整数值作为主键,也称为“代理键”。代理关键字用于维度表和事实表的连接。使用代理关键字可以用来处理缓慢变化维。维度表数据的历史变化信息的保存是数据仓库设计的实施中非常重要的一部分。Kimball的缓慢变化维处理策略的核心就是使用代理关键字。优点1缓冲2性能3建不存在的维度记录4缓慢变化维处理缓慢变化维(能力的体现)随着时间的流失发生缓慢的变化处理缓慢变化维的方法通常有三种方式:第一种方式是直接覆盖原值。这样处理,最容易实现,但是没有保留历史数据,无法分析历史变化信息。第一种方式通常简称为“TYPE 1”。第二种方式是添加维度行。这样处理

11、,需要代理键的支持。实现方式是当有维度属性发生变化时,生成一条新的维度记录,主键是新分配的代理键,通过自然键可以和原维度记录保持关联。第二种方式通常简称为“TYPE 2”。第三种方式是添加属性列。这种处理的实现方式是对于需要分析历史信息的属性添加一列,来记录该属性变化前的值,而本属性字段使用TYPE 1来直接覆盖。这种方式的优点是可以同时分析当前及前一次变化的属性值,缺点是只保留了最后一次变化信息。第三种方式通常简称为“TYPE 3”。退化维度事实表中的部分ID如订单号,但他没有对应的维度表,这编号称为退化维微型维度为了解决快变超大维度,解决的方法是,将分析频率比较高或者变化频率比较大的字段提

12、取出来,建立一个单独的维度表。这个单独的维度表就是微型维度表。多维体系结构(MD)中的三个关键性概念,一致性维度,总线架构(Bus Architecture)和一致性事实(Conformed Fact)一致性维度解决数据仓库的集成问题在多维体系结构中,没有物理上的数据仓库,由物理上的数据集市组合成逻辑上的数据仓库。而且数据集市的建立是可以逐步完成的,最终组合在一起,成为一个数据仓库。如果分步建立数据集市的过程出现了问题,数据集市就会变成孤立的集市,不能组合成数据仓库,而一致性维度的提出正式为了解决这个问题。一致性维度的范围是总线架构中的维一致性维度建立的地点是多维体系结构的后台(Back Ro

13、om),即数据准备区。在同一个集市内,一致性维度的意思是两个维度如果有关系事实表,主要有三种事实表,分别是事务粒度事实表(Transaction Grain Fact Table),周期快照粒度事实表(Periodic Snapshot Grain FactTable)和累积快照粒度事实表(Accumulating Snapshot Grain Fact Table);从用途的不同来说,事实表可以分为三类,分别是原子事实表,聚集事实表和合并事实表。粒度分类事务事实表(Transaction fact table)记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表”周期快照事实表(Pe

14、riodic snapshot fact table)以具有规律性的、可预见的时间间隔来记录事实,时间间隔如每天、每月、每年等等用途分类聚集事实表(Aggregated Fact Table)是原子事实表上的汇总数据,也称为汇总事实表如只有月度维,求和,平均值等合并事实表建立一个事实表,它的维度是两个或多个事实表的相同维度的集合聚集事实表和合并事实表的主要差别是合并事实表一般是从多个事实表合并而来。但是它们的差别不是绝对的,一个事实表既是聚集事实表又是合并事实表是很有可能的。因为一般合并事实表需要按相同的维度合并,所以很可能在做合并的同时需要进行聚集,即粒度变粗。非重点预连接聚集表(pre-j

15、oined aggregagte table)是通过对事实表和维度表的联合查询而生成的一类汇总表。在预连接聚集表中,保存有维度表中的描述信息和事实表的事实值。切片事实表切片事实表的结构与相对应的基础表相同,数据来源于相对应的基础表。切片事实表由于缩小了表中数据的记录数,所以查询的效率得到了很大的提高蜈蚣事实表)是指那些一张事实表中有太多维度的事实表 事实表相关的维度在15个以下为正常,如果维度个数超过25个,就出现了维度过多的蜈蚣事实表一致性事实一致性事实和一致性维度有些不同,一致性维度是由专人维护在后台(Back Room),发生修改时同步复制到每个数据集市,而事实表一般不会在多个数据集市间

16、复制。需要查询多个数据集市中的事实时,一般通过交叉探查(drill across)来实现。1.5 数据集市即席查询即席查询的位置通常是在关系型的数据仓库中:操作数据存储(ODS)是面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合,用来满足企业综合的、集成的以及操作型的处理需求。个人不建议ODS保存相当长周期的数据,同样ODS中的数据也尽量不做转换,而是原封不动地与业务数据库保持一致。即ODS只是业务数据库的一个备份或者映像,目的是为了使数据仓库的处理和决策支持要求与OLTP系统相隔离,减少决策支持要求对OLTP系统的影响。ODS的四个作用在业务系统和数据仓库之间形成一个隔离层分担

17、转移一部分业务系统细节查询的功能完成数据仓库中不能完成的一些功能ODS是细节数据仓库是汇总元数据随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据。数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键就是建立数据仓库元数据ETL(重点)ETL/BI=1/3, (BI的成败)T/ETL=2/3 so T/Bi=2/91/4ETL是BI项目重要的一个环节。通常情况下,在BI项目中ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。ETL三个部

18、分中,花费时间最长的是“T”(Transform,清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。就是整个项目的/差不多四分之一ETL的实现有多种方法,常用的有三种。一种是借助ETL工具实现,一种是SQL方式实现,另外一种是ETL工具和SQL相结合数据抽取(三种情况)1在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写select语句直接访问2不同的数据源解决方法:ODBC的方式建立数据库链接或方法三3 txt xml利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库中抽取4增量更新的问题数据清洗1不完整的数据2错误的数据3重复的数据数据转换1不一致数据转

19、换: 抽取过来之后统一转换成一个编码2数据粒度的转换:业务系统数据按照数据仓库粒度进行聚合。3商务规则的计算:ETL中将这些数据指标计算好了之后存储在数据仓库中,以供分析使用数据加载策略1时间戳方式2日志表方式3全表比对方式upset4全表删除插入方式OLAPOn-Line Transaction Processing HYPERLINK /view/8028.htm t _blank 联机事务处理系统(OLTP)也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系

20、统(Real time System)。OLAP (联机分析处理系统)多维数据分析工具的集合联机分析处理是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。钻取(Drill) :它是改变维的层次,变换分析的粒度。钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作,roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或

21、增加新维。OLAP的实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP表示基于关系数据库的OLAP实现ROLAP(事实表维度表的设计)将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了“星型模型”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模型的扩展称为“雪花模型”。MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核

22、心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成“立方块(Cube)”的结构,在MOLAP中对立方块的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。旋转 行列转换一条记录中的多个事实字段转化为多条记录切块切片的字段结构和相应的基础表完全相同,差别在于存储的记录的范围。切片事实表中保存记录的是相应基础表中记录的子集,记录数通常与某个维度记录数相同。OLAP存储方式优缺点多维存储方式(MOLAP)MOLAP在服务器上对数据立方体数组及其管理技术的实现,可以所有的信息查询都从MOLAP服务器上获得。优势性能好、响应速度快;支持高性能的决策支持计算;复杂的跨维计算;多用

23、户的读写操作。缺点占用的存储空间较大难以达到TB 级数据量;需要进行预计算,可能导致数据爆炸;无法支持维的动态变化;缺乏数据模型和数据访问的标准。关系数据库存储方式(ROLAP)ROLAP充分利用关系数据库技术将明细数据和聚合数据存储在一个关系型结构中的存储方式。优势没有大小限制;现有的关系数据库的技术可以沿用;可以通过SQL实现详细数据与概要数据的储存;现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、位图索引、SQl 的OLAP扩展等大大提高了ROALP的速度;查询性能较不如MOLAP方式。占用的存储空间较少缺点一般比MDD响应速度慢;SQL无法完成部分计算,主要是无法完

24、成多行的计算,无法完成维之间的计算。混合存储方式(HOLAP)将聚合存储到分析服务器计算机上的多维结构中,并将分区的源数据保留在它现有的关系型结构中的存储方式。特点查询性能介于以上两种方式之间占用的存储空间介于以上两种方式之间适用于在对基于大量基本数据的汇总进行查询时需要快速响应的多维数据集数据仓库架构数据仓库架构比较成熟并已经形成理论的主要有两个一个是CorporateInformation Factory,简称CIF,中文一般翻译为企业信息工厂简称MD,中文一般翻译为多维体系结构企业信息工厂主要包括集成转换层(Integrated and Transformation Layer)、操作数

25、据存储(Operational Data Store)、数据仓库(Enterprise Data Warehouse)、数据集市(Data Mart)、探索仓库(Exploration Warehouse)等部件。多维体系结构分为后台(Back Room)和前台(Front Room)两部分。后台主要负责数据准备工作,称为数据准备区(Staging Area),前台主要负责数据展示工作,称为数据集市(Data Mart)。而数据仓库是一个虚拟的部件,它指的是全部数据集市的集合。数据准备区:就是OLTP的更新数据Staging区:对存储空间的要求是临时的,且是暂时存放每天从OLTP系统抽取的变更

26、的数据。ODS区,存放两部分数据,一部分是当前变更的数据,一部分是存放从OLTP抽取的历史数据。BaseLine区,该区存放经过转换后的细节数据。DataMart区,该区存放汇总数据。附录资料:不需要的可以自行删除如何构建银行数据仓库数据仓库技术作为一项数据管理领域的新技术,其精髓在于针对联机分析处理(OLAP)提出了一种综合的解决方案,与以往很多技术不同的是,它主要是一种概念,在此概念指导下完成系统的构造。既没有可以直接购买到的现成产品,也没有具体的分析规范和实现方法,也就是说没有成熟、可靠且被广泛接受的数据仓库标准。在以往关系数据库的设计和实现中,不仅有详细的理论推导,还有无数的设计实例,

27、无论你使用的是什么公司的数据库产品、开发工具,只要按照规范做,那么实现同一业务需求的方案都会很相似。而现有数据仓库的实现中,出现了MOLAP方案和ROLAP方案的区别,出现了形形色色的数据仓库建模工具、表现工具,而设计人员的个人经验和素质也会在其中扮演很重要的角色。 数据仓库技术的实现方式 目前在数据仓库技术的实际应用中主要包括如下几种具体实现方式。 1、在关系数据库上建立数据仓库(ROLAP) 2、在多维数据库上建立数据仓库(MOLAP) MOLAP方案是以多维方式来组织数据,以多维方式来存储数据;ROLAP方案则以二维关系表为核心表达多维概念,通过将多维结构划分为两类表:维表和事实表,使关

28、系型结构能较好地适应多维数据的表示和存储。在多维数据模型的表达方面,多维矩阵比关系表更清晰且占用的存储更少,而通过关系表间的连接来查询数据的ROLAP系统,系统性能成为最大问题。MOLAP方案比ROLAP方案要简明,索引及数据聚合可以自动进行并自动管理,但同时丧失了一定的灵活性。ROLAP方案的实现较为复杂,但灵活性较好,用户可以动态定义统计和计算方式,另外能保护在已有关系数据库上的投资。 由于两种方案各有优劣,因此在实际应用中,往往将MOLAP和ROLAP结合使用,即所谓的混合模型。利用关系数据库存储历史数据、细节数据或非数值型数据,发挥关系数据库技术成熟的优势,减少花费,而在多维数据库中存

29、储当前数据和常用统计数据,以提高操作性能。 3、在原有关系库上建立逻辑上的数据仓库 由于目前正在运行的OLTP系统中已经积累了海量数据,如何从中提取出决策所需的有用信息就成为用户最迫切的需要。新建数据仓库固然能从功能、性能各方面给出一个完整的解决方案,但需要投入大量的人力、物力,并且数据仓库的建设和分析数据的积累需要一段时间,无法及时满足用户对信息分析的迫切需要。因此在筹建数据仓库的前期,可以采用一些合适的表现工具,在原有OLTP系统上建立起一个逻辑的数据仓库系统。尽管由于原有OLTP系统设计上的局限性,这样的系统可能无法实现很多分析功能,但这样一个系统中数据结构固定、信息分析需求相对稳定成熟

30、,因此数据仓库的建模、实现过程会相对容易、便捷;同时,这样的系统也会成为将来真正数据仓库建设的原型。 信息系统与数据仓库的关系 由于数据量大、数据来源多样化,在商业银行构建管理信息系统时,不可避免地会遇上如何管理这些浩如烟海的数据,以及如何从中提取有用的信息的问题;而数据仓库的最大优点在于它能把企业网络中不同信息岛上的商业数据集中到一起,存储在一个单一的集成的数据库中,并提供各种手段对数据进行统计、分析。因此可以说,在银行使用数据仓库构建管理信息系统,既有压力,又有数据基础,它们之间的联系是必然的,难以割舍的。 数据仓库在商业银行的应用范围包括存款分析、贷款分析、客户市场分析、相关金融业分析决

31、策(证券、外汇买卖)、风险预测、效益分析等。 在银行信息系统构建时,由于历史情况和现实需求的不同,存在两种途径: 1、建设新系统 由于目前国内商业银行对银行内部运营的监管,缺乏很好的数据搜集机制,因此可以在构建管理信息系统时,分数据收集录入和数据汇总分析两部分来考虑。这样的系统中由于不需考虑大量历史数据的处理问题,同时考虑到搜集过程中可能存在多个数据来源,因此可以在系统建设的同时构建数据仓库,将搜集来的各种数据通过数据抽取整合到数据仓库中。 2、完善原有系统 而对于已经存在OLTP系统,其中沉淀了大量历史数据,则可以先在原有系统上建立逻辑数据仓库,即使用数据分析的表现工具,在关系模型上构建一个

32、虚拟的多维模型。当系统需求稳定后,再建立物理数据仓库,这样既节省投资,又缩短开发工期。 实现中需要注意的问题 一、模型设计中的问题 模型设计(包括逻辑模型设计和物理模型设计)是系统的基础和成败的关键,在实际操作中,视实现技术的不同应分别对下列问题引起注意。 1、直接构建数据仓库 直接构建数据仓库时,必须按业务分析的要求重组OLTP系统中的数据,并要按不同侧重点分别组织,使之便于使用。 *主题的确定 主题是一个逻辑概念,它应该能够完整、统一地刻画出分析对象所涉及的各项数据以及相互联系。划分主题的根据主要来源于两方面:对原有固定报表的分析和对业务人员的访谈。原有固定报表能较好地反映出以往工作对数据

33、分析的需求,而且数据含义和格式相对成熟、稳定,在模型设计中需要大量借鉴。但仅仅满足于替代目前的手工报表还远远不应是构建管理信息系统的目标,还应该通过业务访谈,进一步挖掘出日常工作中潜在的更广、更深的分析需求。只有这样,才能真正了解构建数据仓库模型所需的主题划分。 *分析内容的细化 主题的划分实际上是与分析内容的范围直接相关的,一旦主题划分清楚了,下一步就是细化分析的具体内容以及根据分析内容的性质确定它在数据仓库中的位置。通常维元素对应的是分析角度,而度量对应的是分析关心的具体指标。一个指标究竟是作为维元素、度量还是维属性,取决于具体的业务需求,但从实际操作中可以总结出如下的概念性经验:作为维元

34、素或维属性的通常是离散型的数据,只允许有限的取值;作为度量的是连续型数据,取值无限。如果一定要用连续型数据作为维元素,则必须对其按取值进行分段,以分段值作为实际的维元素。判断分析指标是作为维元素还是维属性时,则需要综合考虑这个指标占用的存储空间与相关查询的使用频度。 需要特别强调的是,在细化分析内容的过程中,务必解决指标的歧义问题。在不同报表中以及在业务访谈中同一名称的指标,是否是在同样条件限定下,通过同样方法提取或计算得到的,它们之间的相互关系是什么,这些问题都必须从熟悉业务的分析人员那里得到准确、清晰的答案,否则将会影响到模型设计、数据提取、数据展现等多个方面。 *粒度的设计 数据仓库模型

35、中所存储的数据的粒度将对信息系统的多方面产生影响。事实表中以各种维度的什么层次作为最细粒度,将决定存储的数据能否满足信息分析的功能需求,而粒度的层次划分、以及聚合表中粒度的选择将直接影响查询的响应时间。 如果同一个信息系统要在大范围、多层次上同时运行,如部门级和企业级,还应考虑不同层次的数据仓库采用不同的粒度。 *模型设计中的技巧 复合指标尤其是比率类指标的定义,必须注意累加时是先加减后乘除,还是反之。户数、笔数的计算,这类指标在分析或报表中经常出现,但不需要作为单独的指标物理存在于数据库中,但定义分析模型时一定应该准备。度量的时间特性,针对分析指标在时间维上的不同表现,可分为可累加指标、半可

36、累加指标和不可累加指标。 2、在原有数据基础上构建逻辑数据仓库 如果直接使用OLTP系统中的数据进行数据分析处理,会遇到许多麻烦,有时甚至是不可能实现的。这并不是说关系数据库不好,而是因为其设计思路不适应较大规模数据分析。因此在使用这种方法时,需要注意下列问题的处理: *不同的时间单位 这是实现过程中最常遇到的问题,也往往是最难解决的问题。OLTP系统中存储的时间往往采用与实际业务发生相同的时间单位,如帐务数据单位为日期,财务报表单位为月或半年。而面向分析时,往往要将不同时间单位的数据统一到同一个结果中,这样就必须存在适当的转换机制才能实现。 *冗余信息 所谓冗余信息,就是指不同关系表中存在的

37、同一含义的字段,而同一含义不仅指这些字段的取得或计算方式一样,还指它们成立的条件一样,例如截止某一时间同一地区的同一贷种的贷款余额。在OLTP系统中,这样的字段往往是基于性能考虑而设计的,而在面向分析设计模型时,为了保证结果的唯一性和准确性,就必须用且只用其中之一的数据产生分析结果。 *表间连接 由于OLTP系统中表的设计面向业务处理,既要保证数据的完整性、一致性,又要考虑响应时间,因此表与表之间既相对独立,又相互依赖。在设计数据仓库逻辑模型时,对表间的连接必须做出相应取舍,既要保证分析数据能通过连接取得或计算出,又要避免出现环路,造成分析数据的歧义。另外,不同的连接途径还会出现不同的查询速度,影响数据分析的响应性能。 *统计表的设计 如果上述问题不能在原有数据库基础上得到很好的解决,那么权益之计就是构建统计表,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论