




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1BIBusiness Intelligence,即商业智能,商务智能综合企业所有沉淀下来的信息,用科学的分析方法,为企业领导提供科学决策信息的过程。BOSS业务运运营支撑系BPM企业绩效效管理BPR业务流程程重整CRM客户关系系管理CUBE立方体体DM(Dataamart)数据集市 数据仓库的的子集,它含含有较少的主主题域且历史史时间更短数数据量更少,一一般只能为某某个局部范围围内的管理人人员服务,因因此也称之为为部门级数据据仓库。DM(DataaMine)数据挖掘DSS决策支持持系统EDM企业数据据模型3ERPEnterprrise RResourrse Pllanninng企业资源源规划
2、。它是是一个以管理理会计为核心心的信息系统统,识别和规划企业业资源,从而而获取客户订订单,完成加加工和交付,最最后得到客户户付款。换言言之,ERP将企企业内部所有有资源整合在在一起,对八八个采购、生生产、成本、库库存、分销、运运输、财务、人力资源源进行规划,从从而达到最佳佳资源组合,取取得最佳效益益。4ETL数据抽取(Exxtractt)、转换(Transsform)、清洗(Cleannsing)、装载(Load)的的过程。构建数据仓仓库的重要一一环,用户从从数据源抽取取出所需的数数据,经过数数据清洗,最最终按照预先定义好好的数据仓库库模型,将数数据加载到数数据仓库中去去。KDD数据库中中知识
3、发现5 KPI企业关键业绩指指标(KPII:KeyPrrocesssIndiccationn)是通过对对组织内部流流程的输入端端、输出端的关键参数进进行设置、取取样、计算、分分析,衡量流流程绩效的一一种目标式量量化管理指标标,是把企业的战略略目标分解为为可操作的工工作目标的工工具,是企业业绩效管理的的基础。LDM逻辑数据据模型6 MDD多维数据库(MMulti Dimessionall Dataabase,MDD)可可以简单地理理解为:将数数据存放在一一个n维数组中,而而不是像关系系数据库那样样以记录的形形式存放。因因此它存在大大量稀疏矩阵阵,人们可以通过多多维视图来观察数数据。多维数数据库增
4、加了了一个时间维维,与关系数数据库相比,它的优势在于可可以提高数据据处理速度,加加快反应时间间,提高查询询效率。Metadatta(元数据),它是“关于数据的的数据,其内容主要要包括数据仓仓库的数据字字典、数据的的定义、数据的的抽取规则、数数据的转换规规则、数据加载频频率等信息。MOLAP自行行建立了多维维数据库,来来存放联机分分析系统数据据7 ODS(四四个特点)(Opratiional Data Storee)操作型数数据存储,是建立在数据据准备区和数据仓库之间间的一个部件件。用来满足足企业集成的的、综合的操操作型处理需需要,操作数数据存储是个个可选的部件。对于于一些准实时时的业务数据据库
5、当中的数数据的暂时存存储,支持一一些同时关连连到历史数据据与实时数据据分析的数据据暂时存储区区域。8 什么是数据据集市DM数据集市可以看看作是数据仓仓库的一个子子集,它含有有较少的主题题域且历史时时间更短数据据量更少,一一般只能为某某个局部范围围内的管理人人员服务,因因此也称之为为部门级数据据仓库。二 数据仓库DWDatawarrehousse,数据仓仓库是一个集集合或过程,4要要素面向主题题,集成,时间相相关(反映历历史变化), (稳定)不可修修改的数据集集合。数据仓库是在企企业管理和决决策中面向主主题的、集成成的、与时间间相关的、不不可修改的数数据集合。与与其他数据库库应用不同的的是,数据
6、仓仓库更像一种种过程,对分分布在企业内内部各处的业业务数据的整整合、加工和和分析的过程程。特点传统操作型数据据库数据仓库面向主题菜市场按功能来分类每一个模块就如如一个小摊位位,萝卜,青青菜都有超市按类型分类如都为利润的分分为一个事实实表事实表和维表的的分类集成的与特定的应用相相关,数据库库之间独立的有联系,ETLL的过程已经经是将多个数数据库联系统统一,去除之之间的不一致致性。相对稳定通常实时更新,数数据根据需要要及时发生变变化供企业决策分析析之用,数据据操作主要是是数据查询,一一旦某个数据据进入数据仓仓库以后,一一般情况下将将被长期保留留,也就是数数据仓库中一一般有大量的的查询操作,但但修改
7、和删除除操作很少,通通常定期的加加载、刷新。反映历史变化主要关心当前某某一个时间段段内的数据包含历史信息,系系统记录了企企业从过去某某一时点下图是一个典型型的企业数据据仓库系统,通通常包含数据据源、数据存储与与管理、数据的访问问三个部分:最为重要的一张张图这张图可以看出出四个特点中中,面向对象象,集成,数据源:是指企企业操作型数数据库中的各各种生产运营营数据 即OLIPP 数据的存储与管管理:数据仓仓库的存储主主要由元数据据的存储及数据据的存储两部部分组成。元数据是关关于数据的数数据,其内容容主要包括数数据仓库的数数据字典、数数据的定义、数据的抽取规则、数数据的转换规规则、数据加加载频率等信信
8、息。各操作作数据库中的的数据按照元元数据库中定义的的规则,经过过抽取、清理理、转换、集集成,按照主主题重新组织织,依照相应应的存储结构进行存存储数据的访问:由由OLAP(联机分析处处理)、数据挖掘掘、统计报表表、即席查询询等几部分组组成。例如OLAAP:针对特特定的分析主主题,设计多多种可能的观观察形式,设设计相应的分分析主题结构(即进行事事实表和维表表的设计),使使管理决策人人员在多维数数据模型的基基础上进行快快速、稳定和交互互性的访问,并并进行各种复复杂的分析和和预测工作。按照存储方式来来分,OLAAP可以分成成MOLAPP以及ROLAAP等方式,MOLAP (Multii-Dimeens
9、ionn OLAPP)将OLAP分析析所需的数据据存放在多维维数据库中。分分析主题的数数据可以形成成一个或多个个多维立方体体。ROLAP(RRelatiional OLAP)将OLAP分析析所需的数据据存放在关系系型数据库中中。分析主题题的数据以“事实表-维表”的星型模式组织织。三 企业信息工工厂企业信息工厂(Corpoorate Inforrmatioon Facctory,简简称EIF)是一一种构建数据据仓库的架构构。企业信息工厂主主要包括五个个集成转换层层(I&T)、操操作数据存储储(ODS)、企企业级数据仓仓库(EDW)、数数据集市(DDM)、探索索仓库(EWW)等部件。这这些部件有机
10、机的结合在一一起,为企业提供信息息服务。企业级数据仓库库是企业信息息工厂的核心心部件,用来来保存整个企企业的数据。一一般,也称数据仓库,是是用来满足企企业战略决策策的需要。数数据仓库的数数据来自数据据准备区和操操作数据存储。数据集市的数据来源是数数据仓库。企企业信息工厂厂中的数据集集市一般来说说是非规范化化的、定制的的和汇总的。而多维维体系架构中中的数据集市市分为两种,分分别是原子数数据集市和聚聚集数据集市市。一般来说,企业业信息工厂中中的数据集市市相当于多维维体系架构中中的聚集数据据集市。企业信息工厂中中的数据流向向一般是从源源系统到数据据准备区到操操作数据存储储到数据仓库到数据集市市维Di
11、menssion维,是人们观察察数据的特定定角度,是考考虑问题时的的一类属性,属属性集合构成成一个维。商商店、时间和和产品都是维维。各个商店店的集合是一一个维,时间间的集合是一一个维,商品品的集合也是是一个维。代理关键字(维维ID)代理关键字一般般是指维度表表中使用顺序序(序列)分分配的整数值值作为主键,也也称为“代理键”。代理关键字用于于维度表和事事实表的连接接。使用代理关键字字可以用来处处理缓慢变化化维。维度表表数据的历史史变化信息的的保存是数据仓库设计的的实施中非常常重要的一部部分。Kimmball的的缓慢变化维维处理策略的的核心就是使用代理关键字字。优点1缓冲2性能3建不存在的维维度记
12、录4缓慢变化维处处理缓慢变化维(能能力的体现)随着时间的流失失发生缓慢的的变化处理缓慢变化维维的方法通常常有三种方式:第一种方式是直直接覆盖原值值。这样处理理,最容易实实现,但是没没有保留历史史数据,无法分析历史变化化信息。第一一种方式通常常简称为“TYPE 1”。第二种方式是添添加维度行。这这样处理,需需要代理键的的支持。实现现方式是当有有维度属性发生变化时,生生成一条新的的维度记录,主主键是新分配配的代理键,通通过自然键可可以和原维度记录保持关关联。第二种种方式通常简简称为“TYPE 2”。第三种方式是添添加属性列。这这种处理的实实现方式是对对于需要分析析历史信息的的属性添加一列,来记录录
13、该属性变化化前的值,而而本属性字段段使用TYPPE 1来直直接覆盖。这这种方式的优点是可以同同时分析当前前及前一次变变化的属性值值,缺点是只只保留了最后后一次变化信信息。第三种方式式通常简称为为“TYPE 3”。退化维度事实表中的部分分ID如订单单号,但他没没有对应的维维度表,这编编号称为退化化维微型维度为了解决快变超超大维度,解解决的方法是是,将分析频频率比较高或或者变化频率比较大的字字段提取出来来,建立一个个单独的维度度表。这个单单独的维度表表就是微型维维度表。多维体系结构(MD)中的三三个关键性概概念,一致性维度,总总线架构(Bus AArchittecturre)和一致性事事实(Con
14、foormed Fact)一致性维度解决数据仓库的的集成问题在多维体系结构构中,没有物物理上的数据据仓库,由物物理上的数据据集市组合成成逻辑上的数据仓库。而且且数据集市的的建立是可以以逐步完成的的,最终组合合在一起,成成为一个数据据仓库。如果分步建建立数据集市市的过程出现现了问题,数数据集市就会会变成孤立的的集市,不能能组合成数据仓库,而而一致性维度度的提出正式式为了解决这这个问题。一致性维度的范范围是总线架架构中的维一致性维度建立立的地点是多多维体系结构构的后台(BBack RRoom),即即数据准备区区。在同一个集市内内,一致性维维度的意思是是两个维度如如果有关系事实表,主要有三种事事实表
15、,分别别是事务粒度度事实表(Transaactionn Graiin Facct Tabble),周周期快照粒度度事实表(PPerioddic Snnapshoot Graain FaactTable)和和累积快照粒粒度事实表(Accumulating Snapshot Grain Fact Table);从用途的不同来说,事事实表可以分分为三类,分分别是原子事事实表,聚集集事实表和合合并事实表。粒度分类事务事实表(TTransaactionn factt tablle)记录的的事务层面的的事实,保存存的是最原子子的数据,也称“原子子事实表”周期快照事实表表(Perioodic ssnapsh
16、hot faact taable)以以具有规律性性的、可预见见的时间间隔来记录事实,时时间间隔如每每天、每月、每每年等等用途分类聚集事实表(AAggreggated Fact Tablee)是原子事事实表上的汇汇总数据,也也称为汇总事事实表如只有月度度维,求和,平平均值等合并事实表建立一个事实表表,它的维度度是两个或多多个事实表的的相同维度的的集合聚集事实表和合合并事实表的的主要差别是合合并事实表一一般是从多个个事实表合并并而来。但是它们的差别别不是绝对的的,一个事实实表既是聚集集事实表又是是合并事实表表是很有可能能的。因为一般合合并事实表需需要按相同的的维度合并,所所以很可能在在做合并的同同
17、时需要进行行聚集,即粒度变变粗。非重点预连接聚集表(pre-joined aggregagte table)是通过对事实表和维度表的联合查询而生成的一类汇汇总表。在预预连接聚集表表中,保存有有维度表中的的描述信息和和事实表的事事实值。切片事实表切片事实表的结结构与相对应应的基础表相相同,数据来来源于相对应应的基础表。切切片事实表由于缩小了表表中数据的记记录数,所以以查询的效率率得到了很大大的提高蜈蚣事实表)是指那些一张张事实表中有有太多维度的的事实表 事事实表相关的的维度在155个以下为正正常,如果维维度个数超过过25个,就出出现了维度过多的蜈蜈蚣事实表一致性事实一致性事实和一一致性维度有有些
18、不同,一一致性维度是是由专人维护护在后台(BBack RRoom),发生修改时同步步复制到每个个数据集市,而而事实表一般般不会在多个个数据集市间间复制。需要要查询多个数据集集市中的事实实时,一般通通过交叉探查查(drilll acrross)来来实现。1.5 数据据集市即席查询即席查询的位置置通常是在关关系型的数据据仓库中:操作数数据存储(OODS)是面向主题的、集成的、可变的、反映当前前数据值的和和详细的数据据的集合,用用来满足企业综合的、集成成的以及操作作型的处理需需求。个人不建议ODDS保存相当当长周期的数数据,同样ODS中的数据据也尽量不做做转换,而是是原封不动地地与业务数据据库保持一
19、致致。即ODSS只是业务数据库的一一个备份或者者映像,目的的是为了使数数据仓库的处处理和决策支持要要求与OLTP系统相相隔离,减少少决策支持要要求对OLTTP系统的影影响。ODS的四个作作用在业务系统和和数据仓库之之间形成一个个隔离层分担转移一部部分业务系统统细节查询的的功能完成数据仓库库中不能完成成的一些功能能ODS是细节数据仓库是是汇总元数据随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据。数据仓库中的数数据是从许多多业务处理系系统中抽取、转转换而来,对对于这样一个个复杂的企业业数据环境,如何何以安全、高高效的方式来来对它们进行行管理和访问问就变得尤为为重要。解决决这
20、一问题的关键就就是建立数据据仓库元数据据ETL(重点)ETL/BI=1/3, (BI的的成败)T/ETL=22/3 so T/Bii=2/91/4ETL是BI项项目重要的一一个环节。通通常情况下,在在BI项目中ETLL会花掉整个个项目的1/3的时间,ETTL设计的好好坏直接关接接到BI项目的成成败。ETLL三个部分中中,花费时间间最长的是“T”(Trannsformm,清洗、转转换)的部分,一一般情况下这部分工作量量是整个ETTL的2/3。就是是整个项目的的/差差不多四分之之一ETL的实现有有多种方法,常常用的有三种种。一种是借借助ETL工具实实现,一种是是SQL方式实现,另外一一种是ETLL
21、工具和SQLL相结合数据抽取(三种种情况)1在DW数据库库服务器和原原业务系统之之间建立直接接的链接关系系就可以写seelect语语句直接访问问2不同的数据源源解决方法:ODBC的方方式建立数据据库链接或方方法三3 txt xxml利用数数据库工具将将这些数据导导入到指定的的数据库,然然后从指定的的数据库中抽抽取4增量更新的问问题数据清洗1不完整的数据据2错误的数据3重复的数据数据转换1不一致数据转转换: 抽取取过来之后统统一转换成一一个编码2数据粒度的转转换:业务系统数数据按照数据据仓库粒度进进行聚合。3商务规则的计计算:ETL中将这这些数据指标标计算好了之之后存储在数数据仓库中,以以供分析
22、使用用数据加载策略1时间戳方式2日志表方式3全表比对方式式upsett4全表删除插入入方式OLAPOn-Linee Trannsactiion Prrocesssing HYPERLINK /view/8028.htm 联机机事务处理系系统(OLTTP)也称为面向交易易的处理系统统,其基本特特征是顾客的的原始数据可可以立即传送送到计算中心心进行处理,并并在很短的时时间内给出处处理结果。这这样做的最大大优点是可以以即时地处理理输入的数据据,及时地回回答。也称为为实时系统(RReal ttime SSystemm)。OLAP (联联机分析处理理系统)多维维数据分析工工具的集合联机分析处理是是使分析
23、人员员、管理人员员或执行人员员能够从多种种角度对从原原始数据中转转化出来的、能能够真正为用用户所理解的的、并真实反反映企业维特特性的信息进进行快速、一一致、交互地地存取,从而而获得对数据据的更深入了解的一类软件件技术。钻取(Drilll) :它它是改变维的的层次,变换换分析的粒度度。钻取包含含向下钻取(Drilll-downn)和向上钻取(DDrill-up)/上上卷(Rolll-up)操作,rolll up是是在某一维上上将低层次的的细节数据概概括到高层次的汇汇总数据,或或者减少维数数;而driill doown则相反反,它从汇总总数据深入到到细节数据进行观察察或增加新维维。OLAP的实现现
24、方法,根据据存储数据的的方式不同可可以分为ROOLAP、MOLAPP、HOLAPP表示基于关系数数据库的OLLAP实现ROLAP(事事实表维度表表的设计)将多维数据库的的多维结构划划分为两类表表:一类是事事实表,用来来存储数据和和维关键字;另一类是维维表,即对每每个维至少使使用一个表来来存放维的层层次、成员类类别等维的描描述信息。维维表和事实表表通过主关键键字和外关键键字联系在一一起,形成了了“星型模型”。对于层次次复杂的维,为避免冗余余数据占用过过大的存储空空间,可以使使用多个表来来描述,这种星型模型型的扩展称为为“雪花模型”。MOLAP表示基于多维数数据组织的OOLAP实现现(Multti
25、dimeensionnal OLLAP)。以以多维数据组组织方式为核核心,也就是说,MMOLAP使使用多维数组组存储数据。多多维数据在存存储中将形成成“立方块(Cube)”的结构,在MOLAPP中对立方块块的“旋转”、“切块”、“切片”是产生多维维数据报表的的主要技术。旋转 行列转换换一条记录中中的多个事实实字段转化为为多条记录切块切片的字段结构构和相应的基基础表完全相相同,差别在在于存储的记记录的范围。切切片事实表中中保存记录的的是相应基础础表中记录的的子集,记录数数通常与某个个维度记录数数相同。OLAP存储方方式优缺点多维存储方式(MOLAP)MOLAP在服服务器上对数数据立方体数数组及其
26、管理理技术的实现现,可以所有有的信息查询询都从MOLLAP服务器器上获得。优势性能好、响应速速度快;支持高性能的决决策支持计算算;复杂的跨维计算算;多用户的读写操操作。缺点占用的存储空间间较大难以达到TB 级数据量;需要进行预计算算,可能导致致数据爆炸;无法支持维的动动态变化;缺乏数据模型和和数据访问的的标准。关系数据库存储储方式(ROOLAP)ROLAP充分分利用关系数数据库技术将将明细数据和和聚合数据存存储在一个关关系型结构中中的存储方式式。优势没有大小限制;现有的关系系数据库的技技术可以沿用用;可以通过SQLL实现详细数数据与概要数数据的储存;现有关系型数据据库已经对OOLAP做了了很多优化,包包括并行存储储、并行查询询、位图索引引、SQl 的OLAP扩展展等大大提高高了ROALL
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 代签合伙人合同协议书
- 工程安装安全合同协议书
- 京东商城电子合同协议书
- 外墙竹架搭设合同协议书
- 养老创业计划书范文大全
- 融媒体视野下传统媒体转型路径研究
- 互联网物流物流行业的新发展
- 2025年煤气项目安全调研评估报告
- syb餐饮创业计划书模板
- 2025秋五年级上册语文(统编版)-【6 将相和】作业课件
- 教师交通安全法规
- 2025-2030年中国蛭石市场发展前景及投资策略分析报告
- 江苏省淮安市(2024年-2025年小学六年级语文)统编版期末考试(下学期)试卷及答案
- 文创产品设计课件
- 土地平整工程施工方案与技术措施
- 2015-2019高考全国卷历史小论文真题(附答案)资料
- 基层数字化治理能力提升的内在逻辑与创新路径
- 《公路桥梁阻尼模数式伸缩装置》
- 2024-2025学年广东省广州市高二下学期7月期末英语质量检测试题(含答案)
- 蒸压加气混凝土板检测原始记录表(含型式检验)
- 南京市房屋租赁合同(试行)(居间服务版)
评论
0/150
提交评论