数据仓库及其BI概念ppt课件_第1页
数据仓库及其BI概念ppt课件_第2页
数据仓库及其BI概念ppt课件_第3页
数据仓库及其BI概念ppt课件_第4页
数据仓库及其BI概念ppt课件_第5页
已阅读5页,还剩131页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1数据仓库概念数据仓库概念2知识模块分解知识模块分解此次课程涵盖下面的模块:此次课程涵盖下面的模块:模块模块1: 数据仓库数据仓库 - 概述概述 以及以及 数据仓库和数据仓库和 OLTP联机事务处理的对比联机事务处理的对比模块模块2: 数据仓库架构数据仓库架构模块模块3:ETL 过程过程模块模块4: 数据仓库和数据集市的对比,以及数据仓库概念模型数据仓库和数据集市的对比,以及数据仓库概念模型模块模块5: OLAP联机分析处理概述联机分析处理概述模块模块6: 数据仓库成功的诀窍数据仓库成功的诀窍33数据仓库概念数据仓库概念模块14包含的主题包含的主题本模块提供需要数据仓库的原因什么是数据仓库数据

2、仓库的发展过程数据仓库架构数据挖掘如何和数据仓库共同工作的使用数据仓库的好处为什么需要一个分离的数据仓库?OLTP和数据仓库之间的区别55什么是什么是 BI? 商务智能 (BI)包含的应用系统和技术较宽泛,通过收集、存储、分析和提供对数据的访问,来帮助企业用户做出更好的商务决策。 BI 应用包括决策支持、查询和报表、联机分析处理OLAP、统计分析、预测和数据挖掘等活动。 例如 : Business Objects : businessobjects66BI- 简而言之简而言之77Raw Data哪些人是带给我们最低/最高利润的客户?哪些人是我们的客户以及他们买什么产品?哪些客户最有可能流失到竞

3、争对手那里? 新产品/服务会对收入和利润有什么影响?什么产品促销方式最能影响收入?什么是最有效的分销渠道?一个厂商想知道一个厂商想知道.8数据数据, 数据无处不在。然而数据无处不在。然而 我找不到我所需要的数据 数据分散在网络上的各个地方 数据存在多个版本, 其中有细小的差别 我不能获取我所需要的数据 需要一个专家来获取数据 我无法理解所找到的数据 可得到的数据,但对应的文档说明很糟糕 我无法使用所找到的数据 结果不是期望的 数据需要从一种形式转换到另外一种形式9什么是数据仓库什么是数据仓库? “单一的、完整的和一致的数据存储,这些数据从多个数据源获取,经过加工成在一定程度上为最终用户可理解的

4、形式,以用于业务管理。”Barry Devlin10什么是数据仓库什么是数据仓库? 数据仓库的目标,是利用组织里的数据,更加有效地辅助决策过程. 数据仓库是收集组织后的数据集合。它容易通过分析、抽取、合并,进而被用来进一步理解数据。它可以与收集数据来进行即时处理的业务系统进行对比,如订单和付款事务处理,尽管其数据也可能成为数据仓库的一部分。 数据仓库是一个集成的中央数据库,包含来自于组织内的所有操作型数据源和归档系统。它包含了事务处理系统数据的拷贝、特别是用于查询分析的结构化数据。1111用户要说的是用户要说的是. 应该整合整个企业内的数据 汇总数据对整个组织具有价值 历史数据有重要作用 灵活

5、的决策支持能力12什么是数据仓库什么是数据仓库? 是一个将数据转换成信息、使其能及时供最终用户使用的过程。DataInformation13演变过程演变过程 60年代: 批处理报表 难于查找和分析信息 缺乏灵活性,成本昂贵,对于每个新需求都要重新编程 70年代: 基于终端的DSS 和and EIS (主管信息系统) 仍然缺乏灵活性,没有和桌面工具集成起来 80年代:桌面级数据访问和分析工具 查询工具,电子表格,图形界面 易于使用,但是只能访问操作型数据库 90年代至今: 带有集成OLAP引擎和工具的数据仓库,实时数据仓库14数据仓库数据仓库数据仓库是 面向主题的集成的时变的随时间变化的)非易失

6、的易得到的 数据集合,主要用于组织里的决策制定。- Bill Inmons, Building the Data Warehouse 201915数据仓库架构数据仓库架构数据仓库引擎优化加载抽取清洗分析查询元数据管理RelationalDatabasesLegacyDataPurchased DataERPSystems16数据挖掘和数据仓库数据挖掘和数据仓库 数据仓库是企业的数据存储 数据挖掘是挖掘出企业数据中的知识17什么使数据挖掘成为可能什么使数据挖掘成为可能?如下领域的发展,使得数据挖掘的运用成为可能:数据仓库更好和更多的数据 (如, 操作型数据, 行为数据, 以及人口统计学数据) 易

7、于部署的数据挖掘工具的出现新的数据挖掘技术的出现.- Gartner Group18为什么要分离出数据仓库为什么要分离出数据仓库? 性能性能 操作型数据库设计,应用于已知事务和工作量的场合操作型数据库设计,应用于已知事务和工作量的场合 对于操作型系统来说,进行复杂的对于操作型系统来说,进行复杂的OLAP查询会使其性能下降。查询会使其性能下降。 对多维视图和查询,需要特殊的数据组织方式,读取方法,实施方案。对多维视图和查询,需要特殊的数据组织方式,读取方法,实施方案。 功能功能 遗失数据:决策支持需要历史数据,而操作型数据库并不保存它遗失数据:决策支持需要历史数据,而操作型数据库并不保存它 数据

8、整合数据整合 :决策支持需要整合:决策支持需要整合 (聚合,汇总来自多个异构数据源操(聚合,汇总来自多个异构数据源操作型数据库,外部数据源的数据作型数据库,外部数据源的数据 数据质量:不同数据源经常使用不一致的数据表现形式、代码、格式,需数据质量:不同数据源经常使用不一致的数据表现形式、代码、格式,需要统一它们要统一它们19数据仓库的好处数据仓库的好处 可靠的报表可靠的报表 快速得到数据快速得到数据 集成的数据集成的数据 灵活的数据展示方式灵活的数据展示方式 更好的决策制定更好的决策制定20那么那么, 二者的区别是什么二者的区别是什么?21面向应用的面向应用的 vs 面向主题的面向主题的面向应

9、用的操作型数据操作型数据库库贷款信用卡信托存款面向主题的数据仓库数据仓库客户供应商产品活动22对比对比OLTP 和和 数据仓库数据仓库 OLTP 面向应用的 用来运行事务处理 详细的数据 当前最新数据 孤立的数据 重复访问 操作人员 数据仓库 (DSS) 面向主题的 用来分析业务 汇总和精炼的数据 快照数据 集成的数据 即席查询 知识用户 (管理者)23OLTP Vs 数据仓库数据仓库 OLTP 对性能敏感 同时访问少量的记录(数十条) 可以读和更新 没有数据冗余 DB大小:100MB -100 GB 用户:数百个- 数千个 数据仓库 对性能不敏感 同时访问大量的数据 (数百万条) 主要是读(

10、批量更新) 存在数据冗余 DB大小:100 GB - TB 用户:数个- 数百个24总的来说总的来说. OLTP 系统用来“运转事务处理 数据仓库用来帮助“优化业务25来自多个数据源的单一的,完整的一致的数据存储。什么是BI?什么是数据仓库?数据仓库架构数据挖掘如何同数据仓库共同工作数据仓库的好处数据仓库和OLTP的区别需要分离出数据仓库的原因要点概述要点概述可靠的报表快速读取数据集成数据更好的进行决策 BI集成了挖掘数据,分析,报表的功能。 数据挖掘提供从企业数据仓库中挖掘的知识。用来分析业务用来运行业务26检验检验1. _是数据仓库的面向一个主题的视图是数据仓库的面向一个主题的视图 OLT

11、P 系统系统/ Data Staging Area/ Data Mart/ None 2. 数据挖掘意味着数据挖掘意味着_ Modeling/Forecasting/Explanatory Analysis 3. 订单输入系统是一个订单输入系统是一个OLTP 系统的例子系统的例子 True/False4. 数据仓库的并发用户数量不是很多数据仓库的并发用户数量不是很多 False/True5. 数据抽取是数据抽取是_过程过程 A. 从数据源获取信息从数据源获取信息/数据,并将其变成可用于数据仓库数据,并将其变成可用于数据仓库B. 将抽取的数据加载到数据仓库将抽取的数据加载到数据仓库C. Both

12、 Data MartForecastingTrueTrueBoth27数据仓库架构数据仓库架构模块模块228架构架构, 设计设计 & 构造构造 数据仓库架构 加载及更新 构造/模型integration * intelligence * insight29涵盖的主题涵盖的主题这个部分包括下列内容:数据仓库架构基本的两个层次架构独立的数据集市数据集市及数据存储ETL过程数据质量保证数据质量保证工具ETL 工具元数据及其重要性3030integration * intelligence * insight业务系统业务系统信息转换/集成架构外部系统外部系统企业数据仓库财务数据集市财务数据集市

13、独立的独立的销售数据集市销售数据集市非独立的非独立的市场数据集市市场数据集市非独立的非独立的网络服务器网络服务器外部客户外部客户备份服务局域网客户局域网客户31数据仓库架构数据存储介质数据存储介质遗留系统遗留系统元数据存储元数据存储临时存储区临时存储区抽取抽取/转换服务器转换服务器往数据仓库往数据仓库/数据集市数据集市 元数据设计元数据设计/管理管理 清洗工具清洗工具 映射工具映射工具 抽取管理工具抽取管理工具 转换工具转换工具 移植管理工具移植管理工具32数据仓库架构数据仓库架构 通用的两类架构 独立的数据集市 数据集市和操作型数据存储这两个层次的架构都会涉及到数据的抽取,转换及加载ETL)

14、33通用的两类架构通用的两类架构ETLOne, company-wide warehouse周期性抽取数据仓库的数据并不全都是最新的数据34独立数据集市独立数据集市ETL每个独立的数据集市必须单独进行ETL数据获取复杂是由于存在多个数据集市造成的35非独立数据集市和操作型数据存储非独立数据集市和操作型数据存储ETL对于企业数据仓库的单一对于企业数据仓库的单一ETL过过程程(EDW)数据访问将变得简单ODS提供获取当前最新数据的渠道非独立数据集市可以通过企业数据仓库加载数据36数据和维度可在多个数据集市之间共享 通用的两类架构 独立数据集市 非独立数据集市简要概述简要概述各个数据集市之间数据存储

15、相互独立37检验检验1. 对于自顶向下的方法,下面那个表述是错的?对于自顶向下的方法,下面那个表述是错的?a. 数据仓库中保存着从源系统抽取出来的原子数据,在那里,数据被分派到单个或者多个不同的数据数据仓库中保存着从源系统抽取出来的原子数据,在那里,数据被分派到单个或者多个不同的数据集市中去集市中去 b .它的实施比别的方法花费较少的成本和时间它的实施比别的方法花费较少的成本和时间c. 它强制各个数据集市之间数据的一致性和标准性它强制各个数据集市之间数据的一致性和标准性2. 数据仓库设计的主要目标是:数据仓库设计的主要目标是: a. 高效的查询处理高效的查询处理 b. 高效的事务处理高效的事务

16、处理 c. None3.在独立的数据集市中,数据和维度可在多个数据集市之间共享。在独立的数据集市中,数据和维度可在多个数据集市之间共享。 True/False 4. ODS可提供当前最新数据可提供当前最新数据 True/False 5. 非独立数据集市中的数据获取更为复杂。非独立数据集市中的数据获取更为复杂。 True/False OPTION BNONEFalseTrueTrue38ETL 过程过程模块模块339构建数据仓库抽取, 转换,加载数据ETL)抽取数据抽取技术抽取工具构建数据仓库的步骤 40抽取阶段抽取阶段分析源数据,选择抽取工具抽取数据一般要用源系统的语言编写代码 (例如 PL/

17、SQL,VB Script,或者 COBOL)。抽取工具能够自动生成源系统的代码。使用抽取工具比手工编写简单的多。需要预处理和在加工过程。例如,在抽取阶段前,可能需要对数据排序或者调用一个含有某种规则的函数处理数据。41转换阶段转换阶段数据质量的重要性创建业务规则使用工具创建可复用的转换模块或对象简单数据转换包括包含日期,数字和字符转化的转换增加代理键整合的数据源集验证1对1 和1对多的关系42加载阶段加载阶段插入语句会生成日志建议批量加载 全量刷新数据前应清空目标表 索引管理 删除,重建索引43数据刷新阶段 处理缓慢变化维自动抽取-转换-加载周期.增量事实表抽取.清理和归档数据.44抽取数据

18、抽取过程从遗留数据系统或其他数据源系统抽取数据。完成抽取后,数据被放在临时存储区,在临时存储区将做数据的清洗。源数据可能来自单个的数据源或多个数据源。如果源数据是多个数据源,那么需要使用专门连接多个数据源的连接器。如果数据来自单个数据源,那么它可以是OLTP系统或文本文件。详细抽取过程详细抽取过程 45抽取数据工具有规范化的方法和文档.工具提供了一种非常简易的方法来执行数据的抽取,往往就是用鼠标拖放操作就可以完成。数据抽取过程,可通过手工代码或使用抽取工具来完成。定制代码抽取如PL/SQL脚本和使用抽取工具的优缺点46抽取数据手工编码可以节省成本,因为PL/SQL是数据库系统已经提供的只有当程

19、序员很了解数据的体系结构的时候,才使用手工编码方式抽取数据47抽取技术全量抽取.用从源系统抽取的数据定期的更新整个数据仓库。应用系统所有的数据从源系统抽取来,然后加载到数据仓库中。这种方式从数据源到数据仓库的网络负担沉重。但是这种机制是比较容易实现和维护的。抽取方法. 48抽取技术变化数据抽取仅仅新近插入或者修改的源系统数据才被抽去或者加载到仓库中。由于传输的数据少,这种方法使用的网络负载很小。这种方法需要复杂的代码来确定,什么时候新数据记录要被插入到数据仓库,和什么时候数据仓库数据记录需要被更新。抽取方法49integration * intelligence * insight抽取技术手工

20、代码开发经验代码中创建头以及字段注释坚持命名标准 测试所有代码-包括单元测试和系统测试为所有的工作建立文档50抽取数据源系统平台和数据库.工具能在所有类型的计算机平台上,访问所有的数据源可调用的抽取组件或可重用功能使用可调用的抽取模块或可重用功能,可降低数据抽取过程里的技术难度。选择抽取工具的标准 51integration * intelligence * insightintegration * intelligence * insight抽取工具抽取工具包括Apertus Carleton公司的 PassportEvolutionary Technologies公司的 ETL Extra

21、ct.Platinum公司的InfoPump52integration * intelligence * insight数据转换数据转换53数据转换-数据质量的重要性数据质量的重要性.-转换转换-数据转换数据转换: 问题和解决方法问题和解决方法-转换技术转换技术-转换工具转换工具54integration * intelligence * insight数据质量的重要性数据质量数据质量:在数据转换阶段之前,数据的质量问题就应该被关注。一在数据转换阶段之前,数据的质量问题就应该被关注。一旦完成数据转换之后,目标数据仓库中的数据应该尽可能旦完成数据转换之后,目标数据仓库中的数据应该尽可能少地进行改

22、动,这样可以减少源数据和目标数据的不一致少地进行改动,这样可以减少源数据和目标数据的不一致性。性。55确保数据质量确保数据质量 高质量数据特点高质量数据特点准确准确完好完好一致一致 独一独一及时及时56确保数据质量确保数据质量数据质量工具,可以帮助数据仓库开发团队定位和更正数数据质量工具,可以帮助数据仓库开发团队定位和更正数据错误据错误.源数据或目标库数据都可以更正。但是当仅仅对数源数据或目标库数据都可以更正。但是当仅仅对数据仓库里的数据进行更正时,容易发生数据的不一致,这据仓库里的数据进行更正时,容易发生数据的不一致,这属于数据的同步问题。属于数据的同步问题。57数据质量工具数据质量工具尽管

23、脏数据是数据仓库建造中存在的最大问题,但是一些研究表明,数据质量投资一直在整个仓库开销中占据较小的份额。 下面是一些数据质量工具:DataFlux. Data Quality Workbench.Pine Cone Systems. Content Tracker.Prism. Quality Manager.Vality Technology. Integrity Data Reengineering58转换转换转换 :数据抽取完成后,需要将数据进行转换。抽取的数据放在数据抽取完成后,需要将数据进行转换。抽取的数据放在数据准备区,在这里将完成数据的转换,如数据清洗操作数据准备区,在这里将完成

24、数据的转换,如数据清洗操作等。在转换阶段,使用清洗工具完成数据的转换。转换后等。在转换阶段,使用清洗工具完成数据的转换。转换后,数据将放到传输区。,数据将放到传输区。59integration * intelligence * insightintegration * intelligence * insight数据转换:问题数据转换:问题来自遗留系统的数据通常存在的问题是:来自遗留系统的数据通常存在的问题是:某些代码或特殊字符不一致或不正确的使用某些代码或特殊字符不一致或不正确的使用单个字段被用于非官方或非文档的目的单个字段被用于非官方或非文档的目的重复代码重复代码.数据进化数据进化.遗漏的

25、,错误的,重复的值,遗漏的,错误的,重复的值,60integration * intelligence * insight数据转换的问题和解决方法数据转换的问题和解决方法为了确保数据被正确加载,有如下几种解决方法交叉统计检查一种数据质量的标准模板,可通过比较模版中的规范,确定数据正确与否。.人工检查选择某种取样方式对数据进行采样,之后对样例进行人工检查。过程验证生成验证脚本,这些脚本可以确定错误数据,将错误数据隔离开来。61转换技术字段拆分和合并字段拆分和合并 : 源系统的某单个物理字段有时候需要拆分到目标库中的几个字段。源系统的某单个物理字段有时候需要拆分到目标库中的几个字段。几个源系统的字

26、段有时候需要在目标库中合并为几个源系统的字段有时候需要在目标库中合并为1个字段。个字段。 Address field# 123 ABC Street,DEF City,Republic of GHNo : 123 Street :ABC STREETCity :DEFCountry:GH62integration * intelligence * insightintegration * intelligence * insight转换技术标准化标准化: 将数据标准化,在个别数据上应用数据标准和规则,来提高源将数据标准化,在个别数据上应用数据标准和规则,来提高源数据库和目标库的一致性。数据库和

27、目标库的一致性。System AOrder Date05 August 2019-System BOrder Date08-08-07System AOrder DateAugust 05 2019-System BOrder DateAugust 08 201963integration * intelligence * insight转换技术消除重复消除重复: 定义一些规则,消除重复的客户或产品。如果定义一些规则,消除重复的客户或产品。如果2个或以上的记录重复,那么这个或以上的记录重复,那么这些重复记录应该合并成一条记录。些重复记录应该合并成一条记录。System ACustomer Na

28、me :John W Istin-System BCustomer Name :John William IstinCustomer Name :John William Istin64integration * intelligence * insight转换工具转换工具一些转换工具:一些转换工具:Apertus Carleton. Enterprise/Integrarot.Data Mirror. Transformation Server.Informatica. Power Mart Designer.65加载加载66integration * intelligence * insi

29、ght数据加载- 加载数据到数据仓库里加载数据到数据仓库里- 创建加载过程创建加载过程- 加载数据加载数据- 加载数据的后续处理加载数据的后续处理67integration * intelligence * insightintegration * intelligence * insight加载数据到仓库数据经过转换后,将被加载到数据仓库中。.数据加载器:数据加载器将转换后的数据加载到数据仓库中. 如果这些要加载的数据在相同的RDBMS引擎里,可以使用存储过程来加载数据到仓库中。68数据加载到仓库源数据源数据 临时存储区临时存储区 数据仓库数据仓库抽取加载69integration * in

30、telligence * insight加载数据到仓库数据仓库模型:指的是维度模型维度和事实)。临时存储区:它指的是数据准备清洗的工作空间。这是为了减少数据准备所需要时间而设立的。源数据区:可以是平面文件,oracle表,以及其他形式的数据。70integration * intelligence * insight构建加载过程我们可以使用下列方式进行数据加载:PL/SQL 脚本SQL Loader 处理平面文件ETL 工具71integration * intelligence * insight我们使用SQL Loader来直接导文本文件到表中。 SQL Loader可以做批量加载。SQL

31、 Loader可以加载两种记录格式的文件。变长记录格式的文件固定长度记录格式的文件使用SQL Loader来加载数据72integration * intelligence * insightSource A part ASource C part CSource B part BABCABC分析分析操作操作用户视图用户视图抽取抽取转换转换交易数据分类交易数据分类构建数据仓库构建数据仓库73integration * intelligence * insightETL 工具下面是流行的下面是流行的ETL工具:工具:Oralce Warehouse Builder.Informatica.Sag

32、ent.SAS Warehouse Administrator.74integration * intelligence * insightETL 工具Oracle Warehouse Builder 关键特性关键特性 方便易用方便易用-图形界面图形界面.向导驱动界面向导驱动界面.通过通用仓库建模通过通用仓库建模CWM集成元数据集成元数据.兼容兼容 Oracle 8i.可使用预定义的转换库可使用预定义的转换库75integration * intelligence * insightETL 工具工具Oracle Warehouse Builder 关键特性关键特性 图形映射和转换设计图形映射和

33、转换设计.自动生成代码自动生成代码.支持异构数据源支持异构数据源.76integration * intelligence * insight元数据 定义数据仓库的元数据 元数据的开发策略 元数据的类型检查 元数据管理工具 通用数据仓库元数据77integration * intelligence * insight元数据什么是元数据?传统定义是:它是关于数据的数据它用抽象的形式描述仓库的结构和内容。78integration * intelligence * insight元数据 元数据是对数据的综合和概括 元数据提供数据项的格式和名称 元数据提供数据的上下文. 提供数据值的取值范围 数据元

34、素之间的关系 数据的业务规则 数据的来源 79integration * intelligence * insight元数据的重要性 元数据建立了数据仓库数据的上下文元数据建立了数据仓库数据的上下文 元数据有助于数据分析过程元数据有助于数据分析过程 元数据是对数据转换进行审计追踪的一种形式元数据是对数据转换进行审计追踪的一种形式 元数据改进和维护数据的质量元数据改进和维护数据的质量80integration * intelligence * insight这是将抽取得到的数据,转换成指定格式的过程要点概述要点概述 这是从遗留系统或其他数据源抽取数据的过程.转换后的数据加载到数据仓库中ETL 过

35、程 抽取数据 转换数据 加载数据 构建仓库技术 抽取技术 转换技术 加载技术ETL 工具元数据及其重要性元数据是关于数据的数据。它对于转换数据来讲是很重要的。81integration * intelligence * insight检验检验1. 下面哪一个是下面哪一个是OLAP工具工具? Oracle ExpressOWBCognosMicrostrategy 2.下面哪一个是下面哪一个是ETL开发过程的目标开发过程的目标?模块化和可复用代码模块化和可复用代码自动文档化执行过程自动文档化执行过程完全元数据记录过程完全元数据记录过程All of the above3 . 关于数据的数据应该保存

36、在关于数据的数据应该保存在:RDBMSDBMSMetadata(元数据元数据)4. 手工编码的数据抽取技术,提供了一种节省成本的数据抽取方式手工编码的数据抽取技术,提供了一种节省成本的数据抽取方式 True/False5. 如何处理缓慢变化维度如何处理缓慢变化维度?人工处理人工处理使用临时存储区使用临时存储区Both of the above OWBALL THE ABOVEMETA DATATrueBOTH82integration * intelligence * insight对比数据仓库和数据集市对比数据仓库和数据集市模块483integration * intelligence *

37、insight83integration * intelligence * insightintegration * intelligence * insight包含的主题包含的主题本模块提供以下内容什么是数据集市数据集市建设方法 自顶向下法 自底向上法 混合法数据仓库概念模型的例子 星型模型 雪花模型 事实星座8484integration * intelligence * insight数据集市数据集市数据集市是:企业的一个功能片断 ,具有有限的安全性、地域空间、性能或业务范围,采用和数据仓库一致的建模方法和信息交付方法。85integration * intelligence * ins

38、ight数据集市数据集市- 建立方法建立方法 物理数据仓库 (物理的) 数据仓库 - 数据集市 数据集市-数据仓库 数据仓库和数据集市并行建立86integration * intelligence * insight自顶向下自顶向下 法法SOURCE DATAExternalExternalDataDataOperational DataOperational DataStaging AreaStaging AreaData WarehouseData WarehouseData MartsData MartsPhysical Data Warehouse:Physical Data War

39、ehouse:Data Warehouse - Data MartsData Warehouse - Data Marts87integration * intelligence * insight自底向上法自底向上法SOURCE DATAE Ex xt te er rn na al lD Da at ta aO Op pe er ra at ti io on na al l D Da at ta aS St ta ag gi in ng g A Ar re ea aD Da at ta a W Wa ar re eh ho ou us se eD Da at ta a M Ma ar rt

40、ts sP Ph hy ys si ic ca al l D Da at ta a W Wa ar re eh ho ou us se e: :D Da at ta a M Ma ar rt ts s - - - D Da at ta a W Wa ar re eh ho ou us se e88integration * intelligence * insight混合法混合法SOURCE DATAExternalExternalDataDataOperational DataOperational DataStaging AreaStaging AreaData WarehouseData

41、 WarehouseData MartsData MartsPhysical Data Warehouse:Physical Data Warehouse:Parallel Data Warehouse & Data MartsParallel Data Warehouse & Data Marts89integration * intelligence * insight数据仓库概念模型数据仓库建模: 维度和度量星型模型雪花模型事实星座90integration * intelligence * insight星型模型的例子星型模型的例子 time_keydayday_of_

42、the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_streetcountrylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch91integration * intelligence * insig

43、ht雪花模型的例子雪花模型的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typ

44、esuppliercity_keycityprovince_or_streetcountrycity92integration * intelligence * insight事实星座的例子事实星座的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_streetcountrylocationSales Fact Tabletime_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasur

45、esitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShipping Fact Tabletime_key item_key shipper_key from_location to_location dollars_cost units_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper93integration * intelligence * insightintegration * intelligen

46、ce * insight在这个模块里,我们看到了如下主题.什么是数据集市?建立数据集市的各种方法 自顶向下法 自底向上法 混合法概念模型采用 星型模型 雪花模型 事实星座建模技术的例子要点概述要点概述94和某个主题域相关的数据仓库的子集数据仓库到数据集市数据仓库和数据集市并行建立数据集市到数据仓库单一的事实表被多个维表包围单一的事实表被规范化的维表包围一个或多个事实表被维表包围94integration * intelligence * insight检验检验1. 那种数据仓库模式,规范化维表以减少数据冗余?那种数据仓库模式,规范化维表以减少数据冗余?Star Schema Snowflake

47、 Schema2. 数据集市经常有多个主题域?数据集市经常有多个主题域? True/False3. 在事实星座里,有多个事实表共享相同的维表?在事实星座里,有多个事实表共享相同的维表? False/True4. 一个企业级数据仓库,可以通过合并数据集市来建立?一个企业级数据仓库,可以通过合并数据集市来建立? False/True5.下面哪个是数据仓库的切入点?下面哪个是数据仓库的切入点?the entry points in the Warehouse 1.Fact tables 2.Dimension TablesSnow Flake SchemaFalseTrueTrueDimension

48、95OLAP 概念概念模块 596OLAP 定义定义OLAP 联机分析处理联机分析处理OLAP 可以让分析人员、管理人员和主管人可以让分析人员、管理人员和主管人员能够快速、一致和交互地去访问信息的各员能够快速、一致和交互地去访问信息的各个方面,从而深入了解数据个方面,从而深入了解数据. OLAP 转换原始数据,使其可以按照用户理转换原始数据,使其可以按照用户理解的方式,从维度上反应企业的真实情况解的方式,从维度上反应企业的真实情况.97OLAP 特征特征integration * intelligence * insight交互性平安可视化定制化OLAP98数据仓库数据仓库vs. OLAPOL

49、AP 侧重于将数据转化成信息,以满足最终客户的分析需求数据模型和计算过程是一致的OLTP 和 数据仓库提供源数据,而OLAP将数据转成信息integration * intelligence * insight99OLAP 功能功能 OLAP 的功能具有下面特征 动态多维分析企业的整合数据,支持最终用户分析,指导所采取的行动 计算和模型可以通过层次和/或跨成员,来进行跨维度应用 通过不同的时序时段,来进行趋势分析 在屏幕上进行切片 往下钻取整合数据到更深的层次 达到底层详细数据 旋转到新的维度进行比较查看integration * intelligence * insight100OLAP 功

50、能功能 OLAP 通常可采用C/S模式在多用户环境下应用,不管数据库的数据量和复杂性,能对查询提供一致快速的响应 OLAP 通过比较、个性化的查看,以及在各种“模拟数据模型假设下,透彻的分析历史和预测数据,从而帮助用户综合业务信息101OLAP 功能需求功能需求l快速访问和计算l对于保持一个分析人员的思路来说,速度是至关重要的l分析人员需要浏览需要聚合和卷积的数据.l强大的分析能力l除了简单的数据聚合和卷积,OLAP存在许多复杂的计算integration * intelligence * insight102OLAP功能需求功能需求灵活性 展示方式: 图形, 图表, 行或者列定义: 数值的格

51、式, 命名更改分析: 销售人员分析数据,而不于市场人员界面: 不同内容分节展示的报表外观integration * intelligence * insight103OLAP-快速和选择性的访问汇总数据快速和选择性的访问汇总数据integration * intelligence * insightBudget Dir. ViewAd Hoc ViewPRODAccountingDept. Mgr. ViewDepartmentTimeAccounting Dir. View104OLAP 特征特征维度显示立方体或者维度的能力层次公式或者链接integration * intelligence

52、 * insight105OLAP 维度维度较少维度的数据集通常想象成2个维度行和列)增加第三个维度通常想象成一个立方体 (x,y 和z轴)增加第N个维度通常不太容易想象 . . .integration * intelligence * insight106OLAP 层次层次 聚合是层次的基础层次是维度的一个属性,它提供了将数据聚合在一起的一种方式.维度层次时间维具备层次的形式 年,期间,季度,月和周单一维度可以有多个层次产品组,客户组等等,可以在同一个维度上进行不同的卷积已售产品可能是被批量销售或者零售的.integration * intelligence * insight107OLA

53、P 公式公式 和链接和链接公式将数据转化成信息聚合是最简单的规则比率和趋势是最复杂的规则定义数据数值, 非数值, 一个维度的数据属性, 基于单元格的, 图形的, 声音定义链接以提供数据一致性结构链接: 关于维度的结构信息属性链接: 映射属性信息到某个维度内容链接: 映射数据将数据和链接定义到公式里integration * intelligence * insight108多维分析多维分析 多维数据存储 维度和变量 汇总数据 计算支持integration * intelligence * insightWk1Wk3Wk2109多维分析多维分析对比和关联的报表我的实际费用和预算费用相比是怎样的

54、?劳动成本费用,和材料费用相比是怎样的?薪金总额中,劳动成本增长了多少个百分点?integration * intelligence * insightExpenseDivision CDivision ALaborSuppliesTravelQtr1Qtr3Qtr2 1201151236075739287106110多维分析多维分析异常和趋势报表哪项费用低于预算5%或更多,同时超过总费用的2%?显示在过去6个月里趋势为负的所有费用过去52周里,费用组合如何变化的?integration * intelligence * insightExpenseSuppliesTravelQtr1Qtr3

55、Qtr2 1201151236075739287106Division ADivision CLaborDivision B111多维分析多维分析建模,预测,等等.增加新员工后,什么是费用的滞后因素?假设我增加3个员工到A部门?根据过去12个月的费用,计划下个季度的费用.integration * intelligence * insightExpenseQtr1Qtr3Qtr2 1201151236075739287106Division ADivision CDivision BSuppliesTravelLabor112基础数据模型是一样的基础数据模型是一样的integration *

56、intelligence * insightPRODUCTREGIONMONTHSALESRECORD #1TENTSEASTDec-93240RECORD #2CANOESWESTJan-94250RECORD #3RACQUETS CENTRALFeb-94690RECORD #4TENTSWESTMar-94425RECORD #5CANOESEASTApr-94300RECORD #6TENTSWESTMay-94500RECORD #7RACQUETS CENTRALJun-94125RECORD #8CANOESWESTJul-94400RECORD #9TENTSEASTAug-

57、94800KEYSCentralMonthWestEastJanTentsCanoesRacquetsRegionDIMENSIONSFebMar113为什么需要专门的技术为什么需要专门的技术 ?偏移寻址更强大的分析能力更佳的性能integration * intelligence * insightQuarterNew YorkBostonPhiladelphiaQ1Q2Q3Q4TentsCanoesRacquetsSportswearFootwearProductDistrict114派生的度量值派生的度量值integration * intelligence * insight3Q1Q2

58、Q3Q4Q1Q2Q3Q4Q1Q2Q3Q464183UNITS * PRICE = SALESTentsCanoesRacquetsSportswearFootwearTentsCanoesRacquetsSportswearFootwear232TentsCanoesRacquetsSportswearFootwearNew YorkBostonPhiladelphia115数据存储数据存储integration * intelligence * insightNew YorkBostonQ1Q2Q3Q4TentsCanoesRacquetsSportswearFootwearSalesSal

59、esSalesSalesSalesSalesSalesSalesSalesSalesSalesSalesSalesSalesSalesSalesSalesSalesSales SalesData PagePhiladelphia116内置函数样例内置函数样例integration * intelligence * insight财务函数DepreciationGrowth RateNet Present ValueInternal Rate of Return数值/时间序列函数AverageCumulative SumsLag/LeadVarianceMoving Average/TotalS

60、mallest/LargestStandard DeviationTotal其他函数ForecastingRegression.或者创建你自己的用户自定义函数117OLAP 架构架构MOLAP (多维多维 OLAP) ROLAP (关系型关系型 OLAP)MOLAP: 在这种类型的在这种类型的OLAP里里, 从关系型数据源从关系型数据源(通常从数通常从数据仓库里据仓库里)里聚合产生立方体里聚合产生立方体. 当用户产生报表请求,当用户产生报表请求,MOLAP工具可以快速产生报表,这是因为所有的数据已工具可以快速产生报表,这是因为所有的数据已经预先聚合在立方体里。经预先聚合在立方体里。ROLAP:在这种类型的在这种类型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论