商务智能技术基础ppt课件_第1页
商务智能技术基础ppt课件_第2页
商务智能技术基础ppt课件_第3页
商务智能技术基础ppt课件_第4页
商务智能技术基础ppt课件_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 商务智能技术根底.内容提要2.1 商务智能系统组成及技术根底2.2 数据仓库技术2.3 联机分析技术2.4 数据发掘技术2.5 数据展现技术.2.1 商务智能系统架构.商务智能系统架构抽取转换装载OLAP效力器数据发掘效力器报表设计工具外部数据源业务系统数据源元数据元数据数据仓库用户分析人员。数据源 数据预处置 数据仓库 数据分析 数据展现 图1.3 商务智能系统的组成.商务智能系统架构商务智能系统的最大益处是可以得到准确、及时的信息,协助企业博得竞争优势,这些功能的完成主要依托DW、 DM和OLAP三大技术和数据预处置、建立数据仓库、数据分析及数据展现四个阶段。.数据预处置是整合企业

2、原始数据的第一步,包括数据抽取、转换和装载三个过程;数据仓库那么是处置海量数据的根底;数据分析是表达系统智能的关键,普通采用OLAP和DM两大技术。OLAP不仅进展数据汇总/聚集,同时还提供切片、切块、下钻、上卷和旋转等数据分析功能,用户可以方便地对海量数据进展多维分析。数据发掘那么是发掘数据背后隐藏的知识,经过关联分析、聚类和分类等方法建立分析模型,预测企业未来开展趋势和将要面临的问题。数据展现那么主要保证系统分析结果的可视化。.数据分析平台(数据发掘、报表展现和OLAP工具)外部数据源业务处置系统数据源数据仓库商务智能运用元数据商务智能框架图.二、商务智能技术简介1. DW数据仓库 必要性

3、: 实施BI首先要从企业内部和企业外部不同的数据源,如客户关系管理(CRM)、供应链管理(SCM)、企业资源规划(ERP)系统以及其他运用系统等搜集有用的数据,进展转换和合并,因此需求数据仓库和数据集市技术的支持。 概念:数据仓库(Data Warehouse)是一种语义上一致的数据存储,是指从多个数据源搜集的信息,以一种一致的存储方式保管所得到的数据集合。面向不同的需求,对数据进展清洗以保证数据的正确性,然后对数据进展抽取,转换成数据仓库所需方式,并实现加载到数据仓库。 数据仓库技术是基于信息系统业务开展的需求,基于数据库系统技术开展而来,并逐渐独立的一系列新的运用技术。数据仓库技术就是基于

4、数学及统计学严谨逻辑思想的并达成“科学的判别、有效的行为的一个工具。数据仓库技术也是一种达成“数据整合、知识管理的有效手段。 .二、商务智能技术简介2. OLAP联机分析处置 联机分析处置(OLAP) 又称多维分析,它对数据仓库中的数据进展多维分析和展现,是使分析人员、管理人员或执行人员可以从多种角度对从原始数据中转化出来的、可以真正为用户所了解的、并真实反映企业维特性的信息进展快速、一致、交互地存取,从而获得对数据更深化了解的一类软件技术。它的技术中心是“维这个概念,因此OLAP也可以说是多维数据分析工具的集合。 进展OLAP分析的前提是已有建好的数据仓库,之后即可利用OLAP 复杂的查询才

5、干、数据对比、数据抽取和报表来进展探测式数据分析了。称其为探测式数据分析,是由于用户在选择相关数据后,经过切片(按二维选择数据)、切块(按三维选择数据)、上钻(选择更高一级的数据详细信息以及数据视图)、下钻(展开同一级数据的详细信息)、旋转(获得不同视图的数据) 等操作,可以在不同的粒度上对数据进展分析尝试,得到不同方式的知识和结果。联机分析处置研讨主要集中在ROLAP(基于关系数据库的OLAP) 的查询优化技术和MOLAP(基于多维数据组织的OLAP) 中减少存储空间和提高系统性能的方法等。 OLAP操作言语:经过扩展数据库的操作言语SQL,得到MSQLMultiple SQL。.二、商务智

6、能技术简介3. DM数据发掘 数据发掘是从大量的数据中,抽取出潜在的、有价值的知识模型或规那么的过程。 与OLAP 的探测式数据分析不同,数据发掘是按照预定的规那么对数据库和数据仓库中已有的数据进展信息开采、发掘和分析,从中识别和抽取隐含的方式和有趣知识,为决策者提供决策根据。数据发掘的义务是从数据中发现方式。方式有很多种,按功能可分为两大类:预测型( Predictive)方式和描画型(Descriptive)方式。 预测型方式是可以根据数据项的值准确确定某种结果的方式。发掘预测型方式所运用的数据也都是可以明确知道结果的。描画型方式是对数据中存在的规那么做一种描画,或者根据数据的类似性把数据

7、分组。.二、商务智能技术简介4. 三大中心技术之间关系 DW是前提和根底。担任一致数据规那么的处置和存储。 OLAP是操作,偏重显性知识处置和分析。 DM是发现,偏重于隐性知识开掘和利用 。 OLAP 与数据发掘的区别和联络是:OLAP 偏重于与用户的交互、快速的呼应速度及提供数据的多维视图,而数据发掘那么注重自动发现隐藏在数据中的方式和有用信息,虽然允许用户指点这一过程。OLAP 的分析结果可以给数据发掘提供分析信息作为发掘的根据,数据发掘可以拓展OLAP 分析的深度,可以发现OLAP 所不能发现的更为复杂、细致的信息。数据发掘的研讨重点那么偏向数据发掘算法以及数据发掘技术在新的数据类型、运

8、用环境中运用时所出现新问题的处理上, 如对各种非构造化数据的发掘、数据发掘言语的规范化以及可视化数据发掘等。.2.2.1 从数据库到数据仓库2.2.2 数据仓库的定义和特点2.2.3 数据仓库体系构造2.2.4 数据仓库的设计与实施建立2.2.5 数据仓库系统的评价规范2.2 数据仓库 Data Warehouse.事务型处置事务型处置:即操作型处置,是指对数据库的联机操作处置OLTP。事务型处置是用来协助企业对呼应事件或事务的日常商务活动进展处置。它是事件驱动、面向运用的,通常是对一个或一组记录的增、删、改以及简单查询等大量、简单、反复和例行性。在事务型处置环境中,数据库要求能支持日常事务中

9、的大量事务,用户对数据的存取操作频率高而每次操作处置的时间短。2.2.1 从数据库到数据仓库.分析型处置分析型处置:用于管理人员的决策分析,例如DSS、 EIS和多维分析等。它协助决策者分析数据以察看趋向、判别问题。分析型处置经常要访问大量的历史数据,支持复杂的查询。分析型处置过程中经常用到外部数据,这部分数据不是由事务型处置系统产生的,而是来自于其他外部数据源。.事务型处置数据和分析型处置数据的区别特性OLTPOLAP特征面向用户功能DB 设计数据汇总视图任务单位存取关注操作访问记录数用户数DB规模优先度量操作处置事务办事员、DBA、数据库专业人员日常操作基于E-R,面向运用当前的;确保最新

10、原始的,高度详细详细,普通关系短的、简单事务读/写数据进入主关键字上索引/散列数十个数千100MB到GB高性能,高可用性事务吞吐量信息处置分析知识工人(如经理、主管、分析员)长期信息需求,决策支持星形/雪花,面向主题历史的;跨时间维护汇总的,一致的汇总的,多维的复杂查询大多为读信息输出大量扫描数百万数百100GB到TB高灵敏性,端点用户自治查询吞吐量,呼应时间.数据库系统的局限性数据库适于存储高度构造化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。决策分析型数据是多维性,分析内容复杂。在事务处置环境中,决策者能够并不关怀详细的细

11、节信息,在决策分析环境中,假设这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的留意力。DB2OracleSQLServerExcelspreadsheetXMLdocumentInternetSSLclientapplicationsBrowsersData managementlayerApplicationlayerWebservers.数据库系统的局限性续当事务型处置环境和分析型处置环境在同一个数据库系统中,事务型处置对数据的存取操作频率高,操作处置的时间短,而分析型处置能够需求延续运转几个小时,从而耗费大量的系统资源。决策型分析数据的数据量大,这些数据有来

12、自企业内部的,也有来自企业外部的。来自企业外部的数据又能够来自不同的数据库系统,在分析时假设直接对这些数据操作会呵斥分析的混乱。对于外部数据中的一些非构造化数据,数据库系统经常是无能为力。.多库系统的限制可用性:源站点或通讯网络缺点将导致系统瘫痪, 源站点不能经过网络在线联入多库系统。呼应速度:全局查询多级转换和通讯传输, 延迟和低层效率影响呼应速度。系统性能:总体性能取决于源站点中性能最低的系统, 影响系统性能的发扬;系统开销:每次查询要启动多个部分系统, 通讯和运转开销大。 .实施数据仓库的条件数据积累已到达一定规模面临猛烈的市场竞争在IT方面的资金能得到保证 .数据仓库的开展自从NCR公

13、司为Wal Mart建立了第一个数据仓库。1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果阐明:数据仓库为企业提供了宏大的收益。早期的数据仓库大都采用当时流行的客户/效力器构造。近年来分布式对象技术飞速开展,整个数据仓库体系构造从功能上划分为假设干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在运用程序中向用户提供调用的接口。IBM的实验室在数据仓库方面曾经进展了10多年的研讨,并将研讨成果开展成为商用产品。其他数据库厂商在数据仓库领域也纷纷提出了各自的处理方案。.2.2.2 数据仓库(Data Warehouse)的定义和特点数据仓库用来保管从多个数

14、据库或其它信息源选取的数据, 并为上层运用提供一致 用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。数据仓库是作为DSS效力根底的分析型DB,用来存放大容量的只读数据,为制定决策提供所需求的信息。数据仓库是与操作型系统相分别的、基于规范企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。以1992年W H Inmon出版为标志,数据仓库开展速度很快。 W H Inmon被誉为数据仓库之父。W H Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。.

15、面向主题数据仓库中的数据是按照各种主题来组织的。主题在数据仓库中的物理实现是一系列的相关表,这不同于面向运用环境。如保险公司按照运用组织能够是汽车保险、生命保险、伤亡保险,而数据仓库是按照客户、政策、保险金和索赔来组织数据。面向主题的数据组织方式可在较高层次上对分析对象的数据给出完好、一致的描画,能完好、一致的描写各个分析对象所涉及的企业的各项数据以及数据之间的联络,从而顺应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与运用的分别。.面向主题汽车人寿安康不测伤亡操作性环境应 用顾客保险单保险费索赔数据仓库主 题.集成性数据仓库中的数据是从原有分散的源数据库中提取出来的,其每

16、一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的运用逻辑相关。为了创建一个有效的主题域,必需将这些来自不同数据源的数据集成起来,使之遵照一致的编码规那么。.集成 数据库 运用A m,f运用B 1,0运用C x,y运用D 男,女 数据仓库 m,f编码运用A 管道cm运用B 管道inches运用C 管道mcf运用D 管道yds管道cm属性度量.稳定性数据仓库内的数据有很长的时间跨度,通常是5-10年。数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进展统计、综合和重组的导出数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查

17、询,普通情况下并不进展修正操作.数据仓库中的数据是不可实时更新的,仅当超越规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。.稳定性插入删除插入修正删除访问修正访问数据的逐个记录方式处置数据的批量载入/访问数据库数据仓库.时变性时变性:许多商业分析要求对开展趋势做出预测,对开展趋势的分析需求访问历史数据。因此数据仓库必需不断捕捉OLTP数据库中变化的数据,生成数据库的快照,经集成后添加到数据仓库中去;另外数据仓库还需求随时间的变化删去过期的、对分析没有协助的数据,并且还需求按规定的时间段添加综合数据。.随时间变化数据库数据仓库时间期限:当前到6090天 记录更新键码构造

18、能够包括也能够不 包括时间元素时间期限:510年 数据的复杂快照键码构造包括时间元素.支持管理决策数据仓库支持OLAP联机分析处置、数据发掘和决策分析。OLAP从数据仓库中的综合数据出发,提供面向分析的多维模型,并运用多维分析的方法从多个角度、多个层次对多维数据进展分析,使决策者可以以更加自然的方式来分析数据。数据发掘那么以数据仓库和多维数据库中的数据为根底,发现数据中的潜在方式和进展预测。因此,数据仓库的功能是支持管理层进展科学决策,而不是事务处置。.BI系统VS决策盲点某大型国有企业老总当他查看近十年企业的消费和运营数据时,手边得到了各种各样不同的数据报表。这些数据报表大致可以分成两种类型

19、:一种是两年前、即ERP上线之前的,这是一些简单、杂乱而又枯燥的数字;另一种是有了ERP以后的,数据变得清楚而有条理起来,同时还有来自ERP、CRM、SCM以及计费业务等不同运用的数据和各种分析报告。在仔细查看这些报表之后,这位国企老总诧异地发现,不同的系统可以得出截然相反的两种结论。例如某一产品,它的动态本钱反映在ERP系统和CRM、SCM系统里面相差很大,假设援用ERP和CRM里面的数据,它就是一款很胜利、销量很好的产品,但在SCM里面来看,它的采购和物流本钱过高,导致了这款看起来很胜利的产品实践上是一笔赔钱的买卖。.BI系统VS决策盲点(续)其实从这些来自不同系统的数据根底产生不同的判别

20、很正常,由于这些系统并不会去缜密地“思索在本人“职责之外的事情。这样就给企业的指点提交了相当多顾此失彼的分析报告,结果就是导致了许多市场决策上的混乱和失误。把企业的内部数据和外部数据(企业内部数据就是指上述经过业务系统SCM、ERP、CRM等搜集到的数据,这些数据能够在不同的硬件、数据库、网络环境中,为不同的业务部门效力。外部数据是市场信息和外部竞争对手的信息)。进展有效的集成,构成直观的、易于了解的信息,再进展分析和思索,为企业的各层决策及分析人员运用。.数据仓库系统的构造.2.2.3 数据仓库体系构造源数据部分1 消费数据:企业的各种事务型数据库2 内部数据:用户本人的数据资料 内部数据添

21、加了数据转换和整合过程的复杂性3 存档数据:定期存储的旧数据4 外部数据:是决策主要的信息来源.2.2.3 数据仓库体系构造数据预备1 数据抽取: 从数据仓库的角度来看,并不是业务数据库中的一切数据都是决策支持所必需的。通常,数据仓库按照分析的主题来组织数据,我们只需求提取出系统分析必需的那一部分数据。例如,某超市确定以分析客户的购买行为为主题建立数据仓库,那么我们只需将同客户购买行为相关的数据提取出来,而超市效力员工的数据就没有必要放进数据仓库。 现有的数据仓库产品几乎都提供各种关系型数据接口,从关系型数据中提取数据。 .2.2.3 数据仓库体系构造数据预备2 数据转换: 数据仓库的数据转换

22、比事务型系统的更复杂,由于数据仓库的数据来自不同的数据源。 步骤: 1数据清洗 2数据规范化 3数据汇总.1数据清洗Data Cleaning 由于企业经常为不同的运用对象建立不同的业务数据库,比如一个电信运营公司拥有计费数据库、账务数据库、客户数据库、客户赞扬数据库等业务系统,这些业务系统中能够包含反复的信息,比如客户数据库中的部分客户根本信息也在客户赞扬数据库中存在。 由于不同的数据库能够运用不同数据库公司的产品,不同的业务系统能够有不同的软件开发商提供,这使得各个业务数据库中的数据存在不一致的景象,数据库运用人员的操作失误也会呵斥数据的不一致。.如图2-2所示,显示了一个数据不一致的例子

23、。 客户数据库中有一张客户根本信息表,其中记录了客户的客户号、姓名、年龄等根本信息。在客户效力数据库中有一张客户咨询信息表用于记录客户咨讯问题的内容和解答。由于数据库运用人员的失误,使得在客户根本信息表中的100号客户“张山,在客户咨询表中的客户姓名被错误的录入为“张三。 客户根本信息表客户咨询信息表客户号:100姓名:张山年龄:23客户号:100姓名:张三咨讯问题:图2-2 操作失误导致数据不一致. 由于冗余的数据存放在不同的数据库中,假设不同数据库间的数据刷新不是实时的,那么能够出现数据不同步的情况。如图2-3所示,在客户根本信息表中记录了100号客户“张山的手机形状正常,假设此时张山去办

24、理停机手续,在客户业务变卦表中,张山的手机形状将被修正为“停机,假设数据刷新不够实时,客户根本信息表中的手机效力形状将与客户业务变卦表不同步。 客户根本信息表客户业务变卦表客户号:100姓名:张山年龄:23手机效力形状:正常客户号:100姓名:张三业务变卦:停机图2-3 数据刷新不实时导致数据不同步.2数据规范化 由于业务系统能够运用不同的数据库厂商的产品,比如IBM DB2、Informix、Sybase、SQL Server、NCR 等,各种数据库产品提供的数据类型能够不同,因此需求将不同格式的数据转换成一致的数据格式。比如图2-4中所示的不同时间格式的差别。 .3数据汇总 组合从不同数据

25、源提取的数据;去除没有用途的源数据,将原纪录进展新的组合。 .2.2.3 数据仓库体系构造数据预备3 数据装载: 数据仓库创建之初的数据装载;数据仓库运用过程中的数据装载。.2.2.3 数据仓库体系构造数据存储1 数据仓库:提供数据存放的地方并提供数据检索支持。数据的存储方式主要有3种:多维数据库、关系型数据库以及前两种存储方式的结合。2 数据集市3 元数据 .2. 数据集市Data Market 面向企业的某个部门主题而在逻辑上或物理上划分出来的数据仓库中的数据子集称为数据集市。 区别:数据仓库面向整个企业,而数据集市那么是面向企业中的某个部门。数据仓库中存放了企业的整体信息,而数据集市只存

26、放了某个主题需求的信息,其目的是减少数据处置量,使信息的利用更快捷、灵敏。.3.元数据数据是对事物的描画,“元数据就是描画数据的数据,它提供了有关数据的环境。事务型元数据:元数据描画关于源数据的阐明,包括源数据的来源、源数据的称号、源数据的定义、源数据的创建时间等对源数据进展管理所需求的信息。源数据的来源阐明源数据是从哪个系统、哪个历史数据、哪个办公数据、哪个Web页、哪个外部系统抽取而来。源数听阐明源数据在数据仓库的作用、用途、数据类型和长度等。.元数据抽取和转换元数据:是用来描画数据的数据。它描画和定位数据组件、它们的来源及它们在数据仓库进程中的活动;关于数据和操作的相关描画(输入、计算和

27、输出)。元数据可用文件存在元数据库中。元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、集成过程。要有效的管理数据仓库,必需设计一个描画才干强、内容完善的元数据。.元数据最终用户元数据:是数据仓库的导航图,是最终用户可以在数据仓库中找到本人需求的信息,建立了最终用户的多维商业模型和前端工具之间的映射。.下面经过一个简单的例子阐明元数据的根本内容,如图2-5所示 : 我们从Customer业务数据库的user表中取出3列user_id,user_name,address,在清洗转换过程中,将user_name从char(20)转化成varchar(50)格式,最终放进User

28、维表User_ID,User_Name,Address中。在转换后,User_ID,User_Name,Address3列原始的存放位置、进展的清洗转化处置、数据最终的存放位置、数据格式、数据运用的规那么等等都将作为元数据的一部分 。 通常数据库将建立公用的元数据库来存放和管理元数据。 .2.2.3 数据仓库体系构造信息传送.独立的数据集市架构Independent data mart architecture 独立的数据集市架构有时也称为独立的数据仓库架构,应该是出现最早的架构方式,也是很常见的方式。特别是对于中小企业、中小开发公司,出于本钱和见效快的思索都会采用这种架构方式。大家对这种架构

29、方式一定也很熟。 这种架构方式的缺陷也很明显,不是企业内一致的数据,产生信息孤岛。当然假设企业就是很小,就一个系统,不用整合,一个数据集市足以的情况下采用这种方式也没什么。先期小投资,让企业看看效果,以后开展大了再思索重新建立数据仓库。数据仓库系统的体系架构.数据仓库系统的体系构造基于独立数据集市的数据仓库体系构造 .2联邦式数据仓库架构Federated data warehouse architecture 它的出现是由于企业开展的初期建立了几个独立的数据集市架构,后来发现这样不行,数据没整合,要处理信息孤岛得想方法。推倒重建当然好,不过投入太大,以前的数据集市还想用,怎样办。于是,想出另

30、一种方法,在各个独立的数据集市间建立一些对照表,在不推倒它们的根底上能进展一下数据交换。后来,渐渐发现,早想好整合战略,直接这样建数据仓库也可以,于是,地域联邦、功能联邦的概念也就都提出来了。 联邦架构的缺陷也很明显,除非建立之初就采用类似总线架构的方法实现数据一致,否那么很容易出现数据不一致,导致整合的不彻底。假设之初就思索好的话,和总线架构的差别就不大了。当然,对于暂时处理企业原有独立数据集市的数据交换问题,联邦架构还是有一定作用的。.3集中式架构Centralized architecture 集中式架构方式的出现,标识着数据仓库架构曾经进入比较成熟的时期。它的架构方式是建立物理的EDW

31、,即中心数据仓库,数据都集中的EDW中,运用和分析程序都在EDW中进展访问,数据是全企业内一致的。随着ROLAP的开展,在这种集中式架构中建立ROLAP开场比较流行,常见的 MicroStrategy公司的处理方案就是在EDW中建立ROLAP。ROLAP单独建表保管元数据,只保管维度模型的关系,不保管维度模型的数据,由MicroStrategy的运用去解析,加上运用效力器作为缓存,速度还可以。 这种方式也有一些缺陷,如扩展才干差,对EDW所在的RDBMS要求太高,随着数据量和分析的逐渐增长,就不得不再把数据进展分别。假设在EDW的根底上进展数据分别,为不同的运用单独建立数据集市或者发掘仓库,集

32、中式构造也就演化成Hub and Spoke架构方式。.4集线器和车轮辐条架构Hub and spoke architecture或Corporate information factoryarchitecture 企业信息工厂应该是这种架构方式的最出色的代表。从称号我们也能大约猜个差不多,中心数据仓库 EDW从各个源系统搜集数据,将数据提供应各个数据集市和发掘仓库,功能和集线器很类似,所以称为Hub。假设大家把图画出来,能够会更笼一致些,EDW 和各个源数据库及数据集市、发掘仓库之间都连一条线,看起来就向一个车轮,这些连线就像车轮辐条,所以称为Spoke。而这种采用中心数据仓库EDW集成数据

33、,再分散到各个数据集市运用数据的方式就笼统的称为Hub and spoke architecture。 缺陷:虽然是在集成的中心数据仓库EDW上建立数据集市,但是这些数据集市之间还是不能进展数据交换的,大家建立的方法和ETL程序都会不同,各个数据集市之间的数据不见得的是一致的。而且这种架构方式开场变得复杂。.5总线架构Bus architecture 总线架构和Hub and spoke architecture 的最大区别,应该是维度建模的原子层和一致性维度的建立。正由于预先建立的总线架构和一致性维度,所以这种架构可以保证在逐渐建立数据集市的过程中还能保证企业数据的一致性。总线架构是数据仓库

34、架构方式从复杂走向简单的一步,将维度建模的数据仓库原子层和数据集市合而为一,一层就把数据仓库建立好的,还能支持各种数据集市分析运用。 当然总线架构也有缺陷,中心数据仓库以维度模型保管,对于特殊的非维度型分析运用会有局限性,支持的不好。 .2.2.4 数据仓库的设计与实施建立数据仓库的体系架构.与数据库运用系统的开发过程相比,有如下几方面不同:面向的处置类型不同;面向的需求不同;系统设计的目的不同;两者的数据来源或系统的输入不同;系统设计的方法和步骤不同;2.2.4 数据仓库的设计与实施建立.数据库运用开发过程SDLC.数据仓库的开发过程CLDS.数据仓库开发的特点:数据驱动数据驱动 :从已有数

35、据出发的数据仓库设计方法称为“数据驱动的系统设计方法。 利用以前所获得的任务成果不再是面向运用利用数据模型数据模型是联络操作型数据环境的设计、数据仓库数据环境的设计、操作型数据处置运用的开发和设计以及DSS运用的开发与设计的纽带.设计体系构造开发概念模型开发逻辑模型数据库与元数据设计数据抽取转换与加载开发中间件填充与测试数据仓库数据仓库运用数据仓库维护数据仓库评价规划与确定需求 规划 分析阶段 数据仓库 开发过程 设计实施 运用维护阶段 阶段 数据仓库的螺旋式开发方法.数据仓库实现战略.数据仓库的数据模型 星型图模型 物理数据模型概念模型逻辑模型物理模型面向用户的需求细 化层次更详细的技术细节

36、信息包图.概念模型由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。概念模型简化了这个过程并且允许用户与开发者和其他用户建立联络:确定系统边境:决策类型、需求的信息、原始信息确定主题域及其内容:主题域的公共键码、联络、属性组确定维度:如时间维、销售位置维、产品维、组别维等确定类别:相应维的详细类别确定目的和现实:用于进展分析的数值化信息.实例例试画出销售分析的概念模型。解:首先根据销售分析的实践需求,确定信息包的维度、类别和目的与现实:1维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。2类别:确定各维的详细类别,如:日期维包括年10、季度40、月120等

37、类别,括号中的数字分别指出各类别的数量;销售地点维包括国家15、区域45、城市280、区880、商店2000等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。3度量和现实:确定用于进展分析的数值化信息,包括预测销售量、实践销售量和预测偏向等。 .销售分析的概念模型日期销售地点销售产品年龄组别性别年(10)国家(15)产品类(6)年龄组(8)性别组(2)季度(40)区域(45)产品组(48)月(120)城市(280)产品(240)区(880)商店(2000)度量和事实:预测销售量、实际销售量、预测偏差信息包: 销售分析维度类别.概念模型图实例

38、.逻辑模型星型图:数据仓库的数据模型的第二层是向最终的数据构造添加某些细节的星型图模型。与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,更适宜大量复杂查询。星形图包括了三种逻辑实体:目的、维度和详细类别维表的本质是多维分析空间在某个角度上的投影,多个维表共同建立一个多维分析空间。.sales数据仓库的雪花方式 .星型模型例子.物理数据模型物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据存储构造等。在物理设计时,经常要按数据的重要程度、运用频率以及对呼应时间的要求进展分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对呼应时间高的数据就存放在高速存储

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论