《数据仓库与数据挖掘》(演示稿)第5章_第1页
《数据仓库与数据挖掘》(演示稿)第5章_第2页
《数据仓库与数据挖掘》(演示稿)第5章_第3页
《数据仓库与数据挖掘》(演示稿)第5章_第4页
《数据仓库与数据挖掘》(演示稿)第5章_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第5章数据仓库系统的实施SQL Server 2000数据仓库设计与使用其他一些公司的数据仓库实施战略数据仓库的投资回报分析1SQLServer 2000的基本服服务SQLServer 2000关系数据据库引擎擎:是一一个流行行的、具具有高度度可伸缩缩性和高高度可靠靠性的数数据存储储引擎。该数据据库引擎擎将数据据存储在在表中。每个表表上都列列出感兴兴趣的一一些对象象,每个个表上的的列表示示由表建建模的对对象的属属性,而而表上的的行则代代表由表表建模的的这种对对象的事事例。应应用程序序可以将将结构化化查询语语言(SQL)的语句提提交给数数据库引引擎,后后者将表表格格式式的结果果集返回回给应用用程

2、序。SQLServer支持的特特定SQL语言称为为Transact-SQL。应用程序序还可以以提交SQL语句或XPath查询,并并请求数数据库引引擎以XML文档形式式返回结结果。关系数据据库引擎擎具有高高度的可可伸缩性性。SQLServer 2000企业版可可以支持持多组数数据库服服务器相相互协作作,构成成可供上上千用户户同时访访问的TB大小的数数据库。该引擎擎能够处处理世界界上任何何Web站点的流流量。该该数据库库引擎还还能自我我调节,自动在在连接到到数据库库的用户户增多时时获取资资源,并并在用户户注销后后释放资资源。2SQLServer 2000的基本服服务关系数据据库引擎擎具有高高可靠性

3、性。在数数据库引引擎的早早期版本本中要求求停止和和启动的的管理操操作现在在可以在在引擎运运行当中中执行,从而增增加了可可用性。数据库库引擎与与Windows 2000和Windows NT故障转移移群集的的集成可可定义虚虚拟服务务器,即即使节点点中的一一台物理理服务器器出现故故障,这这些虚拟拟服务器器仍然保保持运行行。在适适当的地地方,日日志传送送可以用用于维护护热备用用服务器器。在故故障发生生的数分分钟内,热备用用服务器器可以代代替生产产服务器器运行。关系数据据库引擎擎具有高高度的安安全性。登录身身份验证证可以与与Windows身份验证证集成在在一起,这样,密码将将不会存存储在SQLServ

4、er中,也不不会通过过网络发发送而被被网络嗅嗅探器读读取。网网站可以以设置C2级审核,对所有有访问数数据库的的用户进进行审核核,还可可以使用用安全套套接字层层(SSL)加密的办办法,对对所有在在应用程程序和数数据库间间传送的的数据进进行加密密。3SQLServer 2000的基本服服务数据库引引擎的分分布式查查询功能能。可以以访问所所有可通通过OLEDB访问的数数据源中中的数据据。在Transact-SQL语句中,可以像像引用实实际驻留留在SQLServer数据库中中的表一一样引用用远程OLEDB数据源表表。此外外,全文文检索功功能可以以对SQLServer数据库或或Windows文件中存存储

5、的文文本数据据进行复复杂的模模式匹配配。关系数据据库引擎擎能够存存储由顶顶层联机机事务处处理(OLTP)系统生成成的所有有事务的的详细记记录。该该数据库库引擎还还可以支支持最大大的联机机分析(OLAP)数据仓库库中的事事实数据据表和维维度表的的严格处处理要求求。MicrosoftSQL Server2000 Analysis Services提供分析析数据仓仓库和数数据集市市中存储储的数据据的工具具。AnalysisServices以多维数数据集的的形式显显示事实实数据表表和维度度表中的的数据,从多维维数据集集中可以以分析趋趋势和其其它对于于规划今今后工作作非常重重要的信信息。在在Analys

6、isServices多维数据据集上处处理OLAP查询比试试图在OLTP数据库中中记录的的详细数数据上进进行同样样的查询询要快得得多。4SQLServer 2000的特性Internet集成:SQLServer 2000数据库引引擎提供供完整的的XML支持。它它还具有有构成最最大的Web站点的数数据存储储组件所所需的可可伸缩性性、可用用性和安安全功能能。其程程序设计计模型与与Windows DNA构架集成成,用以以开发Web应用程序序,并且且还支持持English Query和Microsoft搜索服务务等功能能,在Web应用程序序中包含含了用户户友好的的查询和和强大的的搜索功功能。可伸缩性性和

7、可用用性:同同一个数数据库引引擎可以以在不同同的平台台上使用用。SQLServer 2000企业版支支持联合合服务器器、索引引视图和和大型内内存支持持等功能能,使其其得以升升级到最最大Web站点所需需的性能能级别。企业级数数据库功功能:SQLServer 2000关系数据据库引擎擎能充分分保护数数据完整整性,同同时将管管理上千千个并发发修改数数据库的的用户的的开销减减到最小小。其分分布式查查询得以以引用来来自不同同数据源源的数据据,就好好象这些些数据是是SQLServer 2000数据库的的一部分分,同时时分布式式事务支支持充分分保护任任何分布布式数据据更新的的完整性性。复制制功能可可维护多多

8、个数据据复本,同时确确保单独独的数据据复本保保持同步步。5SQLServer 2000的特性易于安装装、部署署和使用用:SQLServer 2000中包括一一系列管管理和开开发工具具,这些些工具可可改进在在多个站站点上安安装、部部署、管管理和使使用SQLServer的过程。SQLServer 2000还支持基基于标准准的、与与Windows DNA集成的程程序设计计模型,使SQLServer数据库和和数据仓仓库的使使用成为为生成强强大的可可伸缩系系统的无无缝部分分。这些些功能可可以快速速交付SQLServer应用程序序,使客客户只需需最少的的安装和和管理开开销即可可实现这这些应用用程序。数据仓

9、库库:SQLServer 2000中包括析析取和分分析汇总总数据以以进行联联机分析析处理(OLAP)的工具。SQLServer中还包括括一些工工具,可可用来直直观地设设计数据据库并通通过English Query来分析数数据。6SQLServer 2000组件关系系图 7SQLServer 2000数据仓库库工具 工具描述关系数据库数据仓库设计、构造、维护的基础数据转换服务(DTS)用于向数据仓库加载数据数据复制用于分布式数据仓库数据分布和加载数据OLE DB提供应用程序与数据源的接口APIAnalysis Services用于采集和分析数据仓库中的数据English Query提供使用英语查

10、询数据仓库Meta Data Services浏览数据仓库中的元数据PivotTable服务用于制定操作多维数据的客户端接口8关系型数数据库关系型数数据库是是设计、构造、维护数数据仓库库的基础础技术。MicrosoftSQL Server2000是一个关关系型数数据库管管理系统统,它提提供了强强大的数数据库引引擎和许许多工具具,这些些工具不不仅可以以用于数数据库的的管理,而且可可以用于于数据仓仓库的管管理,是是数据仓仓库的技技术基础础。9数据转换换服务(DTS)提供数据据转换功功能,例例如数据据引入、引出以以及在SQLServer和任何OLEDB、ODBC或者文本本文件之之间转换换数据。利用D

11、TS,通过交互互式地或或按照规规划自动动地从多多处异构构数据源源输入数数据,这这样便有有可能在在SQLServer上建立数数据仓库库和数据据市场。数据的来来源特性性允许用用户输入入查询数数据的输输入时间间、地点点及其计计算方法法。数据据的引入入引出是是通过以以相同的的格式读读写数据据,在应应用程序序之间交交换数据据的过程程。一次次转换是是指在源源数据被被存储到到目的地地之前,对其进进行的一一系列操操作。转换特性性使得载载引入引引出中完完成复杂杂数据的的验证、清除等等功能变变得非常常简单。定制转转换对象象可以被被创建并并集成进进第三方方产品中中。DTS支持多步步封装,其中大大量文件件能被单单独处

12、理理,最终终被集成成为一个个单一的的文件。在目的的地,该该文件的的记录能能被系统统分为多多个记录录,或相相反,多多个记录录被集成成为一个个单一的的记录。DTS也与微软软的中心心库集成成在一起起,微软软数据中中心库存存储元数数据、数数据传送送包和数数据源特特性,许许多独立立的软件件经销商商支持和和共享这这个元数数据模型型。数据据转换服服务可以以在SQLServer间移动数数据结构构、数据据、触发发器、规规则、默默认、约约束和用用户定义义的数据据类型,只有数数据结构构和数据据可以在在不同的的异构数数据源中中间传递递。10数据复制制数据复制制:是一一种实现现数据分分布的方方法,就就是指把把一个系系统

13、中的的数据通通过网络络分布到到另外一一个或者者多个地地理位置置不同的的系统中中,以适适应可伸伸缩组织织的需要要,减轻轻主服务务器的工工作负荷荷和提高高数据的的使用效效率。数据复制制的过程程类似于于报纸杂杂志的出出版过程程,即把把信息从从信息源源迅速传传送到信信息接受受处。出出版服务务器包含含了将要要复制的的数据所所在的数数据库,该服务务器负责责制作将将要出版版的数据据,然后后将这些些出版的的数据的的所有变变化发送送到分布布服务器器中。订订阅服务务器是数数据复制制的目标标地,负负责接收收复制过过来的数数据,并并且负责责接收从从出版服服务器上上传送过过来的全全部变化化。分布布服务器器在出版版服务器

14、器和订阅阅服务器器之间起起中介作作用。分分布服务务器负责责从出版版服务器器中接受受复制过过来的数数据,然然后在该该服务器器上的分分布数据据库中存存储这些些变化,最后按按照指定定的时间间间隔推推向响应应的订阅阅服务器器。在复制过过程中,把将要要复制的的数据称称为出版版物和文文章。文文章是复复制的基基本单元元,是组组成出版版物的最最小单位位。文章章与数据据库中的的表对应应。文章章既可以以对应一一个表中中的全部部数据,也可以以指包括括表中的的一部分分数据。出版物物是一个个完整的的将要复复制的内内容,它它包括一一篇或多多篇文章章,是订订阅服务务器订阅阅的对象象。11OLEDBOLEDB式微软开开发的数

15、数据访问问编程界界面。微微软已经经定位OLEDB是ODBC继承者,ODBC主要用于于处理关关系型数数据。ODBC是基于SQL的,它可可以很好好的用于于关系型型数据库库访问,但是它它不能用用于非关关系型数数据源。象ODBC一样,OLEDB也提供对对关系型型数据的的访问,但是OLEDB扩展了由由ODBC提供的功功能。OLEDB的设计目目的是用用于所有有数据类类型的标标准界面面。除了了关系型型数据库库的访问问,OLEDB提供对各各种各样样数据源源的访问问,包括括Excel电子表格格的数据据,dBase的ISAM文件、电电子邮件件、新的的NT的ActiveDirectory和IBM的DB2数据。使使用

16、OLEDB,用一个界界面就可可以访问问许多不不同的数数据源。OLEDB是微软的的数据访访问策略略,称为为万能数数据访问问的基础础。万能能数据访访问指的的是一组组通用界界面,它它用来表表示来自自任何数数据源的的数据。OLEDB是使万能能访问成成为现实实的技术术。万能能数据访访问和OLEDB的另一方方面是所所有的对对象都应应该在数数据库中中维护,不是企企图把商商业要求求的不同同的数据据移动到到一个面面向对象象的数据据库中。OLEDB创建和理理解企业业数据并并且在各各种数据据源中维维护。12AnalysisServices在数据仓仓库或者者数据市市场中的的信息可可OLAP处理,OLAP可以有效效的以

17、维维度和度度量组成成的立方方体方式式察看数数据。维维度是一一种描述述性分类类,例如如,维度度可能是是地理位位置,也也可能是是产品类类型。度度量是一一种定量量数值,例如销销售额、库存量量或者总总费用。来自于于原始数数据源的的合计存存储在每每一个立立方体单单元中,这种组组织数据据的方法法可以轻轻易得过过滤数据据、有效效的加快快数据的的查询。然而,存在着着这种问问题:虽虽然OLAP合计是在在数据仓仓库中可可以达到到的查询询性能的的关键因因素,但但是存储储这些合合计数据据的成本本是磁盘盘存储量量。事实实上,合合计数据据量可以以轻易的的超过原原有的数数据量。另外,当维度度和合计计量提高高时,所所要求的的

18、OLAP数据存储储量也大大大的提提高。这这种对存存储量的的极大要要求一般般称为数数据爆炸炸。OLAP描述的是是一种多多维数据据服务,这种服服务的设设计目的的是保证证分析员员、经理理和决策策者针对对特定的的问题,通过快快速、一一致、交交互式的的实时数数据访问问和分析析。13AnalysisServicesMOLAP:多维型OLAP在一个用用于压缩缩索引的的永久数数据存储储中存储储维度数数据和实实时数据据。合计计存储用用来加快快数据访访问。MOLAP查询引擎擎是专有有的,而而且优化化成由MOLAP数据存储储使用的的存储格格式。MOLAP提供了比比ROLAP更快的查查询处理理速度,并且要要求更少少的

19、存储储空间。然而,它不能能较好的的伸缩,并且要要求使用用单独的的数据库库来存储储。ROLAP:关系型OLAP在关系型型数据表表中存储储合计。ROLAP针对关系系型数据据库的应应用允许许其利用用已有的的数据库库资源,并且允允许ROLAP应用程序序很好的的伸缩。然而,ROLAP使用表存存储合计计则要求求比MOLAP更多的磁磁盘空间间,速度度相对比比较慢。HOLAP:正如其名名称所示示,混合合型OLAP介于MOLAP和ROLAP之间。象象ROLAP一样,HOLAP将主数据据存储在在源数据据库中。象MOLAP一样,HOLAP把合计存存储在一一个永久久性数据据存储的的地方,它与主主关系数数据库分分开。这

20、这种混合合形式使使HOLAP可以具备备MOLAP和ROLAP两者的优优点。14English Query微软的英英语查询询环境允允许设计计者将他他们的关关系数据据库转移移到英语语查询上上来,这这给最终终用户提提供了使使用英语语提出问问题而不不是用SQL语言进行行查询的的能力。English Query服务是利利用英语语查询域域编辑器器创建的的,提供供了数据据库的有有关信息息,从而而使English Query可用于处处理关于于特殊表表、域和和数据的的英语问问题。15Meta DataServices在MicrosoftSQL Server2000中,许多多工具把把元数据据存储在在位于msdb系

21、统数据据库中的的集中式式中心仓仓库中。这里提提到的元元数据是是指数据据的数据据,Meta DataServices提供浏览览这些元元数据的的功能。数据中中心库提提供了一一个通用用的位置置:可以以用来存存放对象象和对象象之间的的关系。通过使使用一些些软件工工具,可可以描述述面向对对象的信信息:软软件工具具使用各各类对象象组成的的信息。对象接接口界面面,界面面由属性性、方法法和集合合组成,集合包包含了对对其他界界面的关关系,以以及关联联对象。16PivotTable服务PivotTable服务和AnalysisServices一起为用用户提供供客户端端对OLAP数据的存存取。PivotTable服

22、务运行行于客户户端工作作站上,它使得得可以利利用VisualBasic或其他语语言来开开发用户户程序,这些程程序可以以利用OLEDB技术,并并使用AnalysisServices中的OLAP数据或直直接取自自关系数数据库的的数据。当它和和OLAP服务一起起使用时时,PivotTable服务可以以自动将将进程或或缓冲内内存分配配到最合合适的位位置,并并且允许许多个客客户动态态存取同同一个立立方体。PivotTable服务业能能在本地地客户机机上存储储数据,从而使使用户可可以在不不连接AnalysisServices的情况下下对数据据进行分分析。这这种移动动式的解解决方案案允许分分析者将将数据带带

23、回家或或在途中中进行分分析。为为最终用用户提供供的OLAP数据分析析和描述述工具可可以利用用PivotTable服务进行行开发。PivotTable服务也提提供了开开放的界界面,独独立的软软件销售售商可以以利用它它来开发发第三方方应用的的产品。17数据仓库库的实现现步骤明确用户户需求设计和建建立数据据仓库使用数据据仓库维护和优优化数据据仓库18数据仓库库生命周周期管理理数据仓库库系统框框架影响数据据仓库项项目成功功的因素素数据仓库库的技术术数据仓库库项目所所需的角角色19数据仓库库系统框框架基本特点点拥有为项项目作出出技术决决策的观观察点拥有确定定项目是是否能够够完成的的计量参参照点拥有以灵灵

24、活方式式运用现现有知识识的能力力分部分、分阶段段依靠多多个工作作小组协协调完成成四个阶段段设想阶段段规划阶段段开发阶段段稳定阶段段20影响数据据仓库项项目成功功的因素素数据仓库库创建前前的影响响因素管理层的的信任从管理项项目开始始:面向向主题交流实现现目标任命一个个面向用用户的项项目经理理数据仓库库创建时时的影响响因素采用成熟熟的技术术注重查询询而不是是注重事事务只加载所所需数据据定义合适适的数据据源:元元数据映映射明确定义义主题数据仓库库创建后后的影响响因素面向决策策的使用用者的信信任21数据仓库库的技术术管理大量量的数据据管理多介介质索引和监监视数据据多种技术术的接口口对数据存存放位置置的

25、控制制数据的并并行存储储和管理理元数据管管理技术术语言接口口数据的高高效装入入高效索引引的利用用技术数据压缩缩技术复合键码码技术变长数据据锁管理切切换技术术快速恢复复技术其他技术术:事务务集成性性、高速速缓存、行/页级锁定定、引用用完整性性、数数据视视图等22数据仓库库项目所所需的角角色管理角色色项目主管管项目经理理技术角色色数据提供供专家体系结构构设计者者数据库管管理员数据迁移移专家数据转换换专家数据集市市开发的的领导人人质量保证证/测试专家家维护角色色内行的用用户培训教师师技术文档档编写人人员工具专家家销售商联联系人23创建数据据仓库向向导24创建数据据仓库向向导25创建数据据仓库向向导2

26、6创建数据据仓库向向导27完成创建建数据仓仓库28创建事实实维度表表29创建事实实维度表表30属性选项项卡31属性选项项卡32创建数据据库关系系图向导导33关系图34多维数据据集向导导35多维数据据集36多维数据据集37数据仓库库软件市市场19931998平均年增增23.9%,达达22亿美元。数据值入入工具:从数据据库中提提取数据据,转换换为数据据仓库格格式并送送入数据据仓库中中。数据过滤滤工具:对数据据仓库中中的数据据进行存存放和管管理。数据存取取工具:让用户户存取数数据仓库库中的数数据。数据仓库库市场划划分软件总市市场6949312416612。3%数据存取取663-125813.7%第三

27、代语语言/公公用程序序3061-601914.5%CASE1751-308512.5%DBMS5801-11680%15.0%其它市场场58163-10212411.9%数据存取取663-125813.7%数据提取取/转换换31-23249.3%数据管理理59-70864.3%数据仓库库753-219823.9%数据复制制14-31987.1%注:*-*%指1993年-1998年销售额(M$) 年递增率率38(1)动态可伸伸缩的数数据库系系统(DSA)存放大量量数据:几个GB到几个TBPDQ(并行数据据查询)技术:实现数据据查询、索引扫扫描。索引建立立、数据据修改、备份恢复等数数据库操操作的并

28、并发处理理支持所有有开放系系统硬件件环境:单CPUSMP(对称多处处理器)Cluster(松耦合群群体系统统)MPP(大规模并并行系统统)批处理操作数据据事务处理理操作数据据外部数据据数据仓库库管理软件件开放系统统平台元数据目标数据据库数据存取取工具INFORMIX-ONLINE动态服务务器INFORMIX的数据仓库库战略39SybaseWarehouse Works 体系系结构(1)C/S 环境境下的数数据仓库库框架联机事务务处理子系统部门数据据部门数据据局部仓库库局部仓库库中央仓库库个人使用用个人使用用决策支持持数据分布布的灵活活性要求求(2)Sybase支持数数据分布布的方法法Enter

29、prise CONNECT互互操作作体系结结构:并并发方方法、异异构数据据分布、信息打打包ReplicationServer的的基于于事件的的事件捕捕捉功能能基于时间间调度方方式的批批时间拷拷贝方案案(3)高高速的的时间访访问Navigation Server(导航服服务器)SQLServer中增加加interactionQuery(IQ) Accelerator 进行行随机高高速查询询SybaseOmniSQLServer 提供供时间访访问透明明性推荐125种无无缝存取取数据的的工具40ORACLE的数据仓仓库实施施战略决策支持持应用系系统OracleApplications DataWarehouse外部数据据源析取取、转换换、装载载工具数据仓库库管理工工具数据分析析工具数据集成成工具数据挖掘掘并将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论