5章数据仓库的工具_第1页
5章数据仓库的工具_第2页
5章数据仓库的工具_第3页
5章数据仓库的工具_第4页
5章数据仓库的工具_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章数据仓库的工具本章要点:如何选择数据仓库产品一般数据仓库产品的组成常见的数据仓库产品5.l数据仓库库产品选选择5.1..1数据仓库库产品的的组成5.1..2数据仓库库产品应应具备的的关键技技术5.1..3数据仓库库的发展展趋势5.1..4如何选取取数据仓仓库工具具5.l.l数据仓库库产品组组成数据集市市关系数据据库数据源数据准备备区各种服务务工具等等等。1.数据集市市数据集市市是数据据仓库的的子集,,是按主主题从数数据仓库库中划分分出来的的数据集集合。数据集市市通常按按职能部门门为单位为为其提供供数据,,例如,,销售部部门、财财务部门门、库存存部门等等的数据据集市。。由于数数据集市市中只包包含面向向某个主主题的数数据,因因此数据据量比较较小,方方便与各各种分析析工具建建立连接接,利于于用户使使用。2.关系数数据库关系数据据库是数数据仓库库中非常常重要的的组成部部分,数数据仓库库要想发发挥出真真正的威威力必须须由关系系数据库库为其提提供强大大的基础础引擎。。在数据仓仓库的应应用过程程中关系系数据库库为其提提供了许许多必不不可少的的功能,,如在数数据准备备数据库库中临时时储存、、清理、、转换传传入的数数据;为为数据仓仓库提供供存储引引擎、快快速传输输和修改改、以及及灵活的的索引机机制,容容纳和管管理数据据仓库中中海量的的数据并并支持数数据集市市。3.数据源使用数据据仓库的的最根本本目的是是为了向向企业决决策者提提供各种种决策信信息,因因此数据据仓库必必须要将将企业内内部或外外部的各各种信息息集中起起来,合合并为一一致的数数据集。。这些数据据的来源源各不相相同,可可以来自自关系型数数据库中的数据据,也可可以来自自各种电子表格格,甚至是是文本数据据。在一个个大型企企业中通通常会存存在多个OLTP系统来捕获日日常业务务运作情情况,这这些OLTP系统由不不同的部部门设计计并使用用不同的的数据结结构和数数据元素素,虽然然这些数数据源的的数据不不能直接接用于决决策支持持,但是是也必须须将它们们捕获到到数据仓仓库中,,因为这这些长期期积累的的数据是是建立数数据仓库库的重要要基础4.数据准备备区数据仓库库从不同同的数据据源抽取取数据后后,需要要对这些些数据进进行清理理和格式式化以保保证与其其他保存存在数据据仓库中中数据的的一致性性。数据据准备区区又被称称为数据据中间存存储区,,实际上上数据准准备区也也是一个个关系型型数据库库,数据据仓库从从其他数数据源提提出的数数据首先先要保存存在这个个关系型型数据库库中,在在这里将将数据转转化为数数据仓库库要求的的统一格格式,并并检查数数据的一一致性和和引用完完整性,,并准备备装载入入数据仓仓库的数数据库中中。通常情况况下,数数据准备备区和数数据仓库库是分开开的,但但是如果果对数据据的清洗洗和转换换操作不不影响到到数据仓仓库为最最终用户户提供服服务的性性能,数数据准备备区和数数据仓库库也是可可以合并并在一起起的。5.服务工具具建设数据据仓库的的目的是是为决策策者提供供必要的的决策数数据,因因此根据据决策者者的要求求为了提提供决策策者所需需要的信信息,数数据仓库库必须使使用相关关工具来来帮助它它分析和和评估数数据仓库库中浩瀚瀚的数据据,例如如在线分析析处理((OLAP)、数据据挖掘工工具、预预定义报报表等等。另另外,数数据仓库库也必须须留有相相关的应应用程序序接口((API)以支持持用户开开发自定定义的数数据仓库库服务工工具。5.1..2数据仓库库产品应应具备的的关键技技术1.海量数数据的管管理能力力数据仓库库为了支支持决策策分析存存储了海海量的数数据以用用来分析析计算,,因此数数据仓库库产品中中最关键键的技术术就是如如何来管管理这些些海量的的数据,,通过索索管理、、有效溢溢出管理理等技术术能够实实现对数数据仓库库中大量量数据的的管理要要求,通通常用户户在选购购数据仓仓库产品品时首先先考虑的的就是数数据仓库库产品对对海量数数据的管管理能力力能否满满足自身身的要求求。2.强大的的索引管管理功能能一个高质质量的数数据仓库库产品必必须能够够对数据据进行方方便快捷捷高速高高效的访访问,这这就要求求数据仓仓库产品品能够使使用索引引技术建建立适当当的关键键数据索索引,如如二级索索引、临临时索引引、稀疏疏索引等等索引技技术,同同时还要要能够保保证建立立、使用用和管理理这些索索引所付付出的代代价不能能太高。。5.1..2数据仓库库产品应应具备的的关键技技术3.对数据的的监控能能力如果数据据仓库产产品希望望在大型型的应用用环境中中使用,,那么它它必须具具备对数数据的监监控能力力。在数数据仓库库运行的的过程中中,数据据监控组组件要一一直对数数据仓库库中的数数据进行行实时的的监视,,通过收收集数据据访问信信息区分分出那些些数据是是经常被被使用的的,那些些是很少少被使用用的、那那些索引引建立的的不恰当当、那些些数据应应该进行行重新的的分类组组合等等等。而且且数据监监控组件件还要对对硬件系系统资源源的使用用情况进进行跟踪踪监控,,如内存存和cpu的使用率率、硬盘盘空间的的剩余情情况、并并发用户户的数据据、并发发线程的的数量等等。5.1..2数据仓库库产品应应具备的的关键技技术4.对多种种存储介介质的管管理能力力在数据仓仓库中有有很多因因素会影影响到数数据存储储介质的的选择问问题,如如数据的的使用率率、数据据粒度的的选择等等等,对对于那些些经常使使用的数数据必须须存放在在存取数数据很快快的介质质上以提提高数据据仓库系系统的反反映时间间,但通通常来说说,存储储介质速速度的快快慢要与与其价格格成正比比,这样样对于那那些不会会被经常常使用到到的数据据就需要要放在低低速介质质上来降降低整体体成本。。因此数数据仓库库产品必必须能够够提供对对多种不不同存储储介质的的管理能能力,这这也是实实现数据据仓库存存储多样样性的必必然要求求。在目前常常用的存存储介质质中价格格昂贵但但存取速速度非常常快的有有系统内内存、高高速缓存存;价格格较贵存存取速度度较快的的有各种种硬盘设设备;价价格较低低但存取取速度也也较慢的的有光盘盘和磁带带等。5.1..2数据仓库库产品应应具备的的关键技技术5.对元数数据的管管理元数据是是“关于于数据的的数据””,它与与数据仓仓库中数数据的生生命周期期有关,,因此在在数据仓仓库中占占有非常常重要的的地位。。数据仓仓库的开开发设计计与实现现并不是是一劳永永逸的,,而是一一个不断断重复,,逐渐完完善的过过程,因因此管理理好元数数据为今今后对数数据仓库库的修补补、新功功能的添添加等提提供了重重要的保保证。元数据的的主要内内容包括括数据仓仓库中表表的结构构、属性性、数据据仓库的的记录系系统、从从记录系系统到数数据仓库库的映射射关系、、数据的的抽取日日志、访访问数据据的例行行程序、、数据模模型的说说明等。。5.1.3数据仓库库的发展展趋势1、从数数据仓库库技术的的发展角角度分析析数据仓库库技术的的发展包包括数据抽取取、存储储管理、、数据表表现和方方法论等方面。。在数据抽抽取方面面,未来来的技术术发展将将集中在在系统集成成化方面。它它将互连连、转换换、复制制、调度度、监控控纳入标标准化的的统一管管理,以以适应数数据仓库库本身或或数据源源可能的的变化,,使系统统更便于于管理和和维护。。在数据管管理方面面,未来来的发展展将使数数据库厂厂商明确确推出数据仓库库引擎,作为服服务器产产品与数数据库服服务器并并驾齐驱驱。在这这一方面面,带有有决策支支持扩展展的并行关系系数据库库将最具发发展潜力力。在数据表表现方面面,数理统计计的算法和和功能将将普遍集集成到联联机分析析产品中中,同时时与Internet/Web技术紧密密结合,,推出适适用于Intranet、终端免免维护的的数据仓仓库访问问前端。。在这个个方面,,按行业业应用特特征细化化的数据据仓库用用户前端端软件将将成为产产品作为为数据仓仓库解决决方案的的一部分分。数据据仓库实实现过程程的方法法论将更更加普及及,将成成为数据据库设计计的一个个明确分分支,成成为管理理信息系系统设计计的必备备。5.1.3数据仓库库的发展展趋势2、从企业业角度分分析未来的发发展将是是不提供供完整解解决方案案的厂商商可能被被其他公公司收购购,例如如从事数数据抽取取、提供供专用工工具的软软件公司司很可能能并入大大型数据据库厂商商而去构构建完整整的解决决方案。。能够持持续发展展的厂商商大致有有两类::一是拥拥有强大大的数据据库、数数据管理理背景的的公司;;二是专专门提供供面向具具体行业业的、关关于数据据仓库实实施的技技术咨询询的公司司。3、从用户户的角度度分析数据管理理的传统统领域,,如金融融、保险险、电信信等行业业中的特特定应用用,如信信用分析析、风险险分析、、欺诈检检测等,,是数据据仓库的的主要市市场之外外,数据据仓库的的应用随随着现代代社会商商业模式式的变革革而进一一步普及及和深入入。大规规模的定定制不仅仅是一种种制造过过程、后后勤系统统、或者者推销策策略,它它很可能能成为下下一世纪纪企业生生产的组组织原则则,就像像成批生生产是本本世纪的的组织原原则一样样。在未未来大规规模定制制经济环环境下,,数据仓仓库将成成为企业业获得竞竞争优势势的关键键武器。。5.1.4如何选取取数据仓仓库工具具1、了解企企业的商商业需求求。第一步就就是要了了解企业业对数据据仓库产品的应应用范围围,是要建建立企业业级数据据仓库、、部门级级数据仓仓库还是是个人级级数据仓仓库?接下来我我们需要要了解数数据仓库库产品的的用户群体有哪哪些、预预期的用用户数量量有多少少、用户户的地理理分布是是集中还还是分散散。然后我们们要弄清清楚企业业建立数数据仓库库的用途和功功能,充分了了解用户户需要利利用数据据仓库进进行哪些些领域的的工作,,需要哪哪些特殊殊功能,,是只需需要简单单的数据据查询,,还是需需要利用用多维数数据分析析,甚至至是复杂杂的数据据挖掘。。最后我们们要了解解目前企企业进行行数据分分析的工作流程程是怎样的的,目前前分析中中有哪些些困难和和有哪些些急需解解决的问问题等等等。5.1.4如何选取取数据仓仓库工具具2、需要了了解数据据仓库系系统的需需求。在充分了了解商业业需求的的基础上上我们需需要进一一步了解解数据仓仓库系统统本身的的需求信信息。例例如需要要估算系统统可容纳纳数据的的数量,了解数据的稳稳定性以及刷新的速速度等。特别别需要强强调的是是,在数数据仓库库系统中中元数据的的维护是非常重重要的,,如果元元数据是是由非专专业的用用户来维维护,那那么系统统需求就就要强调调维护工工具表达达的直观观性;如如元数据据由专业业的技术术人员来来维护则则把需求求重点放放在维护护工具的的效率上上面。3、对各种种数据仓仓库产品品做出功功能评估估5.1.4如何选取取数据仓仓库工具具功能评估估应该包包括以下下几个方方面:(1)系统结结构:系系统的跨跨平台型型、系统统的安全全性、可可靠性、、系统的的备份恢恢复能力力等。(2)数据抽抽取能力力:数据据转化功功能的强强弱、定定时调度度能力、、数据抽抽取的速速率等。。(3)数据存存取呈现现能力::支持多多维查询询能力、、是否具具有良好好的用户户端界面面、是否否支持OLAP分析能力力等等。。(4)应用支支持:系系统提供供的可重重用软件件成分的的多少、、软件的的跨平台台性、是是否有良良好的应应用程序序开发语语言、数数据库对对存储过过程的支支持情况况等。(5)用户接接口:用用户界面面的美观观性、易易用性、、对WEB平台的支支持程度度等。(6)工具的的互操作作性:数数据库、、数据仓仓库、OLAP分析、数数据挖掘掘以及前前端展示示工具间间的互通通情况。。5.2常用数据据仓库产产品简介介Oracle9iNCRTeraDataIBMDB2SASMicrosoftSQLServer2005的数据仓仓库工具具5.2.1Oracle9i1、Oracle9i数据仓库库的新特特性Oracle数数据仓库库作为一一种企业业级关系系型数据据仓库管管理系统统在信息息管理、、企业数数据处理理、因特特网及电电子商务务等领域域被广泛泛的应用用。随着着2001年Oracle9i系系列产品品的推出出,Oracle将产产品的重重心向电电子商务务环境转转移并继继续关注注于Internet,为此此Oracle9i提供了了许多新新功能新新特性。。(1)可管理理性可管理性性是Oracle9i数据仓库库产品的的关键改改进方面面之一,,Oracle9i采取的管管理方法法有4个方面::改进和流流线化的的数据仓仓库操作作管理端到端的的系统管管理解决决方案简化任务务和减少少管理时时间关键领域域数据库库的自我我管理5.2.1Oracle9i(2)Internet内容管理理Oracle9i大大增强强了Oracle8i数据仓库库的功能能,以充充当创建建、管理理和传递递Internet内容的平平台,允允许客户户将所有有类型的的多媒体体内容存存储、管管理和聚聚集到单单一数据据库中,,另外还还包括::支持随时时可移动动的内容容存储和管管理所有有类型的的内容有效的搜搜索和索索引所有有类型的的内容为协作项项目组织织内容5.2.1Oracle9i(3)提供端端到端的的安全体体系结构构Oracle9i为用户提提供了目目前为止止业界最最安全的的应用程程序开发发和部署署平台,,其中包包括以下下几个部部分:提供强壮壮的三层层安全保证托管管环境的的安全深层数据据库保护护改进的企企业用户户安全((EnterpriseUserSecurity)数据加密密和标签签安全((OracleLabelSecurity)基于标准准的公共共密钥体体系结构构(PKI)5.2.1Oracle9i(4)点击智智能服务务点击智能能服务依依靠OracleClickstreamIntelligence组件来实实现,作作为Oracle9iApplicationServer的一个组组件它能能够分析析网站数数据和企企业数据据并用以以来提高高网站效效率和企企业用户户忠诚度度。它利利用Oracle数据仓库库开发工工具的开开放数据据模型来来提供一一个预先先建立的的、公开开的数据据集,并并使用Oracle的门户框框架提供供一套预预先建立立的报表表。OracleClickstreamIntelligence能够满足足电子商商务的苛苛刻要求求,包括括快速实实施、可可伸缩性性、可操操作性、、可用性性和可管管理性等等等。5.2.1Oracle9i(5)实时的的个性化化处理Oracle9i可以支持持实时的的个性化化处理,,它通过过使用数据挖掘掘技术能够从网网络上搜搜集来的的大量的的客户点点击、交交易和图图表统计计中找出出用户真真正需要要的电子子商务数数据,并并且它能能够在分分析大量量客户信信息的同同时,保保持每个个客户关关系的独独特性,,这就为为电子商商务提供供个性化化的、一一对一的的定制服服务提供供了保证证。5.2.1Oracle9i(6)灵活的的可移植植性Oracle9i数据仓库库可以在在不同的的操作系系统上运运行,且且不同的的操作系系统的Oracle应用软件件可相互互移植,,更为重重要的是是根据Oracle公司公布布的资料料显示移移植时的的代码修修改率仅仅为4%,从一种种操作系系统移植植到另一一种操作作系统时时只需要要修改少少量代码码甚至不不需要修修改代码码。同时时,Oracle9i支持工业业标注的的操作系系统,通通过SQL**NET、NET**8、NET8i,Oracle9iNet服务允许许不同类类型的计计算机、、操作系系统通过过网络实实现互联联。

5.2.1Oracle9i5-1Oracle数数据仓库库的结构构框架图图2.Oracle9i数据仓库库结构框框架5.2.1Oracle9i在框架中中数据仓仓库服务务器与展展示层之之间为C/S结构,而而数据仓仓库工具具则分布布于结构构中的各各个部分分,其中中:OWB(OracleWarehouseBuilder)位于服务务器中,,是构建建数据仓仓库的主主要工具具。Express是OLAP分析工具具,核心心部分位位于服务务器中,,其他部部分如ExpressObject、ExpressAnalyzer则位于客客户机中中。Reports、Discoverer顾名思义义是位于于客户机机中用于于展示的的工具集集。DMS(DataMiningSuite)这是一套套数据挖挖掘工具具,也位位于客户户机中,,另外,,在DMS之中也具具有一定定的展示示功能。。5.2.2NCRTeraDataNCRTeradata是高端数据据仓库市市场最有力的的竞争者者,主要要运行在在NCRWorldMarkSMP硬件的Unix操作系统统平台上上。1998年,该公公司也提提供了基基于WindowsNT的Teradata,试图开开拓数据据集市((DataMart)市场。。总的来来看,NCR的产品性性能很好好,Teradata数据仓库库在100GB、300GB、1TB和3TB级的TPC--D指标测试试中均创创世界纪纪录。但但是,NCR产品的价价格相对对较高,,中小企企业用户户难以接接受。相相比之之下TeraData数据仓库库有如下下几大特特点:TeraData数据仓库库几大特特点(1)丰富的的应用程程序接口口TeraData数据仓库库提供了了非常丰丰富的标标准化应应用程序序接口,,其中包包括:ODBCDriverforTeradata,JDBCDriverforTeradata,theOLEDBDataProviderforTeradata,Microsoft..NETDataProviderforTeradata,theTeradataCall-LevelInterface((CLI),TS//API等等。另另外还包包括许多多第三方方的应用用程序接接口,例例如SybaseOpenServerandOpenClient。(2)开发语语言预处处理器TeraData内置了多多种开发发语言预预处理器器,方便便用户能能够更便便捷的使使用各种种开发语语言创建建自己的的应用程程序,如如COBOL、C和PL/1等等。通通过使用用这些预预处理器器内置的的函数库库,开发发者们可可以开发发出能够够直接操操作TeraData数据仓库库管理系系统的增增强型客客户端程程序或者者host-based类型的应应用程序序。TeraData数据仓库库几大特特点(3)强大的的数据加加载单元元TeraData数据仓库库不单支支持一次次性的数数据加载载更可以以支持实实时地加加载要求求。TeraData数据加载载单元包包括以下下组件::FastLoad,MultiLoad,FastExport,TPump,TeradataParallelTransporter,TeradataReplicationSolutionsandBasicTeradataQueryfacility((BTEQ)。TeraData数据加载载工具都都可以满满足用户户的个性性化需求求将用户户分散在在不同数数据源的的数据无无缝的集集中加载载到TeraData数据仓库库之中。。(4)全方位位的数据据库管理理工具TeraData数据库管管理系统统包含了了很多工工具软件件来帮助助用户来来实现对对数据库库的操作作管理、、用户权权限管理理和数据据维护。。例如ASF//2用来实现现对数据据的备份份、存档档以及数数据恢复复功能;;DatabaseWindow(DBW)则可以以为用户户提供数数据库的的性能、、运行状状态和各各种统计计数据;;AdministrationWorkstation(AWS)工具为为拥有相相关权限限的用户户提供了了对整个个数据库库系统的的操作控控制能力力。5.2.3IBMDB2IBMDB2数据仓库库系统是是一套基于可视视数据仓仓库的商业智智能(BI)解决方方案,包包括:VisualWarehouse(VW)、Essbase/DB2OLAPServer5.0、IBMDB2UDB,以及来来自第三三方的前前端数据据展现工工具(如如BO)和数据据挖掘工工具(如如SAS)。DB2数据仓库库是IBM电子业务务软件战战略中的的重要组组成部分分,DB2家族中的的产品可可以运行行在包括括手持设设备、Intel、UNIX、iSeries以及大型型机平台台在内的的很多机机型上。。可以支支持的操操作系统统包括::Linux、Windows2000//NT//XP//.NET、AIX、HP-UX、SunSolaris、OS/400、VSE//VM和OS/390。DB2数据仓库库产品企业服务务器版通常用于于构建电子业务务应用程程序和支持大规模的的部门及及大型企企业级数据仓库库,它提提供了最最大程度度的连通通性,并并且可以以与异构构平台上上的DB2数据库和和第三方方厂商的的数据库库产品共共享数据据资源。。工作组服服务器版版该版本通通常用于于支持小规模的的部门级级应用程序序或者支支持那些些不需要要存取在在OS/400、VM/VSE和OS/390平台上的的远程数数据库的的应用程程序。个人版该版本通通常被单机用户户使用,功功能完善善但是不不能响应应远程的的数据库库请求。。该版本本只能运运行在Linux和Windows操作系统统上。Everyplace这是针对对移动计算算机环境境而设计的的版本,,它允许许移动用用户通过过个人数数据助理理或掌上上电脑等等手持移移动设备备存取企企业中的的DB2数据源。。DB2Everyplace可以运行行在包括括PalmOS、Linux、WindowsCE、Neutrino、PocketPC和Symbian在内的多多种移动动操作系系统上。。5.2.4SASSAS公司在20世纪70年代以““统计分分析”和和“线性性数学模模型”而而享誉业业界,90年代以后后,SAS公司也加加入了数数据仓库库市场的的竞争,,并提供供了特点点鲜明的的数据仓仓库解决决方案,,包括30多个专用用模块。。其中,,SAS//WA(WarehouseAdministrator)是建立数数据仓库库的集成成管理工工具,包包括定义义主题、、数据转转换与汇汇总、更更新汇总总数据、、元数据据管理、、数据集集市的实实现等;;SAS//MDDB是SAS用于在线线分析的的多维数数据库服服务器;;SAS//AF提供了屏屏幕设计计功能和和用于开开发的SCL(屏幕控控制语言言);SAS//ITSV(ITServiceVision)是IT服务的性性能评估估和管理理的软件件,这些些IT服务包括括计算机机系统、、网络系系统、Web服务器和和电话系系统等。。SAS系统的优优点是功功能强、、性能高高、特长长突出,,缺点是是系统比比较复杂杂。5.2..5MicrosoftSQLServer2005的数据仓仓库工具具MicrosoftSQLServer2005是基于客户户机/服务器((client//server)模型的关系型型数据库库管理系系统(DBMS),能够够为多种种应用提提供解决决方案,,如电子子商务、、数据分分析、数数据挖掘掘等,被被各类大大中小型型企业广广泛的使使用。在MicrosoftSQLServer2005系统中提提供了大大量的数数据仓库库设计、、建立、、数据加加载、数数据使用用以及数数据挖掘掘等强大大的工具具。其中中常用的的工具有有如下几几种:5.2..5MicrosoftSQLServer2005的数据仓仓库工具具关系型数数据库:作为数数据仓库库设计、、构造和和维护的的基础。。数据转换换服务((DTS):用于向数数据仓库库中加载载数据。。数据复制制:用于分分布式数数据仓库库分布和和加载数数据。AnalysisServices:用于采采集和分分析数据据仓库中中的数据据。EnglishQuery:提供使使用自然然英语语语言查询询数据仓仓库。OLEDB:提供应应用程序序与数据据源的接接口API。PivotTable服务:用于定定制操作作多维数数据的客客户接口口。MetaDataServices:浏览数数据仓库库中的元元数据。。5.3SQLServer数据仓库库的操作作应用SQLServer数据仓库库的框架架连接数据据源建数据源源视图创建和部部署多维维数据集集5.3.1SQLServer数据仓库库的框架架SQLServer数据仓仓库的框框架图5.3.1SQLServer数据仓库库的框架架在SQLServer上建立的的数据仓仓库或数数据集市市通过数数据转换换服务利利用OLEDB这个应用用程序接接口来有有效的访访问异构构数据。。系统的的不同组组件之间间通过微软中心心库(Repository)共享元数数据。前前端工具具可以使使用InternetExplorer、Access、Excel、EnglishQuery等的呢个个来通过过OLEDB存取数据据仓库的的数据。。5.3.2连接数据据源数据源是是数据仓仓库将要要分析的的数据来来源,在在每个数数据库中中都可以以指定一一个或多多个立方方体、数数据挖掘掘模型等等对象提提供数据据的数据据源。在在连接数数据源时时我们需需要先启启动MicrosoftSQLServer2005中的SQLServerBusinessIntelligenceDevelopmentStudio工具,创创建新的的数据挖挖掘项目目,命名名为AdventureWorks,打开该该项目的解解决方案案资源管管理器。

5.3..2连连接数据据源5.3..2连连接数据据源在“数据据源”上上单击鼠鼠标右键键,这时时弹出一一个如图图5-4所示的快快捷菜单单,左键键单击““新数据据源”。。

在“提供供程序””列表中中,确保保已选中中“本机机OLEDB\\MicrosoftOLEDBProviderforSQLServer”。“连接””选项卡卡中的内内容根据据在“OLEDB提供程序序”选择择的数据据源的不不同也会会有所差差异。在在这里我我们的““连接””选项卡卡由3个部分组组成:1、“选选择或输输入服务务器名称称”,在这里我我们可以以在下拉拉列表框框中指定定将要连连接的服服务器名名称或者者手动输输入服务务器名称称。5.3..2连连接数据据源

2、“登陆陆到服务务器”,,这里可以以有2种选项供供用户选选择,分分别是“使用Windows身份验证证”和““使用SQLServer身份验证证”。如果选择择“使用用Windows身份验证证”,那那么就表表示使用用Windows操作系统统的用户户可以直直接登录录到SQLServer系统中而而无需再再次认证证。如选选择“使使用SQLServer身份验证证”则表表示使用用SQLServer认证模式式,即用用户在登登录SQLServer系统时需需要输入入事先设设定的用用户名和和密码。。这里我我们选择择了“使使用Windows身份验证证”选项项。复选选框“空空白密码码”表示示禁止用用户输入入密码,,复选框框“保存存密码””则表示示允许系系统自动动保存用用户密码码,当用用户再次次登陆的的时候就就不必再再次输入入密码。。3、选择一一个数据据库来连接到到数据源源上,这这里可以以选择““在服务务器上选选择数据据库”这这样我们们就可以以从下拉拉列表中中选择或或手动输输入数据据库名称称。如果果用户选选择“附附加一个个数据库库文件作作为数据据库名””那么用用户就可可以在文文本框中中输入一一个数据据库名称称然后在在“使用用文件名名”文本本框中输输入将要要连接的的数据库库文件名名称就可可以了。。5.3..2连连接数据据源5.3.2连接数据据源最后我们们可以单单击“测测试连接接”按钮钮来测试试连接是是否成功功,如果果连接顺顺利的话话则会出出现如图图所示的的对话框框。5.3.2连接数据据源点击“确确定”后后,出现现“完成成向导””,单击击“完成成”以创创建名为为AdventureWorksDW的的新数据据源。5.3..3创建数据据源视图图在解决方方案资源源管理器器中,右右键单击击“数据据源视图图”,再再单击““新建数数据源视视图5.3..3创建数据据源视图图此时将打打开数据据源视图图向导在“欢迎迎使用数数据源视视图向导导”页中中,单击击“下一一步”。。5.3..3创建数据据源视图图此时将显显示“选选择数据据源”页页。“关关系数据据源”下下的AdventureWorksDW数数据源源已被选选中。5.3..3创建数据据源视图图单击“下下一步””。此此时将显显示“选选择表和和视图””页。在在此页中中,可以以从选定定的数据据源提供供的对象象列表中中选择表表和视图图。可以以筛选此此列表,,为选择择表和视视图提供供帮助。。在“可可用对象象”列表表中,选选择下列列表(同同时按下下Ctrl键可选择择多个表表):DimCustomer、DimGeography、DimProduct、DimTime、FactInternetSale。将选中中的表添添加到““包含的的对象””列表中中。5.3..3创建数据据源视图图单击“下下一步””,再单单击“完完成”以以定义AdventureWorksDW数据源视视图。此此时,数数据源视视图AdventureWorksDW将在解决决方案资资源管理理器的““数据源源视图””文件夹夹中显示示。同时时,数据据源视图图的内容容也将在在BusinessIntelligenceDevelopmentStudio的数据源源视图设设计器中中显示。。5.3.4创建和部部署多维维数据集集创建多维维数据集集仍然需需要解决决方案资资源管理理器,首首先在树树形结构构中AdventureWorks项目节点点下的““多维数数据集””图标上上单击鼠鼠标右键键,在弹弹出的快快捷菜单单中选择择“新建建多维数数据集””,如图图5-13所示。5.3.4创建和部部署多维维数据集集接下来会会出现““多维数数据集向向导”欢欢迎对话话框,如如图5-14所示,单单击对话话框中的的“下一一步”按按钮,在在“选择择生成方方法”页页上,确确认已选选中“使使用数据据源生成成多维数数据集””选项和和“自动动生成””选项,,然后单单击“下下一步””。在在“选择择数据源源视图””页上,,确认已已选中AdventureWorksDW数据源视视图,然然后单击击“下一一步”。。

该向导扫扫描在数数据源对对象中定定义的数数据库中中的表,,以标识识事实数数据表和和维度表表。事实实数据表表包含相相关的度度量值,,如售出出的部件件数等。。维度表表包含有有关这些些度量值值的信息息,如售售出产品品、售出出该产品品的月份份等。5.3..4创建建和部署署多维数数据集5.3.4创建和部部署多维维数据集集5.3.4创建和部部署多维维数据集集在“标识识事实数数据表和和维度表表页上,,将显示示该向导导所标识识的事实实数据表表和维度度表。对对于本本项目,,该向导导标识四四个维度度表和一一个事实实数据表表。为该该事实数数据表定定义了一一个度量量值组。。每个个维度表表必须链链接到多多维数据据集中的的一个事事实数据据表。维维度表具具有下列列关系类类型之一一:与与事实数数据表的的直接主主键-外键关系系,这称称为“星星型架构构”;通通过某个个其他表表与事实实数据表表的间接接主键-外键关系系,这称称为“雪雪花型架架构”。。需注注意,表表既可以以用作事事实数据据表,又又可以用用作维度度表。在“标识识事实数数据表和和维度表表”页上上,还可可以指定定时间维维度表,,然后将将时间属属性与指指定维度度表中的的列相关关联。时时间属性性与指定定时间维维度表中中的列相相关联是是基于时时间的多多维表达达式(MDX)计算(如如YTD和ParallelPeriod)所必需需的,而而且时间间智能向向导将使使用这一一关联定定义与时时间相关关的计算算成员。。5.3.4创建和部部署多维维数据集集下图显示示了该向向导的““标识事事实数据据表和维维度表””页,其其中为AdventureWorks项目选选择了事事实数据据表和维维度表

在“标识识事实数数据表和和维度表表”页的的“时间间维度表表”列表表中,选选择Time,然后单单击“下下一步””。在““选择时时间段””页上,,将时间间属性名名称映射射到以指指定为““时间””维度的的维度为为基础的的维度表表中的相相应列。。根据以以下列表表映射这这些属性性:将Year属性映射射到CalendarYear列。将HalfYear属性映射射到CalendarSemester列。将Quarter属性映射射到CalendarQuarter列。将Month属性映射射到EnglishMonthName列。将Date属性映射射到FullDateAlternateKey列。5.3..4创建建和部署署多维数数据集5.3..4创建建和部署署多维数数据集下图演示示了该向向导中的的这些列列映射。。

单击“下下一步””按钮进进入向导导的下一一页。随随即会会出现““选择度度量值””页,其其中显示示了该向向导所选选择的度度量值。。该向导导选择它它标识为为事实数数据表的的表中的的各数值值数据类类型列作作为度量量值。本本例只定定义了一一个度量量值组。。在“选选择度量量值”页页上,查查看在““Internet销售”度度量值组组中选择择的度量量值,然然后清除除下列度度量值的的复选框框:促促销关键键字、货货币关键键字、销销售区域域关键字字、修订订号。该向导选选择事实实数据表表中未链链接到维维度的所所有数值值列作为为度量值值。但这这四列不不是实际际的度量量值。前前三列是是将事实实数据表表与未在在此多维维数据集集的初始始版本中中使用的的维度表表链接起起来的键键值。5.3..4创建建和部署署多维数数据集

下图显示示了“选选择度量量值”页页上已清清除的复复选框和和其余选选定维度度。5.3..4创建建和部署署多维数数据集

单击“下下一步””。由于于您前面面已在该该向导选选择了““自动生生成”选选项,因因此该向向导将扫扫描层次次结构。。该向向导对定定义为维维度表的的表中的的各列记记录进行行采样,,以确定定列之间间是否存存在层次次结构关关系。层层次结构构关系是是多对一一关系,,例如““市/县”和““省/市/自治区””之间的的关系。。在该向导导完成对对维度的的扫描和和对层次次结构的的检测后后,请在在“检测测层次结结构”页页上单击击“下一一步”。。在““查看新新建维度度”页上上,通过过展开树树控件显显示该向向导检测测到的三三个维度度的层次次结构和和属性,,查看其其中每个个维度的的维度层层次结构构。

5.3..4创建建和部署署多维数数据集5.3..4创建建和部署署多维数数据集下图显示示了“查查看新建建维度””页上的的这三个个维度。。5.3..4创建建和部署署多维数数据集依次展开开“产品品”维维度和““属性””,然后后清除LargePhoto复选框。。单击““下一步步”。LargePhoto列在本项项目的多多维数据据集中不不是很有有用,并并且由于于它可能能会占用用大量空空间,因因此最好好将其从从多维数数据集中中删除。。在“完完成向导导”页上上,将多多维数据据集的名名称更改改为AdventureWorksDW。在该页页上,也也可以查查看多维维数据集集的度量量值组、、度量值值、维度度、层次次结构和和属性。。单击““完成””按钮以以完成向向导。5.3..4创建建和部署署多维数数据集5.3..4创建建和部署署多维数数据集下面要对对多维数数据集进进行部署署,在解解决方案案资源管管理器中中,右键键单击““AdventureWorks””项目,然然后单击击“属性性”。将出现““AdventureWorks属性页””对话框框,并显显示活动动(开发发)配置置的属性性。可以以定义多多个配置置,每个个配置可可以具有有不同的的属性。。例如,,不同的的开发人人员可能能需要将将同一项项目配置置为部署署到不同同的开发发计算机机,并具具有不同同的部署署属性,,如不同同的数据据库名称称或处理理属性。。注意““输出路路径”属属性的值值。该属属性指定定生成项项目时保保存项目目的XMLA部署脚本本的位置置。这些些脚本用用于将该该项目中中的对象象部署到到AnalysisServices实例。在左窗格格的“配配置属性性”节点点中,单单击“部部署”。。如果您您不希望望更改““服务器器”属性性的值,,则单击击“取消消”。否否则,单单击“确确定”。。5.3..4创建建和部署署多维数数据集5.3..4创建建和部署署多维数数据集在解决方方案资源源管理器器中,右右键单击击AdventureWorks项目,再再单击““部署””,或者者在“生生成”菜菜单上单单击“部部署AdventureWorks””。BusinessIntelligenceDevelopmentStudio将生成AdventureWorks项目,然然后使用用部署脚脚本将其其部署到到指定的的实例中中。部署署进度将将在下列列两个窗窗口中显显示:““输出””窗口和和“部署署进度–AdventureWorks”窗口。““输出””窗口显显示部署署的整体体进度。。“部署署进度–AdventureWorks”窗口显示示部署过过程中每每个步骤骤的详细细信息。。5.3..4创建建和部署署多维数数据集下图显示示部署AdventureWorks项目过过程中的的“部署署进度--AdventureWorks””窗口和和“输出出”窗口口。5.3..4创建建和部署署多维数数据集这样就将将AdventureWorksDW多维数据据集成功功部署到到本地实实例,并并已对部部署的多多维数据据集进行行了处理理。您现现在已准准备就绪绪,可以以浏览多多维数据据集中的的实际数数据。下面对本本项目部部署之后后的结果果进行浏浏览,通通过单击击BusinessIntelligenceDevelopmentStudio中的“客客户”选选项卡,,切换到到“客户户”维度度的维度度设计器器,然后后单击““浏览器器”选项项卡。“省/市/自治区名名–地域”用用户层次次结构将将显示在在“浏览览器”选选项卡的的工具栏栏上的““层次结结构”列列表中;;当前级级别的名名称“(全部)”将直接显显示在该该工具栏栏下方,,而“(全部)”级别的单单独成员员将显示示在浏览览器窗格格中。默默认情况况下,““(全部)”级别的唯唯一成员员的名称称是“全全部”并并且可见见。对于于方案维维度等维维度,可可以更改改或隐藏藏此级别别的名称称。在“级别别和成员员”窗格格中,展展开“(全部)”级别的““全部””级别成成员以显显示“省省/市/自治区名名”级别别的成员员。展开开此级别别的Alabama成员以显显示“地地域”级级别。展展开“地地域”级级别的280成员,以以在“客客户”级级别查看看该成员员。使用维度度设计器器的“级级别和成成员”窗窗格,可可以在多多维数据据集向导导所设计计的用户户层次结结构中轻轻松查看看每个级级别的成成员,因因而可以以确定需需要进行行的功能能更改。。请注意意以下几几点内容容:此层层次结构构没有定定义“市市/县”级别别,“地地域”级级别的成成员是DimGeography表键值,,“客户户”级别别显示客客户的电电子邮件件地址而而不是客客户的姓姓名。5.3..4创建建和部署署多维数数据集下图显示示了“级级别和成成员”窗窗格中的的展开层层次结构构。5.3..4创建建和部署署多维数数据集在“客户户”维度度的维度度设计器器的工具具栏上,,在“层层次结构构”列表表中选择择“英语语国家/地区区域域名”,,然后在在“级别别和成员员”窗格格中展开开“全部部”级别别成员。。随即会显显示“英英语国家家/地区区域域名”属属性的属属性层次次结构。。默认情情况下,,维度的的每个属属性都具具有包含含以下两两个级别别的层次次结构::“(全部)”级别和包包含每个个属性成成员的级级别。第第二个级级别的名名称是属属性名本本身。5.3..4创建建和部署署多维数数据集下图显示示了“英英语国家家/地区区区域

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论