《数据仓库与商务智能》第章_第1页
《数据仓库与商务智能》第章_第2页
《数据仓库与商务智能》第章_第3页
《数据仓库与商务智能》第章_第4页
《数据仓库与商务智能》第章_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章

数据仓库系统的体系结构与设计方法数据仓库系统的体系结构分布式对象技术监控器的设计转换器的设计集成器的设计元数据管理器的设计1数据仓库系统的结构最终用户可视化工具数据挖掘工具多维分析工具多维数据数据仓库工具层数据仓库层2数据仓库系统的体系结构数据仓库可视化用户接口OLAP工具查询/报表工具数据挖掘工具前端开发工具集成器集成器转换器转换器源数据源数据元数据

及其管理工具

数据仓库体系结构3数据仓库系统的体系结构源数据:数据仓库中的数据来源于多个数据源,它不仅可以是企业内部的关系型数据库,还包括非传统数据,如文件、HTML文档等。数据仓库管理系统:元数据库及元数据管理部件:元数据库用来存储由定义部件生成的关于源数据、目标数据、提取规则、转换规则以及源数据与数据仓库之间的映射信息等。数据转换部件:该部件把数据从源数据中提取出来,依定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库。数据集成部件:该部件根据定义部件的规则、统一各源数据的编码规则,并净化数据,根据元数据中定义的数据组织形式对数据进行汇总、聚合计算。数据仓库管理部件:它主要用于维护数据仓库中的数据,备份、恢复数据以及管理数据的安全权限问题。 4数据仓库系统的体系结构数据仓库前端工具集查询/报表工具:以图形化方式和报表方式显示数据,帮助了解数据的结构、关系以及动态性。OLAP工具:通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,便于用户对数据进行深入的分析和观察。数据挖掘工具:从大量数据中挖掘出具有规律性的知识,以及数据之间的内在联系。前端开发工具:提供用户编程接口,便于在现有系统的基础上进行二次开发,增强系统的伸缩性。数据仓库:在数据仓库系统中,数据仓库是一个数据存储集合,它的存储形式通常有多维数据库,关系型数据库及其他存储方式。5分布式对象技术随着Internet的广泛应用,将应用扩展到局域网、广域网甚至Internet上已成为用户的普遍需求,分布式计算成了新的热点。分布式计算系统又称为中间件。从层次上看,它处于系统的中间层;从功能上看,向下它可以传递和处理上层用户的各种请求,向上它可以屏蔽下层的实现细节,提供各种服务。因此,分布式计算系统起到了承上启下的作用,为用户构造分布式应用系统提供强有力的支持。6分布式对象概述程序设计方法经历了多次变革:从最初的功能分解法,到结构化程序设计方法,再到至今仍在广泛使用的面向对象程序设计方法。在80年代中期,国际标准化组织ISO推出了RPC(RemoteProcessCall,远程过程调用)标准,极大地推动了分布式处理技术的规范化的标准化。到1992年,开放软件基金会OSF颁布了DCE(DistributedComputingEnvironment,分布计算环境)标准。在这个标准中,它不仅吸收了RPC作为其远程调用的方式,而且对分布处理进行了抽象定义,是分布式计算技术发展过程中的一个里程碑。随着应用系统对可扩展性和可重用性的要求不断提高,面向对象的分析、设计和编程技术得到了广泛的应用。将面向对象的思想应用到分布式环境中,提出了分布式对象的概念。

7分布式对象的代表性观点组件对象是软件的基本量子。它具有一定的功能,可插用,同时又是要维护的。分布式对象则是分布式环境中的组件对象,它封装了设计决策,并作为一个独立的单元处于分布式环境中。分布式对象是具有特定功能的,能够跨越进程的边界、实现网络、语言、应用程序、开发工具和操作系统的”即插即用”的独立对象。分布式对象是指任何可被分离出来,具有标准化的,可重用的公开接口的软件。分布式对象通过接口对外提供服务。对象与对象之间,对象与客户之间同时通过接口进行交互。因此分布式对象一旦发布,它只能通过预定义的接口来提供合理的、一致的服务。这种接口定义的稳定性使客户应用开发人员能够构造出稳定的应用。一个分布式对象可以实现多个接口,同时一个特定的接口也可以被多个分布式对象来实现。除此之外,分布式对象还提供了对象位置的透明性,也就是说一台机器上的应用可以透明地访问其他机器上的分布式对象。8分布式对象的工业标准分布式对象的两种工业标准:COM/DCOM/COM+:Microsoft制定的以Windows为中心的开发环境。CORBA(CommonObjectRequestBrokerArchitecture):由700多个厂商共同提倡的,公共对象请求代理体系结构,是平台中立的分布式技术,CORBA能够执行于Windows,UNIX以及Linux等操作系统之中,但是目前成熟产品很少,并且支持的厂商不是十分普及。根据这两种分布式技术演进而产生的分布式对象技术:例如EJB(EnterpriseJavaBean)等。9基于分布式对象的程序设计方法基于分布式对象的程序设计方法继承并发展了面向对象程序设计方法。它将对象技术应用于系统设计,对向对象程序设计的实现过程作了进一步抽象。分布式对象设计方法强调真正的软件重用和高度的可操作性。它侧重于分布式对象的产生和装配,这两方面构成了分布式对象程序设计的核心。分布式对象的装配使得软件产品有可能用类似于“搭积木”的方法快速地建立起来,不仅可以缩短软件产品的开发周期,同时也提高了系统的稳定性和可靠性。可重用的分布式对象库不同于对象库,分布式对象库保存的是一些经过测试的分布式对象。这些分布式对象遵从标准或规范,并且分布式对象库也包括这些分布式对象的细节功能说明文档。10基于于可可重重用用的的分分布布式式对对象象库库的的软软件件开开发发模模式式的的过过程程组合过程定制过程检索过程标识过程验证过程分类过程

可重用组件库

软件开发环境11基于于可可重重用用的的分分布布式式对对象象库库的的软软件件开开发发模模式式的的过过程程标识识过过程程::标标识识一一个个可可重重用用的的分分布布式式对对象象。。验证证过过程程::判判定定可可重重用用分分布布式式对对象象所所声声明明的的功功能能特特性性和和性性能能特特性性。。分类类过过程程::对对已已有有分分布布式式对对象象的的功功能能、、使使用用方方法法、、适适用用范范围围、、接接口口等等进进行行说说明明性性的的描描述述,,以以便便日日后后可可以以高高效效准准确确地地检检索索。。检索索过过程程::利利用用标标准准的的方方法法根根据据指指定定的的属属性性找找到到所所需需的的分分布布式式对对象象。。定制制过过程程::通通过过对对检检索索到到的的分分布布式式对对象象进进行行修修改改、、裁裁剪剪和和配配置置使使其其满满足足用用户户的的需需求求。。组合合过过程程::将将已已定定制制好好的的分分布布式式对对象象集集成成在在一一起起形形成成应应用用系系统统。。12COMCOM::即即组组件件对对象象模模型型,,是是一一种种以以组组件件为为发发布布单单元元的的对对象象模模型型,,这这种种模模型型使使各各软软件件可可以以用用一一种种统统一一的的方方式式进进行行交交互互。。COM既既提提供供了了组组件件之之间间进进行行交交互互的的规规范范,,也也提提供供了了实实现现交交互互的的环环境境。。因因为为组组件件对对象象之之间间交交互互的的规规范范不不依依赖赖于于任任何何特特定定的的语语言言,,所所以以COM也也是是不不同同语语言言协协作作开开发发的的一一种种标标准准。。COM的的实质是是这样一一种协议议,它负负责将一一个软件件模块同同另一个个连接起起来,而而不再参参与其余余的事务务。连接接建立后后,两个个模块可可以通过过一种称称之为““接口””的结构构进行通通信。接接口是一一组逻辑辑上相关关的函数数集合,,其函数数也被称称为接口口成员函函数。在在同一个个接口中中的函数数应该提提供类似似或相关关的服务务。13COM应应用的组组成部分分COM接接口:通通过接口口的一个个对象暴暴露它能能提供给给COM客户的的服务。。每个COM对对象为一一组相关关的属性性和方法法提供了了一个接接口。在在COM中,每每一个接接口都由由一个128位位的全局局唯一标标识符((GUID,GlobalUniqueIdentifier))来标识识。客户户通过GUID获得接接口的指指针,再再通过接接口指针针,客户户就可以以调用其其相应的的成员函函数。接接口是COM对对象提供供服务的的基本单单元,因因此一个个COM对象可可以同时时提供数数个不同同的接口口,并且且在不同同的接口口中提供供不同的的函数。。COM服服务器::它是一一个模块块,可以以是EXE、DLL或或是OCX,它它们包含含COM对象的的实现代代码。一一个COM服务务器由一一个或多多个COM对象象组成,,对象在在服务器器内部实实现。一一个COM服务务器可以以为多个个客户提提供服务务,客户户也可以以连接到到不同的的服务器器。一个个COM服务器器就是一一个向客客户应用用或库提提供服务务的应用用或库((如DLL)。。COM客客户:通通过接口口向服务务器申请请需要的的服务。。客户知知道需要要从服务务器获得得什么,,但是客客户不知知道服务务器内部部的细节节。14COM的的特性面向对象象的特性性和客户户/服务务器的特特性。语言无关关性:COM不不依赖于于特定的的语言,,只要能能够生成成符合COM规规范的可可执行代代码即可可,该特特性性为为跨语言言合作开开发提供供了统一一标准。。进程透明明性:在在客户/服务器器的软件件结构中中,运行行在客户户端的代代码和运运行在服服务器端端的代码码既可以以在同一一个进程程中,也也可以在在不同的的进程中中。COM所提提供的服服务组件件对象在在实现时时有两种种进程模模型:进进程内对对象和进进程外对对象。根根据进程程模型,,COM服务器器程序可可以分为为:进程程内服务务程序、、本地服服务程序序和远程程服务程程序。进进程内服服务程序序被加载载到客户户的进程程空间,,在Windows环环境下通通常以动动态链接接库(DLL))的形式式实现;;本地服服务程序序是一个个独立的的应用程程序,它它与客户户程序运运行在同同一台机机器上,,通常它它是一个个EXE文件;;远程服服务程序序运行在在与客户户不同的的机器上上,它既既可以是是一个DLL,,也可以以是一个个EXE文件。。虽然COM对对象有不不同的进进程模型型,但对对于客户户程序来来说是透透明的。。可重用性性:由于于COM标准是是建立在在二进制制代码级级的,因因此COM对象象的可重重用性与与一般的的面向对对象语言言的重用用过程不不同。COM的的重用性性可建立立在组件件对象的的行为方方式上,,而不是是具体的的实现上上,因此此它的可可重用性性不是源源代码级级的重用用,而是是二进制制级的重重用。15DCOMDCOM(DistributeComponentObjectModel,分分布式组组件对象象模型)):是COM的扩展展,它可可以支持持不同计计算机上上组件对对象与客客户程序序之间或或者组件件对象之之间的通通信,这这些计算算机可以以在局域域网内,,也可以以在广域域网上,,甚至通通过Internet进行连连接。对对于客户户程序而而言,组组件程序序所处的的位置是是透明的的,不必必编写任任何处理理远程调调用的代代码。DCOM在COM基础础上增加加的主要要特征创建远程程对象的的能力::客户只只需调用用OLE32.dll提供的的库函数数CoCreateInstance透明明地创建建组件,,而不关关心组件件的位置置。跨网络的的数据传传送能力力:由于于远程对对象和客客户处于于不同的的地址空空间,它它们之间间的数据据传送不不但可能能要跨网网络进行行,还要要处理数数据格式式等一系系列调整整。当客客户和远远程对象象进行数数据传送送时,在在客户端端需对参参数进行行列集,,位于客客户端的的代理对对象完成成这一任任务,进进行跨网网络的数数据传送送。安全性和和访问控控制能力力。16COM+COM+:并不不是COM的新新版本,,而是COM的的新发展展,它是是COM更高层层次上的的应用。。COM+的底层层结构仍仍然以COM为为基础,,它几乎乎包括了了COM的所有有内容。。COM+倡导了了一种新新概念,,把组件件软件模模型建立立在应用用层上,,把所有有组件的的底层细细节留给给操作系系统。COM+不再局局限于COM的的组件技技术,它它更加注注重于基基于分布布式网络络应用的的设计与与实现。。COM+继承承了COM几乎乎全部的的优势,,同时又又避免了了COM实现方方面的一一些不足足。从COM的发展展角度来来看,COM最最初作为为桌面操操作系统统平台上上的组件件技术,,主要为为OLE服务。。但是随随着WindowsNT与与DCOM的发发布,COM通通过底层层的远程程支持组组件技术术延伸到到了分布布式应用用领域,,充分体体现了COM的的扩展能能力以及及结构模模型的优优势。MTS为为COM增添了了许多新新的内容容,弥补补了COM和DCOM的一些些不足,,它注重重于服务务器一端端的组件件管理和和配置环环境。COM+进一步步把COM、DCOM和MTS统一一起来,,形成真真正适合合于企业业应用的的技术。。17分布式组组件对象象的特性性伸缩性::随着用用户数目目的增加加、数据据量的不不断增多多,分布布式应用用系统的的适应能能力反映映了系统统的优劣劣。使用用COM/DCOM/COM+建立立起来的的应用系系统能很很好地适适应这种种规模的的变化,,当用户户数比较较少、数数据量不不大时,,系统显显得小巧巧而快速速;当应应用规模模增大时时,系统统也能够够正常运运行并且且在保证证性能的的情况下下不影响响可靠性性。DCOM的的位置透透明性保保证了这这种变化化可以不不必修改改组件源源程序。。可配置性性:安装装和管理理是分布布式软件件系统的的两个重重要环节节。使用用COM/DCOM/COM+建立立的分布布式软件件系统可可以很方方便地对对系统进进行重新新配置,,包括服服务器的的变化、、客户程程序的自自动安装装等特性性。微软软为DCOM提提供了一一个图形形界面的的配置工工具程序序(DCOMCNFG.EXE),,可使客客户程序序和组件件程序在在不改变变代码的的情况下下适应不不同的网网络环境境。18分布式组组件对象象的特性性安全性::DCOM使使用了WindowsNT提供的的可扩展展安全性性框架,,在非NT平台台上实现现的DCOM也也包括了了一个与与NT兼兼容的安安全提供供器。DCOM实现的的安全性性分为访访问安全全性和激激发安全全性。访访问安全全性指定定哪些用用户可以以调用分分布式组组件对象象,激发发安全性性指定哪哪些用户户可以在在一个新新进程中中创建新新的对象象。协议无关关性:在在基于COM/DCOM/COM+的分布布式应用用系统中中,并不不要求专专门的网网络协议议,所以以这种分分布式应应用系统统对网络络有很强强的适应应能力。。在Windows平平台上,,可以使使用以下下一些协协议:TCP/IP、、UDP、IPX/SPX以以及NetBIOS。。平台独独立性性:COM/DCOM/COM+把把平台台二进进制标标准和和平台台无关关的标标准隔隔离开开来,,并且且,由由于DCOM建建立在在DCERPC的的基础础上,,所以以DCOM能很很好地地适应应不同同的系系统平平台,,目前前已经经实现现了DCOM的的操作作系统统有::Windows、、AppleMacintosh以以及Unix的的一些些版本本。19使用COM技术术实现现数据据仓库库的组组件数据仓仓库是是针对对支持持整个个企业业范围围的主主要业业务来来建立立的。。主要要特点点是,,包含含大量量面向向整个个企业业的综综合信信息及及导出出信息息,所所以系系统本本身处处在一一个分分布式式环境境中,,且必必须具具有极极好的的扩展展性和和灵活活性。。COM/DCOM/COM+技术术能适适应数数据仓仓库应应用的的需要要,能能最大大限度度地提提高灵灵活性性和可可扩展展能力力。数据仓仓库的的系统统设计计与开开发是是一个个动态态的反反馈和和循环环的过过程。。一方方面数数据仓仓库的的数据据内容容、结结构、、粒度度、分分割以以及其其他物物理设设计根根据用用户所所返回回的信信息不不断地地调整整和完完善,,以提提高系系统的的效率率和性性能;;另一一方面面,通通过不不断地地理解解用户户的分分析需需求,,向用用户提提供更更准确确、更更有用用的决决策信信息。。将数数据仓仓库系系统从从功能能上分分为若若干个个独立立的对对象,,并使使用COM技术术实现现,可可以最最大限限度地地重用用这些些对象象。当当用户户的需需求增增加或或发生生变化化时,,只需需要增增加相相应的的COM对对象或或更新新变化化的COM对象象。20使用COM技术术实现现数据据仓库库的组组件通过将将用户户业务务逻辑辑以DCOM对对象的的形式式集中中到中中间层层,系系统就就获得得了对对业务务逻辑辑的独独立性性。当当用户户需求求改变变时,,开发发人员员可以以迅速速地在在应用用服务务器上上更新新业务务逻辑辑,而而无需需将更更新后后的应应用递递交到到成千千上万万的桌桌面系系统上上去,,从而而使开开发人人员从从维护护众多多客户户端的的繁重重工作作中解解脱出出来。。仓库是是一个个大规规模的的工程程项目目,它它开发发周期期长,,而数数据仓仓库的的需求求又是是动态态的,,不确确定的的。如如果数数据仓仓库的的开发发周期期过长长,可可能当当系统统完成成后,,用户户的需需求已已经发发生了了变化化,从从而造造成开开发资资源的的浪费费;而而且在在当今今激烈烈的市市场竞竞争中中,谁谁越早早进行行决策策,谁谁就在在竞争争中占占得先先机,,所以以数据据仓库库的开开发周周期越越短,,给企企业带带来的的效益益就越越大。。通过过COM技技术将将数据据仓库库系统统划分分为不不同的的功能能对象象,可可以使使开发发团队队进行行并行行开发发。开开发人人员只只需要要定义义各个个COM对对象明明确的的接口口,彼彼此之之间不不需要要了解解各自自的工工作。。21使用COM技术实现现数据仓库库的组件数据仓库的的数据是从从企业内部部的各个操操作型环境境中提取出出来的,所所以数据仓仓库系统本本身就处在在一个分布布式环境中中。由于在在数据仓库库中数据的的访问量非非常大,所所以提高系系统性能的的首要目标标是尽量减减少网络上上的数据传传递。可以以将数据处处理的各个个组件以DCOM对对象的形式式存放在应应用服务器器上,所以以,尽管可可能存在着着与应用服服务器的多多个甚至数数百个的连连接,但应应用服务器器与数据库库服务器之之间的连接接却只有少少数几个,,从而达到到减少网络络上的数据据传送量。。数据分析应应用中的计计算、操作作和数据过过滤通常是是很复杂的的。如果在在客户机上上完成这些些处理工作作,不仅要要求客户机机必须具有有足够强大大的配置,,而且对网网络负载能能力也是一一个考验。。通过COM技术可可以将执行行此类处理理工作的对对象放在多多个应用服服务器上,,利用COM+提供供的负载平平衡服务来来提高数据据仓库系统统的可用性性。由于数据分分析时,每每次查询涉涉及到的数数据量巨大大,所以往往往会需要要较长的响响应时间,,特别在数数据分布时时响应时间间有时会让让人难以忍忍受。COM+通过过消息队列列组件提供供了异步通通信功能,,使得客户户不必等待待。22数据仓库体体系结构的的设计与实实现设计思想::客户端通过过提交描述述要调用的的方法和要要传递的参参数的XML文档进进行调用。。在应用服服务器端实实现所需服服务的接口口,当通信信组件接收收到XML文档后,,创建XMLService组件并由由XMLService组件件根据XML文档调调度服务,,并将返回回结果或错错误信息封封装成XML文档传传递给客户户端。将数据仓库库系统划分分为若干个个独立的分分布式对象象,每个对对象都可以以独立地完完成一项工工作如数据据转换、数数据集成等等。这些对对象须使用用开放的标标准组件,,它们具有有可重用性性高的特性性。对象与与对象之间间通过XML文档进进行通信。。由于采用用开放的XML文档档集成数据据,所以大大大提高了了系统集成成异构数据据源、半结结构化数据据及非结构构化数据的的能力。对象与对象象之间既可可以互相协协作共同完完成创建数数据仓库的的任务,又又可以独立立地完成某某个特定功功能。这些些分布式对对象和用户户前端界面面以及后台台数据形成成了数据仓仓库的多层层体系结构构。23数据仓库系系统体系结结构的设计计客户端:可视化的用用户界面客户端通信信组件应用服务器器端:服务器端通通信组件XMLService调度组组件安全组件元数据管理理器转换器集成器数据库服务务器端源数据元数据库数据准备区区数据仓库24数据仓库系系统中的通通信-XML概述述XML(eXtensibleMarkupLanguage,可扩扩展的标记记语言)是是国际组织织W3C制制定的在Web上对对有格式的的数据进行行描述、传传输、操作作的通用语语言。XML是是一套定义义语义标记记的规则,,这些标记记将文档分分成许多部部件并对这这些部件加加以标识。。它也是元元标记语言言,即定义义了用于定定义其他与与特定领域域有关的、、语义的、、结构化的的标记语言言的句法语语言。XML定义义了一套元元句法,允允许各种不不同的专业业开发与自自己的特定定领域有关关的标记语语言。25基于XML的通信运运行机制应用服务器器端通信组组件接收到到客户端传传递来的XML字符符串,创建建XMLService对象象。将XML字字符串以参参数形式传传递给XMLService对象的调调度方法Run(),并调用用Run方方法;在Run方方法中,解解析XML字符串,,获得客户户端调用的的方法;检查用户的的权限,如如果没有调调用此方法法的权限,,返回错误误信息;通过权限验验证后,打打开存储在在服务器端端的FunctionMaps.xml文件,,该文件中中记录了方方法和对象象的映射关关系,根据据文件中记记录的内容容获得实现现方法的对对象名;根据获得的的对象名创创建对象;;每个对象((元数据管管理器、转转换器、集集成器)除除了实现了了用户所需需要的服务务外,还实实现了一个个调度自身身服务的Run方法法,XMLService调调度对象则则通过调用用这个Run方法来来实现对对对象服务的的调度。26XML通信信组件示意意图27XML通信信组件客客户端与服服务器端的的通信机制制启动服务器器端管理程程序,创建建Application调调度对象。。用Application调调度对象的的StartNewService方方法创建ServerDispatcher侦侦听听对象,并并对客户端端进行侦听听。启动客户端端应用程序序,创建ClientTalker会会话对象。。调用ClientTalker会话对对象的Connect方法,,请求连接接服务器。。ServerDispatcher侦侦听对象接接收到客户户端的连接接请求后,,创建ServerTalker对象象并将它与与ClientTalker会话对象象连接。如如果活动的的通信会话话对象数量量达到了最最大限制,,新的连接接不能建立立,相关消消息将被记记录到日志志文件中。。调用ServerTalker的Accept方法,然然后等待客客户端发送送XML消消息;在收收到客户端端发送的XML消息息后,加载载XMLService对象象处理XML消息,,然后将处处理结果发发回客户端端;如果过过程中有错错误发生,,错误信息息将被记录录到日志文文件中,同同时,会话话被认为结结束;如果果在上一次次数据通信信后,在指指定时间范范围里没有有通信发生生,系统认认为超时,,会话也将将结束。28元数数据据管管理理器器客户户端端登登录录::负负责责接接收收客客户户端端登登录录信信息息并并进进行行用用户户权权限限检检查查元数数据据管管理理器器的的用用户户接接口口::以以接接口口形形式式向向用用户户提提供供对对元元数数据据增增、、删删、、改改、、查查的的服服务务,,包包括括::源源数数据据信信息息、、数数据据仓仓库库信信息息、、星星型型模模型型信信息息、、维维信信息息、、维维表表字字段段信信息息、、事事实实表表字字段段信信息息、、映映射射事事实实表表字字段段信信息息、、映映射射维维表表字字段段信信息息、、链链接接事事实实表表与与维维表表字字段段的的信信息息;;元数数据据的的存存储储::元元数数据据管管理理器器中中的的元元数数据据存存储储程程序序负负责责接接收收由由接接口口程程序序传传递递来来的的关关于于对对元元数数据据进进行行增增加加、、修修改改和和删删除除等等信信息息,,并并根根据据所所提提供供的的参参数数执执行行存存储储过过程程,,将将元元数数据据的的有有关关信信息息保保存存于于服服务务器器端端的的元元数数据据库库中中。。29元数数据据管管理理器器的的设设计计与与实实现现元数数据据的的作作用用:定定义义数数据据仓仓库库的的作作用用,指指明明数数据据仓仓库库中中信信息息的的内内容容和和位位置置,刻刻画画数数据据的的抽抽取取和和转转换换规规则则,存存储储与与数数据据仓仓库库主主题题有有关关的的各各种种商商业业信信息息。。元数数据据基基于于MicrosoftSQLServer2000的的关关系系模模型型并并存存储储在在数数据据库库服服务务器器上上,,同同时时通通过过MetaManager组组件件提提供供了了一一系系列列接接口口使使用用户户可可以以在在所所有有应应用用中中共共享享元元数数据据在客客户户端端提提供供图图形形化化界界面面工工具具。。例例如如,,用用户户想想在在多多维维模模型型中中加加入入一一维维或或者者在在某某一一维维中中加加入入维维元元素素,,不不仅仅可可以以通通过过图图形形化化界界面面工工具具完完成成而而且且可可以以在在用用户户自自已已编编写写的的应应用用程程序序中中调调用用应应用用程程序序接接口口函函数数,,修修改改后后的的结结果果将将记记入入元元数数据据库库中中。。然然后后系系统统将将根根据据元元数数据据库库中中的的新新内内容容进进行行数数据据的的追追加加。。30元数数据据模模型型关于于源源数数据据的的元元数数据据::它它是是现现有有的的操操作作型型业业务务系系统统的的数数据据源源的的描描述述信信息息,,是是对对不不同同平平台台上上的的数数据据源源的的物物理理结结构构和和含含义义的的描描述述。。包包括括::数数据据源源中中所所有有物物理理数数据据结结构构;;所所有有数数据据项项的的业业务务定定义义;;每每个个数数据据项项更更新新的的频频率率,,以以及及由由谁谁或或哪哪个个过过程程更更新新的的说说明明;;每每个个数数据据项项的的有有效效值值;;其其它它系系统统中中具具有有相相同同业业务务含含义义的的数数据据项项的的清清单单。。关于于数数据据仓仓库库多多维维模模型型的的元元数数据据标准准维维::由由一一张张维维表表构构成成,,标标准准的的星星型型模模型型采采用用这这种种维维和和事事实实表表构构成成的的。。维维表表中中的的一一个个字字段段或或多多个个字字段段构构成成了了维维的的层层次次。。雪花花维维::由由相相互互关关联联的的多多个个维维表表构构成成,,每每个个维维表表中中的的字字段段构构成成了了维维的的层层次次。。通通过过多多个个维维表表的的连连接接最最大大限限度度地地减减少少了了数数据据存存储储量量,,增增加加了了模模型型的的灵灵活活性性,,但但也也使使得得查查询询变变得得复复杂杂化化。。时间间维维::用用来来描描述述事事实实数数据据的的时时间间属属性性。。它它通通常常只只与与源源数数据据库库中中某某个个表表的的日日期期型型字字段段相相对对应应,,所所以以时时间间维维的的层层次次不不可可以以由由维维表表的的字字段段来来表表示示。。时时间间维维的的层层次次由由高高到到低低分分别别为为Year、、Quarter、、Month、、Day、、Hour、、Minute、、Second,,用用户户可可以以任任意意选选择择几几种种构构成成时时间间维维的的层层次次。。31元数据模型关于数据仓库库映射的元数数据:是数据据源中的数据据与数据仓库库间数据的映映射。当数据据源中的一个个数据项与数数据仓库建立立了映射关系系,就应该记记下这些数据据项发生的任任何变换或变变动,即用元元数据反映数数据仓库中的的数据项是从从哪个特定的的数据源填充充的,经过哪哪些转换、集集成过程。关于系统安全全的元数据::描述了系统统中用户、权权限组及用户户权限信息。。每个用户可可以属于多个个权限组,每每个权限组都都有一定的权权限。这些权权限具体表现现为可以执行行的元数据管管理器、转换换器和集成器器所提供的方方法。32基于COM的的元数据管理理器MetaManager的运行行机制用户程序首先先启动客户程程序,客户程程序连接应用用服务器。客户程序创建建一个128位的SessionID并将它与与登录帐号、、口令组成XML字符串串传递给应用用服务器,XMLService调度对象接接收到XML字符串后解解析XML字字符串,创建建登录对象并并调用登录对对象的相关方方法。登录对象通过过数据库中的的用户及口令令确定用户的的合法身份,,并保存SessionID,返回回登录成功的的信息。客户程序收到到登录成功的的信息后,以以XML字符符串形式向应应用服务器发发送XML命命令数据包,,命令数据包包前加上包括括SessionID的的请求报头。。应用服务器收收到客户的请请求数据包后后将其解析,,获得SessoinID,并根据据SessionID检检查用户的权权限。如用户具有合合法权限,则则由XMLService调度对对象创建MetaManager对对象并调用MetaManger的的Run方法法。MetaManager的Run方方法根据客户户传递的XML数据包调调用相关的方方法。返加的的结果打成XML数据包包并通过通信信组件返回给给客户程序。。33转换器的设计计与实现转换器的功能能:数据结构转换换和数据类型型转换结构化数据的的转换:关关系对应于对对象类,元元组对应于对对象实例,关关系属性对对应于对象的的属性值非结构化数据据的转换:利利用对象的的封装性实现现对非结构化化数据的处理理自动化或半自自动化的转换换器生成技术术:采用互操作性性标准,定定义数据源与与翻译器的接接口从数据源中提提取数据并转转换格式的过过程:先将各类数据据库系统中不不同格式的数数据转换成文文本文件,然然后再利用批批拷贝命令将将数据导入目目标系统中。。以使数据仓仓库获得新的的数据提供决决策分析使用用。34转换器的设计计与实现数据准备区的的使用:首先先从源数据中中提取数据,,转换成数据据仓库所要求求的格式后存存储在数据仓仓库的一个称称为数据准备备区的缓冲区区中。在该区区域中,可以以暂时存储原原始数据,然然后由集成器器对数据进行行清理、集成成后再装载到到数据仓库中中。由于使用用独立于数据据源的数据准准备区为数据据仓库准备数数据可提高管管理数据仓库库的效率,另另外将数据准准备区与数据据仓库数据隔隔离开,可以以保护数据仓仓库的完整性性同时可以提提高数据仓库库的性能。在在将数据从源源数据提取到到数据准备区区的过程中,,可借助于Microsoft的数数据转换服务务(DTS))包来实现。。35源数据库、数数据准备区和和数据仓库库之间的关系系源数据数据准备区数据仓库DTS三者关系图36DTS概述DTS:是MicrosoftSQLServer2000中提提供的数据转转换服务(DataTransformationServices)。DTS是一个个组件对象,,它提供一个个组件的完整整集。这些组组件可在任何何具有OLEDB、ODBC接口口的数据库或或规格化的文文本文件间导导入、导出和和转换数据。。包(Package)::导入、导出出数据的过程程定义并保存存在包中。37转换器的实现现-转换器的流程程图创建数据准备备区N开始读元数据检查数据准备备区?执行DTS包包更改元数据((时间,数据据状态)结束成功连接元数据库库创建DTS包包Y38选择源数据的的窗体39数据转换在窗体上方的的下拉列表中中选择了数据据源类型后,,针对不同的的数据源类型型在窗体中会会显示不同的的界面,让用用户输入连接接各种数据源源的连接字符符串信息(用用户名、密码码、数据库等等)。由于DTS借助OLEDB来存取不同同数据源的数数据,所以本本系统中可选选择的数据源源类型包括OLEDB支持的各种种异质数据源源。在窗体中中单击下一步步按钮后,将将显示数据库库中各对象信信息让用户选选择需要导入入数据准备区区的数据对象象,然后创建建并调用Microsoft的DTS对象,,完成数据转转换工作。40调用DTS的过过程创建DTS包,,并初初始化化参数数。向DTS的的连接接集合合中添添加源源数据据连接接。检查数数据准准备区区是否否存在在,如如不存存在首首先创创建数数据准准备区区,如如果数数据准准备区区已存存在则则直接接向DTS的连连接集集合中中添加加目标标数据据源连连接。。读取相相关元元数据据信息息,如如需要要转换换的表表及字字段的的相关关信息息等。。根据元元数据据信息息,创创建任任务对对象并并加入入任务务集合合。创建步步骤对对象,,并将将任务务对象象加入入步骤骤对象象。如果有有多个个任务务,则则继续续创建建其他他任务务对象象,并并指定定所属属步骤骤对象象。执行DTS包。。41集成器器的设设计与与实现现-集成器器的功功能转换各各种异异质数数据源源的格格式。。判定一一个记记录是是否可可进行行抽取取处理理。数据重重新格格式化化。数据清清理。。从多个个输入入数据据源中中选取取数据据。多个输输入文文件重重新排排序。。产生不不同概概括层层次上上的输输出结结果。。提供缺缺省值值。区分需需要抽抽取的的和不不需要要抽取取的操操作型型数据据。进行数数据的的汇总总。对数据据元素素的重重命名名进行行跟踪踪。不常见见的或或不标标准的的格式式处理理。指定转转换逻逻辑和和转换换机制制。理解并并解开开建立立在旧旧的传传统程程序逻逻辑中中的数数据之之间的的关系系。大容量量数据据的输输入/输出出(如如并行行装载载和并并行读读出))。必须符符合企企业数数据模模型。。42集成器器的设设计与与实现现集成模模型::根据据元数数据中中记录录的映映射关关系在在星形形模型型的基基础上上以向向导的的形式式提供供集成成模型型的客客户端端工具具。创建数数据仓仓库后后,在在元数数据中中记录录数据据仓库库的基基本信信息,,同时时创建建一个个同名名的关关系型型数据据库。。用户户可以以在窗窗体中中的数数据类类型下下拉列列表中中选择择数据据仓库库的数数据类类型,,由于于数据据仓库库是一一个海海量数数据的的存储储集合合,所所以选选择的的数据据库管管理系系统必必须具具有并并行处处理能能力及及可伸伸缩性性。创建了了物理理数据据库后后,开开始创创建数数据仓仓库模模型,,并装装载数数据。。首先先创建建星型型模型型中的的事实实表。。在树型型结构构中列列出当当前元元数据据库中中描述述的源源数据据库以以及库库中的的表对对象,,用户户可以以选择择其中中一个个表作作为事事实表表;同同时窗窗体的的右边边以列列表形形式显显示了了所选选择表表的字字段信信息。。单击击下一一步后后,用用户可可以在在窗体体中选选择度度量字字段,,并选选择要要保留留的字字段。。将用用户的的信息息记录录在元元数据据库中中,并并根据据该信信息创创建事事实表表。43集成器器的设设计与与实现现事实表表创建建后,,则开开始创创建星星型模模型的的维。。在前前面的的章节节中我我们讨讨论了了星型型模型型的维维分为为:标标准维维、雪雪花维维和时时间维维。完成上上述的的步骤骤后,,已成成功创创建了了一个个星形形模型型,然然后再再调用用元数数据管管理器器的相相关方方法更更新元元数据据库中中的数数据。。数据净净化::当数数据从从源数数据库库中提提取到到数据据准备备区后后,必必须先先进行行数据据净化化才可可以装装载到到数据据仓库库中去去。数数据净净化主主要指指对数数据字字段的的有效效值检检验。。有效效值的的检验验通常常包括括:范范围检检验、、枚举举字段段取值值和相相关检检验。。范围围检验验要求求数据据保证证落在在预期期的范范围之之内,,通常常对数数据范范围和和日期期范围围进行行检验验,如如对任任何在在指定定范围围之外外的日日期的的发票票都应应删除除。枚枚举字字段取取值指指对一一个记记录在在该字字段的的取值值,若若不在在指定定的值值中,,则应应该删删除。。相关关检验验要求求将一一个字字段中中的值值与另另外一一个字字段中中的值值进行行相关关检验验,即即在数数据库库中某某个字字段应应与另另一个个字段段形成成外键键约束束。44集成器器的设设计与与实现现维表与与事实实表的的引用用完整整性检检验::数据据仓库库的星星型模模型中中一般般都有有多个个维,,而在在查询询数据据时维维表和和事实实表之之间大大多采采用内内联接接。当当维表表和事事实数数据表表之间间的引引用完完整性性破坏坏时,,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论