版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、摘 要自20世纪90 年代以来,计算机技术发展迅猛,各通信商逐步开发出新的BI系统。实现给通信领域提出了充分利用数据仓库技术,将现有的海量数据构造成为可用、可控、可扩展的数据组织,以适应通信领域各级主管和业务人员的分析需要。在本论文中从数据仓库需求分析包括参与成员、各个成员所起到的作用;逻辑模型建设通过软件设计,确定表之间的关系;物理模型建设中对表和过程进行详细的审核,用来支持所提出的需求;数据仓库设计以ODS、DWD、DWA为层次,采用横向分层纵向分域的理念,进行具体的实施建立,并在后期提供了错误的应急措施、数据仓库的维护和优化。关键词: 数据据仓库,物理理模型,维护护和优化Englishh
2、 absttractSince tthe niineteeen ninnties, compputer technnologyy is ddevelooping rapiddly, tthe coommuniicatioon bussinesss gradduallyy deveelopedd a neew BI systeem. Reealityy to ccommunnicatiion fiield iis preesenteed forr fullly usiing daata waarehouuse teechnollogy tto exiistingg dataa struuctur
3、ees beccome aavailaable, contrrollabble, sscalabble daata orrganizzationn, to adaptt to tthe fiield oof commmuniccationn at aall leevels of maanagerrs andd busiiness analyysis.In thiss papeer froom thee dataa wareehousee requuiremeent annalysiis inccludess the partiicipattion oof memmbers, eachh mem
4、bber off the role playeed by; logiic moddel coonstruuctionn throough ssoftwaare deesign, to ddetermmine tthe reelatioonshipp betwween ttabless; phyysicall modeel connstrucction proceess taable aand deetaileed auddit, uused tto suppport the ppropossed reequireement; dataa wareehousee desiign wiith OD
5、DS, DWWD, DWWA levvels, the hhorizoontallly strratifiied loongituudinall domaain coonceptt, speecificc impllementtationn of tthe esstabliishmennt, annd in late stagee provvides errorr emerrgencyy meassures, dataa wareehousee mainntenannce annd opttimizaation.Keywordds: dataa wareehousee, phyysicall
6、modeel, maaintennance and ooptimiizatioon目录TOC o 1-3 h z u HYPERLINK l _Toc14329 第一章 数据仓仓库概述 PAGEREF _Toc14329 1 HYPERLINK l _Toc2941 1.1 本论文文采用数据仓仓库的目的 PAGEREF _Toc2941 1 HYPERLINK l _Toc25886 1.2 数据仓仓库的定义和和特点 PAGEREF _Toc25886 1 HYPERLINK l _Toc15072 1.3 数据仓仓库与数据库库 PAGEREF _Toc15072 2 HYPERLINK l
7、_Toc13337 1.5 元数据据 PAGEREF _Toc13337 3 HYPERLINK l _Toc12707 1.5.1 技技术元数据 PAGEREF _Toc12707 3 HYPERLINK l _Toc13143 1.5.2 业业务元数据 PAGEREF _Toc13143 3 HYPERLINK l _Toc23925 1.5.3 元元数据的作用用 PAGEREF _Toc23925 4 HYPERLINK l _Toc14041 1.6 数据仓仓库发展方向向 PAGEREF _Toc14041 5 HYPERLINK l _Toc13085 1.6.1 数数据仓库的产产生
8、和发展 PAGEREF _Toc13085 5 HYPERLINK l _Toc13812 1.6.2 数数据仓库发展展趋势 PAGEREF _Toc13812 7 HYPERLINK l _Toc21434 1.6.3 数数据集市、集集市群行业的发展展方向 PAGEREF _Toc21434 8 HYPERLINK l _Toc8181 1.6.4 基基于Inteernet22、光处理器器计算机和GGGG技术的的DW PAGEREF _Toc8181 11 HYPERLINK l _Toc16715 1.7建设数据据仓库的必要要性 PAGEREF _Toc16715 14 HYPERLINK
9、 l _Toc10024 第二章 数据仓仓库需求分析析 PAGEREF _Toc10024 15 HYPERLINK l _Toc17448 2.1 需求分分析原因 PAGEREF _Toc17448 15 HYPERLINK l _Toc15566 2.2 需求分分析阶段 PAGEREF _Toc15566 15 HYPERLINK l _Toc29077 2.2.1 需需求分析成员员确立 PAGEREF _Toc29077 16 HYPERLINK l _Toc3590 2.2.2 需需求会议 PAGEREF _Toc3590 18 HYPERLINK l _Toc918 第三章 数据仓仓
10、库总体设计计 PAGEREF _Toc918 19 HYPERLINK l _Toc4274 3.1 数据仓仓库实施环境境 PAGEREF _Toc4274 19 HYPERLINK l _Toc29861 3.2 确定数数据仓库开发发的生命周期期 PAGEREF _Toc29861 19 HYPERLINK l _Toc26854 3.3 通讯数数据仓库设计计原则 PAGEREF _Toc26854 25 HYPERLINK l _Toc9737 3.4 确定数数据仓库系统统的结构及各各部分的主要要功能 PAGEREF _Toc9737 26 HYPERLINK l _Toc29277 第四
11、章 数据仓仓库详细设计计 PAGEREF _Toc29277 31 HYPERLINK l _Toc19923 4.1 逻辑模模型设计 PAGEREF _Toc19923 31 HYPERLINK l _Toc22282 4.2 物理模模型设计 PAGEREF _Toc22282 32 HYPERLINK l _Toc4557 第五章 数据仓仓库实现 PAGEREF _Toc4557 34 HYPERLINK l _Toc8896 5.1 ODSS层建设 PAGEREF _Toc8896 34 HYPERLINK l _Toc7905 5.1.1 接接口数据抽取取 PAGEREF _Toc79
12、05 34 HYPERLINK l _Toc1409 5.1.2 数数据抽取策略略 PAGEREF _Toc1409 35 HYPERLINK l _Toc18629 5.1.3 OODS层的作作用 PAGEREF _Toc18629 36 HYPERLINK l _Toc16641 5.2 DWWD层建设 PAGEREF _Toc16641 36 HYPERLINK l _Toc23529 5.2.1 DDWD定义 PAGEREF _Toc23529 36 HYPERLINK l _Toc25420 5.2.2 实实体选取的原原则 PAGEREF _Toc25420 36 HYPERLINK
13、 l _Toc23551 5.2.3 字字段选取的原原则 PAGEREF _Toc23551 37 HYPERLINK l _Toc16322 5.2.4 数数据转换 PAGEREF _Toc16322 37 HYPERLINK l _Toc31635 5.2.5 数数据加载技术术及策略 PAGEREF _Toc31635 38 HYPERLINK l _Toc24768 5.3 DWAA汇总层建设设 PAGEREF _Toc24768 39 HYPERLINK l _Toc15755 5.4 DWAA衍生层建设设 PAGEREF _Toc15755 40 HYPERLINK l _Toc16
14、294 第六章 数据仓仓库后期运维维 PAGEREF _Toc16294 42 HYPERLINK l _Toc30603 6.1 数据仓仓库测试 PAGEREF _Toc30603 42 HYPERLINK l _Toc15915 6.1.11 分析源文文件 PAGEREF _Toc15915 42 HYPERLINK l _Toc25742 6.1.2 开开发策略和测测试计划 PAGEREF _Toc25742 42 HYPERLINK l _Toc29457 6.1.3 测测试的开发与与执行 PAGEREF _Toc29457 43 HYPERLINK l _Toc12595 6.2 数
15、据仓仓库后期维护护 PAGEREF _Toc12595 43 HYPERLINK l _Toc11706 6.2.1 数数据仓库数据据清理 PAGEREF _Toc11706 43 HYPERLINK l _Toc30610 6.2.2 数数据仓库模型型更改 PAGEREF _Toc30610 44 HYPERLINK l _Toc28464 6.3 数据仓仓库性能优化化 PAGEREF _Toc28464 44 HYPERLINK l _Toc3733 6.3.1 调调整数据库服服务器的性能能 PAGEREF _Toc3733 44 HYPERLINK l _Toc19610 6.3.2 调
16、调整内存分配配 PAGEREF _Toc19610 44 HYPERLINK l _Toc28960 6.3.3 使使用ORACCLE的数据据完整性约束束 PAGEREF _Toc28960 45 HYPERLINK l _Toc3642 6.3.4 使使用数据库触触发器 PAGEREF _Toc3642 45 HYPERLINK l _Toc25499 6.3.5 使使用存储过程程 PAGEREF _Toc25499 46 HYPERLINK l _Toc14174 6.3.6 应应用程序调整整 PAGEREF _Toc14174 46 HYPERLINK l _Toc29329 总结 PA
17、GEREF _Toc29329 47 HYPERLINK l _Toc18165 致谢 PAGEREF _Toc18165 48 HYPERLINK l _Toc31618 参考文献 PAGEREF _Toc31618 499第一章 数据仓仓库概述1.1 本论文文采用数据仓仓库的目的当前,通信行业业(以联通为为例)内部已已经积累了大大量的业务处处理数据,但是这些数数据分布在各各级机构、各各个部门中,而且数据的的操作平台各各异,有DOS 的、有有Windoows 的、有有Unix 的、有Sollaris 的;数据的来源源复杂,有存储在硬硬盘上的,也有存储在在磁带、光盘盘上的;数据的文件件格式多样
18、,有各种不同同数据库的,也有文本文文件型的,还有多媒体体文件型的。这这些数据是通通信行业决策策的宝贵信息息资源,在构造新的的系统时必须须要善加利用用。数据仓库库技术为解决决充分有效的的利用超大容容量、多平台台数据资源这这个问题提供供了方法和手手段,能够充分利利用现有的海海量数据资源源,并从中找出出对通信的运运作和决策有有价值的信息息。1.2 数据仓仓库的定义和和特点数据仓库是 HYPERLINK /view/8048.htm 决策策支持系统(ddss)和联联机分析应用用数据源的结结构化 HYPERLINK /view/277719.htm 数据环环境。数据仓仓库研究和解解决从数据库库中获取信息
19、息的问题。数数据仓库的特特征在于面向向主题、集成成性、稳定性性和时变性。数据仓库是面向向主题的操作型数据库的的数据组织面面向事务处理理任务,而数数据仓库中的的数据是按照照一定的主题题域进行组织织。主题是指指用户使用数数据仓库进行行决策时所关关心的重点方方面,一个主主题通常与多多个操作型信信息系统相关关。数据仓库是集成成的数据仓库的数据据有来自于分分散的操作型型数据,将所所需数据从原原来的数据中中抽取出来,进进行加工与集集成,统一与与综合之后才才能进入数据据仓库。数据仓库是不可可更新的数据仓库主要是是为决策分析析提供数据,所所涉及的操作作主要是数据据的查询。数据仓库是随时时间而变化的的传统的关系
20、数据据库系统比较较适合处理格格式化的数据据,能够较好好的满足商业业商务处理的的需求。稳定定的数据以只只读格式保存存,且不随时时间改变。汇总的操作性数据映射射成决策可用用的格式。大容量 HYPERLINK /view/2822835.htm 时间序列数据集集合通常都非非常大。非规范化的DW数据可以是是而且经常是是冗余的。元数据将描述数据的数数据保存起来来。数据源数据来自内部的的和外部的非非集成操作系系统。 1.3 数据仓仓库与数据库库数据库已经在信信息技术领域域有了广泛的的应用,我们们社会生活的的各个部门,几几乎都有各种种各样的数据据库保存着与与我们的生活活息息相关的的各种数据。作作为数据库的的
21、一个分支,数数据仓库概念念的提出,相相对于数据库库从时间上就就近得多。美美国著名信息息工程专家WWilliaam博士在990年代初提提出了数据仓仓库概念的一一个表述,认认为:“一个数据仓仓库通常是一一个面向主题题的、集成的的、随时间变变化的、但信信息本身相对对稳定的数据据集合,它用用于对管理决决策过程的支支持。”这里的主题题,是指用户户使用数据仓仓库进行决策策时所关心的的重点方面,如如:收入、客客户、销售渠渠道等;所谓谓面向主题,是是指数据仓库库内的信息是是按主题进行行组织的,而而不是像业务务支撑系统那那样是按照业业务功能进行行组织的。集成,是指数据据仓库中的信信息不是从各各个业务系统统中简单
22、抽取取出来的,而而是经过一系系列加工、整整理和汇总的的过程,因此此数据仓库中中的信息是关关于整个企业业的一致的全全局信息。 随时间变化,是是指数据仓库库内的信息并并不只是反映映企业当前的的状态,而是是记录了从过过去某一时点点到当前各个个阶段的信息息。通过这些些信息,可以以对企业的发发展历程和未未来趋势做出出定量分析和和预测。二者的联系:数据仓库的出现现,并不是要要取代数据库库。目前,大大部分数据仓仓库还是用关关系数据库管管理系统来管管理的。可以以说,数据库库、数据仓库库相辅相成、各各有千秋。 二者的区别: 出发点不同数据库是面向事事务的设计,数据仓库是是面向主题设设计的。 存储的数据不同同数据
23、库一般存储储在线交易数数据,数据仓库存存储的一般是是历史数据。 设计规则不同数据库设计是尽尽量避免冗余余,一般采用用符合范式的的规则来设计计,数据仓库在在设计是有意意引入冗余,采采用反范式的的方式来设计计。提供的功能不同同数据库是为捕获获数据而设计计,数据仓库库是为分析数数据而设计。基本元素不同数据库的基本元元素是事实表表,数据仓库库的基本元素素是维度表。容量不同数据库在基本容容量上要比数数据仓库小的的多。服务对象不同数据库是为了高高效的事务处处理而设计的的,服务对象象为企业业务务处理方面的的工作人员,数据仓库是是为了分析数数据进行决策策而设计的,服服务对象为企企业高层决策策人员。1.5 元数
24、据据元数据(Mettadataa)是关于数数据的数据。在在数据仓库系系统中,元数数据可以帮助助数据仓库管管理员和数据据仓库的开发发人员非常方方便地找到他他们所关心的的数据;元数数据是描述数数据仓库内数数据的结构和和建立方法的的数据,可将将其按用途的的不同分为两两类:技术元元数据(TeechniccalMettadataa)和业务元元数据(BuusinesssMetaadata)。1.5.1 技技术元数据技术元数据是存存储关于数据据仓库系统技技术细节的数数据,是用于于开发和管理理数据仓库使使用的数据,它它主要包括数数据仓库结构构的描述,包包括仓库模式式、视图、维维、层次结构构和导出数据据的定义,
25、以以及数据集市市的位置和内内容;业务系系统、数据仓仓库和数据集集市的体系结结构和模式。 汇总用的的算法,包括括度量和维定定义算法,数数据粒度、主主题领域、聚聚集、汇总、预预定义的查询询与报告。 由操作环环境到数据仓仓库环境的映映射,包括源源数据和它们们的内容、数数据分割、数数据提取、清清理、转换规规则和数据刷刷新规则、安安全(用户授授权和存取控控制)。1.5.2 业业务元数据业务元数据从业业务角度描述述了数据仓库库中的数据,它它提供了介于于使用者和实实际系统之间间的语义层。业业务元数据主主要包括以下下:使用者的的业务术语所所表达的数据据模型、对象象名和属性名名;访问数据据的原则和数数据的来源;
26、系统所提供供的分析方法法以及公式和和报表的;具具体包括以下下: (11)企业概念念模型这是业务元数据据所应提供的的重要的,它它表示企业数数据模型的高高层、整个企企业的业务概概念和相互关关系。多维数据模型这是企业概念模模型的重要组组成部分,确确定业务分析析人员在数据据集市当中有有哪些维、维维的类别、数数据立方体以以及数据集市市中的聚合规规则。这里的的数据立方体体表示某主题题领域业务事事实表和维表表的多维组织织形式。 (3)业务务概念模型和和物理数据之之间的依赖业务元数据只是是表示出了数数据的业务视视图,这些业业务视图与实实际的数据仓仓库或 HYPERLINK / 数据库库、中的表、字字段、维、层
27、层次等之间的的对应关系也也应该在元数数据知识库中中有所体现。1.5.3 元元数据的作用用描述哪些数据在在数据仓库中中。定义要进入数据据仓库中的数数据和从数据据仓库中产生生的数据。记录根据业务事事件发生而随随之进行的数数据抽取工作作时间安排。记录并检测系统统数据一致性性的要求和执执行情况。衡量数据质量。 元数据据管理的主要要任务有两个个方面:一是负责存储和和维护元 HYPERLINK / 数据据库中的元数数据;二是负负责数据仓库库建模工具、数数据获取工具具、前端工具具等之间的消消息传递,协协调各模块和和工具之间的的工作。 我们了了解到元数据据几乎可以被被称为是数据据仓库乃至商商业智能(BBI)系
28、统的的“灵魂”,正正是由于元数数据在整个数数据仓库生命命周期中有着着重要的地位位,各个厂商商的都提到了了关于对元数数据的管理。但但遗憾的是对对于元数据的的管理,各个个解决方案都都没有明确提提出一个完整整的管理模式式;它们提供供的仅仅是对对特定的局部部元数据的管管理。与元数数据相关的数数据仓库工具具大致可分为为四类: (1)数据抽取工工具把业务系统中的的数据抽取、转转换、集成到到数据仓库中中,如Arddent的DDataSttage、CCA(原Pllatinuum)的DeecisioonBasee和ETI的的Extraact等。这这些工具仅提提供了技术元元数据,几乎乎没有提供对对业务元数据据的支
29、持。前端展现工具包括OLAP分分析、报表和和商业智能工工具等,如MMicroSStrateegy的DSSSAgennt、Coggnos的PPowerPPlay、BBusineessObjjects的的BO,以及及Brio等等。它们通过过把关系表映映射成与业务务相关的事实实表和维表来来支持多维业业务视图,进进而对数据仓仓库中的数据据进行多维分分析。这些工工具都提供了了业务元数据据与技术元数数据相对应的的语义层。 (33)建模工具具为非技术人员准准备的业务建建模工具,这这些工具可以以提供更高层层的与特定业业务相关的语语义。如CAA的ERwiin、Syssbase的的PowerrDesiggner以
30、及及Ratioonal的RRose等。 (4)元工具元数据通常存储储在专用的 HYPERLINK / 数数据库中,该该 HYPERLINK / 数据库就如同同一个“黑盒盒子”,外部部无法知道这这些工具所用用到和产生的的元数据是如如何存储的。还还有一类被称称为元数据知知识库(MeetadattaRepoositorry)的工具具,它们独立立于其它工具具,为元数据据提供一个集集中的存储空空间。包括微微软的Reppositoory,CAA的Repoositorry,Arddent的MMetaSttage和的的WCC等。1.6 数据仓仓库发展方向向1.6.1 数数据仓库的产产生和发展现在基于业务数数据
31、的决策分分析联机分析析处理(OLLAP),比比以往任何时时候都显得更更为重要。如如果说传统联联机事务处理理(OLTPP)强调的是是更新数据库库向数据库库中添加信息息,那么OLLAP就是从从数据库中获获取信息、利利用信息。事事实上,将大大量的业务数数据应用于分分析和统计原原本是一个非非常简单和自自然的想法。但但在实际的操操作中,人们们却发现要获获得有用的信信息并非如想想象的那么容容易:第一,所有OLLTP强调的的是密集的数数据更新处理理性能和系统统的可靠性,并并不关心数据据查询的方便便与快捷。联联机分析和事事务处理对系系统的要求不不同,同一个个数据库在理理论上都难以以做到两全。第二,业务数据据往
32、往被存放放于分散的异异构环境中,不不易统一查询询访问,而且且还有大量的的历史数据处处于脱机状态态,形同虚设设。第三,业务数据据的模式针对对事务处理系系统而设计,数数据的格式和和描述方式并并不适合非计计算机专业人人员进行业务务上的分析和和统计。可以这么说,以以前查询不到到信息是因为为数据太少了了,而今天查查询不到则是是因为数据太太多了。针对对这一问题,人人们设想专门门为业务的统统计分析建立立一个数据中中心,它的数数据从OLTTP系统中来来、从外部数数据源来、从从历史业务数数据中来这个数据中中心是一个联联机的系统,它它是专门为分分析统计和决决策支持应用用服务的,通通过它可满足足决策支持和和联机分析
33、应应用所要求的的一切。这个个数据中心就就叫做数据仓仓库。数据仓仓库就是一个个作为决策支支持系统和联联机分析应用用数据源的结结构化数据环环境。数据仓仓库所要研究究和解决的问问题就是从数数据库中获取取信息的问题题。与关系数据库不不同,数据仓仓库并没有严严格的数学理理论基础,它它更偏向于工工程。由于数数据仓库的这这种工程性,因因而在技术上上可以根据它它的工作过程程分为:数据据的抽取、存存储和管理、数数据的表现以以及数据仓库库设计的技术术咨询四个方方面。(1)数据的抽抽取数据仓库是一个个独立的数据据环境,它需需要通过抽取取过程将数据据从联机事务务处理系统、外外部数据源、脱脱机的数据存存储介质中导导入数
34、据仓库库。数据抽取取可以定时进进行,但多个个抽取操作执执行的时间、相相互的顺序、成成败对数据仓仓库中信息的的有效性则至至关重要。(2)存储和管管理数据仓库的真正正关键是数据据的存储和管管理。数据仓仓库的组织管管理方式决定定了它有别于于传统数据库库的特性,同同时也决定了了其对外部数数据表现形式式。要决定采采用什么产品品和技术来建建立数据仓库库核心,则需需要从数据仓仓库的技术特特点着手分析析。如何完成对大量量数据的存储储和管理并行处理能力针对决策支持查查询的优化支持多维分析的的查询模式,这这也是关系数数据库在数据据仓库领域遇遇到的最严峻峻的挑战之一一。(3)数据的表表现数据表现是数据据仓库的门面面
35、。这里说的的主要是多维维分析、数理理统计和数据据挖掘方面。(4)数据仓库库设计的技术术咨询数据仓库绝不是是简单的产品品堆砌,它是是一个综合性性的解决方案案和系统工程程。在数据仓仓库的实施过过程中,技术术咨询服务至至关重要,是是一个不可缺缺少的部分,它它甚至于比购购买产品更为为重要。就目前的发展来来看,建立数数据仓库有两两个基本条件件:建立数据仓库的的行业有较为为成熟的OLLTP系统,它它为数据仓库库提供客观条条件;行业面临市场竞竞争的压力,它它为数据仓库库的建立提供供外在的动力力。另外建立立大型数据仓仓库,成本也也是较高的,所所以对企业的的经济实力也也是个考验。所所以数据仓库库的概念一经经出现
36、,就首首先被应用于于金融、电信信、保险等行行业。1.6.2 数数据仓库发展展趋势(1)数据仓库库规模不断增增长所有企业的数据据仓库规模都都将呈指数增增长,数据源源的增长以及及企业对数据据更好的获取取能力推动了了这种增长。另另外存储成本本也越来越便便宜,因此企企业能够保存存更长期的数数据。但数据据增长也将使使企业面临一一些新问题,包包括数据仓库库的可升级性性以及可能出出现的性能问问题。(2)数据集市市的整合(3)客户数据据集成许多企业如今很很想跨越产品品线、业务单单位、渠道和和地理各方面面来综合地得得到一个关于于客户的单一一视图,一种种称之为客户户数据集成(CCDI)的解解决方案应声声而出,其核
37、核心部分由数数据仓库和相相关技术构成成。客户数据据集成提供了了对客户数据据360的全方位视视图,并使企企业可以从任任何一个接触触点上对客户户进行认识和和做出反应。(4)开发商的的整合由于企业都想得得到完备的产产品套件,数数据仓库和商商务智能开发发商因此将越越来越多的功功能融合到他他们的产品中中去。(5)EAI和和ETL工具具的集成(6)快速反应应的决策支持持电子商务的不断断增长驱使着着企业去寻找找共享数据和和对机会快速速反应的方法法,虽然真正正的实时决策策支持基本是是不可能的,但但数据仓库技技术的进步却却使快速反应应的决策支持持得以实现。在在数分钟或数数秒钟内对数数据进行分析析和对事件做做出反
38、应的能能力有助于企企业在各方面面的行动,比比如供应链管管理、客户服服务和商务性性能管理等。(7)非结构化化信息的增长长企业正面临着非非结构化和半半结构化数据据的增长,包包括图像、声声音、视频、XXML以及其其它的数据类类型。同时,相相关的技术也也在不断出现现,使企业可可以采用跟以以前处理传统统的结构化数数据资源的方方式,来存储储和挖掘这些些数据。(8)越来越了了解如何对“成功或失败败”问题做出正正确分析知识管理在企业仓促着手手建立数据仓仓库或其它分分析型知识库库时,数据质质量或元数据据这些重要问问题经常被忽忽视,其后果果就是,很多多企业现今发发现他们的行行动成功性打打了不少折扣扣,因为他们们不
39、能确定“成功或失败败”问题。数据据质量问题和和元数据的缺缺乏会严重影影响用户对数数据仓库的接接受程度,也也只能得到可可怜的分析结结果和不正确确的决策。这这是一个相当当复杂的问题题,需要花费费时间和精力力去确定他们们。(9)强调应用用程序VS数数据仓库对大多企业来说说,数据仓库库不再是单独独的一件事。需需要确定投资资回报率。数数据仓库项目目跟以前一样样是必需的,但但可能会尽量量跟应用程序序联系起来以以便于计算投投资回报率和和调整项目成成本。(10)越来越越注重盈亏问问题艰难的经济环境境迫使企业除除了收入增长长外,还得认认真考虑收益益率问题。这这种不断增加加的对盈亏问问题的注意力力影响到了IIT项
40、目,其其中包括数据据仓库,最终终导致各级水水平上的成本本削减。新的的数据仓库项项目仍将不断断进行,但是是企业不会再再妄想一步登登天去做那些些对盈利没有有直接影响的的事;它们还还想有一个明明确的商业案案例,明确的的投资回报率率和更短的回回报周期。1.6.3 数数据集市、集集市群行业的发展展方向在数据仓库产品品方面,微软软是以其关系系数据库SQQL Serrver作为为它数据仓库库核心的。微微软的OLAAP走的是RROLAP的的路子,与其其数据转换一一样,属于常常规的解决方方案;而并行行处理和决策策支持扩展则则不是SQLL Servver的强项项。因此,整整个解决方案案仍面向中低低端,价格取取胜是
41、关键。为为此,微软在在数据仓库市市场中倡导了了另一个概念念数据集市市(Dataa Martt)。所谓数数据集市就是是一个面向部部门应用的、小小型的数据仓仓库;所采用用的技术与数数据仓库相似似,但存储的的内容更加专专题化。对于于数据集市这这样的规模,微微软的解决方方案便可成为为理想的选择择。虽然微软是无数数IT人士“憎恨”的对象,但但我们不得不不承认,它在在市场定位方方面的工作一一直很成功。其其所坚持的走走大众化、平平民化道路的的理念,从操操作系统中的的windoows,办公公软件里得OOfficee到数据库领领域的SQLL Seveer等等,无无一不是成功功的案例。在在这次数据仓仓库的较量中中
42、,微软又打打起了数据集集市的大旗。就就目前情况而而言,能够建建立大型数据据仓库的企业业毕竟还局限限于有雄厚实实力的大型公公司。而占市市场相当比重重的中小企业业,一方面难难以接受建立立数据仓库高高昂的成本,另另一方面使用用大型数据仓仓库来解决他他们少量的工工作也显得有有些浪费。而而此时数据集集市则成了他他们不错的选选择。表1-1 数数据集市与数数据仓库的区区别数据仓库数据集市数据来源OLTP、遗留留系统、外部部数据数据仓库范围企业级部门级、工作组组级主题企业主题部门或专项主题题数据粒度最细粒度较粗粒度数据结构3NTF星型、雪片型历史数据大量历史数据适度历史数据优化处理海量数据、数数据探索便于访问
43、分析、快快速查询索引高度索引高度索引数据集市可以分分为两种类型型:独立型数据据集市和从属属型数据集市市。独立型数数据集市直接接从操作型环环境获取数据据,从属型数数据集市从企企业级数据仓仓库获取数据据。作为快速解决企企业当前存在在的实际问题题的一种有效效方法,独立立型数据集市市成为一种既既成事实。独独立型数据集集市是为满足足特定用户的的需求而建立立的一种分析析型环境,它它能够快速地地解决某些具具体的问题,而而且投资规模模也比数据仓仓库小很多。但独立数据集市市也存在一些问题:冗余数据。随着着独立数据集集市数量的增增长,数据冗冗余量也不断断增长,这种种冗余是由于于每个独立数数据集市都有有一个整体数数
44、据的备份而而引起的,但但这些数据中中有不少通常常并不是必需需的。冗余流程。数据据仓库的体系系结构可以对对所有数据集集市的共同活活动进行集中中化,没有数数据仓库,这这些流程就必必须为每个数数据集市进行行复制,这将将大大增加维维护DSS所所需的员工数数量。较低的可伸缩性性。独立数据集集市直接读取取运作系统的的文件或表,这这极大限制了了DSS的伸伸缩能力。非集成。独立数数据集市是由由自成体系的的团队建立的的,而且一般般是为不同的的部门建立的的,导致这些些数据集市没没有进行集成成,而且没有有一个会包含含了整个企业业的视图。因因此,如果CCEO让信息息部门提供一一个获利能力力最强的客户户列表,那么么从每
45、个数据集集市分析到的答案案都将是不同的。独立型数据集市市的存在会给给人造成一种种错觉,似乎乎可以先独立立地构建数据据集市,当数数据集市达到到一定的规模模再直接转换换为数据仓库库。实际上多个独独立的数据集集市的累积,是是不能形成一一个企业级的的数据仓库的的。如果企业最最终想建设一一个全企业统统一的数据仓仓库,想要以以整个企业的的视图分析数数据,独立型型数据集市恐恐怕不是合适适的选择。现现在的业内人人士普遍认为为,从属型数数据集市在体体系结构上比比独立型数据据集市更稳定定,可以作为为数据集市未未来建设的主主要方向。从属型数据集市市不过是在数数据仓库与最最终用户之间间又增加了一一套汇集、优优化系统。
46、这这样的设计也也许对提高整整个系统的反反应速度方面面有一定帮助助,但却削弱弱了数据集市市相当重要的的一项优势廉价。其其成本甚至超超过了单一数数据仓库系统统,不利于此此类技术的大大众化、平民民化发展。另另一种比较理理想的方式是是,企业先就就其最急需的的领域建立独独立型数据集集市,而后随随着需求的变变化、实力的的增强逐步建建立更多的数数据集市。这这些数据集市市之间保持一一种高度的统统一与协调机机制,构成一一个完整的群群体,我把它它称作数据集市市群。数据集市群的优优势主要表现现在以下几方方面:成本低廉初始成本为初始始数据集市的的成本加上集集市群控制器器的成本。虽虽然比只有几几个数据集市市的成本高,但
47、但与数据仓库库相比还是便便宜很多。而而且其投入产产出比也更容容易预测。冗余度低由于加入了集市市群控制器,各各数据集市中中的数据被统统一调度,统统一规划。从从而消除了数数据集市件容容易发生的数数据冗余、不不一致等问题题。后期维护容易当集市群因某种种需求而要加加入新的数据据集市时,所所要考虑的问问题仅是新的的模块需要那那些数据,原原有集市群能能提供那些数数据。根据这这两点去设计计新的数据集集市,而不必必对原有集市市群做什么调调整。(4)数据集市市群策划和设设计数据集市群的建建立需要前期期的精心策划划、设计和标标准化的接口口设计。只有有解决好这些些问题,才能能保证以后新新建的集市能能够与原来的的群顺
48、利实现现对接及整体体效果最佳。目目前看来这还还是一项相当当复杂的工程程,但其一旦旦实现,给数数据仓库行业业带来的震动动将是难以想想象的。信息源信息源数据集市信息源数据仓库数据集市数据集市信息源数据集市数据集市控制器图1-1 独立型数据集市图1-2 从属型数据集市图1-3 数据集市群1.6.4 基基于Inteernet22、光处理器器计算机和GGGG技术的的DW(1)Inteernet221996年由一一些大学和高高科技公司组组成的联盟开开发的,旨在在提供超高速速的连接速度度,该项目的的目标是领先先于商用互联联网3-4年年的时间。目目前的Intternett2已经是第第三代了,今今年早些时候候,
49、其骨干网网的数据传输输速率已经升升级为10GGbps。目目前大部分的的公共互联网网使用2.55Gbps,一一些运营商正正在将它们的的连接升级至至10Gbpps。P2P应用、高高清晰视频会会议、实验室室设备的远程程操作、分布布式计算等应应用都可以在在Interrnet2上上运行。目前前,由于受带带宽的限制,这这些应用的大大规模部署还还很缓慢,而而Interrnet2则则能够满足这这些应用对带带宽的需求。通通过Inteernet22进行的音乐乐会转播每秒秒钟能够发送送250GBB的数据,这这比标准的拨拨号连接要快快4000倍倍,比有线电电视连接要快快800倍。研究人员仍然在在研究如何进进一步提高I
50、Internnet2的效效率和速度的的问题。研究究人员还在开开发新的中间间件技术,使使通过网络的的协作更无缝缝更安全。在在目前的互联联网上,应用用程序本身必必须提供中间间件所提供的的识别、授权权、安全等服服务。通过语语言标准化和和兼容性,中中间件将大大大提高先进网网络应用的易易用性。在过去的15年年中,互联网网的速度每年年都会翻一番番。研究人员员相信,这种种每年增长1100%的趋趋势在未来还还会持续下去去。Inteernet22的研究人员员已经在研究究新一代的超超高速网络。速速度为10GGbps的AAbilenne网络的平平均运行速度度为1Gbpps-2Gbbps。另外外在高等教育育领域,用户
51、户对带宽的需需求的增长将将呈几何级数数增长,因此此新应用的需需求将超过目目前的公共IIP网络的带带宽也是很自自然的。(2)未来高性性能计算机按照摩尔定律,每每过18个月月,微处理器器硅芯片上晶晶体管的数量量就会翻一番番。随着大规规模集成电路路工艺的发展展,芯片的集集成度越来越越高,也越来来越接近工艺艺甚至物理的的上限,最终终,晶体管会会变得只有几几个分子那样样小。以摩尔尔速度发展的的微处理器使使全世界的微微电子技术专专家面临着新新的挑战。尽尽管传统的、基基于集成电路路的计算机短短期内还不会会退出历史舞舞台,但旨在在超越它的超超导计算机、纳纳米计算机、光光计算机、DDNA计算机机和量子计算算机正
52、在跃跃跃欲试。与传传统硅芯片计计算机不同,光光计算机用光光束代替电子子进行运算和和存储:它以以不同波长的的光代表不同同的数据,以以大量的透镜镜、棱镜和反反射镜将数据据从一个芯片片传送到另一一个芯片。 从上个世纪800年代起,光光子计算机就就成为新一代代计算机的发发展方向。22003年10月底,全全球首枚嵌入入光核心的商商用向量光学学数字处理器器由以色色列一公司研发的的Enligght在美国国波士顿军事事通信展览会会上露面,引引起了业界莫莫大的关注。因因为,它的出出现预示着计计算机将进入入光学时代。以以光速进行计计算,运行速速度达到每秒秒8万亿次这相当于一一台超级计算算机的运算能能力。但超级级计
53、算机动辄辄采用上千个个处理器同时时工作,才能能实现这样的的运算速度。以以去年问世的的“地球模拟拟器”为例,这这台号称全球球运算速度最最快的超级计计算机峰值运运算速度为335.86万万亿次,而这这个速度是由由它的51220个处理器器共同创造出出来的。由于Enligght强大的的性能,能够够被广泛运用用在大型多媒媒体广播系统统、机场安全全检查系统和和医学数据库库系统等方面面。比如在移移动通信领域域,采用Ennlightt进行多用户户检测,即通通过重复计算算一系列方程程式,能解除除同一基站内内用户间的相相互干扰。一一枚单独的EEnlighht就可以同同时支持20000个用户户,并避免相相互干扰。而而
54、在生物科技技方面,Ennlightt强大的运算算能力,可以以大大缩短生生物技术运算算必需的基因因数据配对和和基因与多基基体配对过程程。“光子运算具有有巨大的潜力力,能够做常常规计算无法法办到的事。”德德国达姆施塔塔特大学的科科尔内利娅登茨博士长长期致力于光光计算研究。她她表示,采用用光学技术不不但可以极大大地提升计算算机的运算速速度,而且可可以让计算机机系统模拟人人脑的思维活活动,并且比比人脑的处理理速度快上数数千倍,从而而实现真正的的人工智能。科科学家的预测测不是没有依依据的。到22015年,硅硅芯片的运算算速度和微型型化发展都将将止步不前。而而与此同时,网网络和其他行行业发展带来来的海量数
55、据据运算需要和和更快的传输输需求,将迫迫使人们不得得不寻求革命命性的变革。(3)网格技术术网格计算因为在在结构上酷似似电力网络而而得名。在九九十年代中期期,网格作为为一种共享计计算的方法被被正式提出,并并首先在科研研领域应用。后后来,为了降降低成本,很很多企业也打打算利用闲置置的资源,网网格开始逐步步进入商业市市场,并由此此为许多产业业带来了新的的机遇。网格技术是一种种趋势,这是是毋庸置疑的的。就像计算算机最初是大大型主机,发发展到更加通通用的小型机机,现在则又又有了更多的的选择。这其其中有成本的的原因,有硬硬件技术的发发展,也说明明大家都在期期待一个更加加开放的平台台。网格技术术正是这种趋趋
56、势发展的一一个必然。尽管网格的发展展还面临很大大的困难,有有业内人士说说,“网格的处境境就好像100年前的Innterneet和3年前前的Linuux一样,正正在从技术计计算进入商业业计算。”但是,曾经经价格高昂的的网格计算已已经进入各个个组织机构及及跨国公司,广广泛应用到金金融和工程仿仿真,医学研研究和石油勘勘探领域,发发挥着巨大的的作用:汽车车制造商们正正实施更多的的模拟程序以以使汽车更安安全;娱乐公公司更细致地地描绘数字人人像以求逼真真的效果对企业来说说,网格无疑疑是极具价值值的工具,未未来几年,将将会有更多的的网格进入市市场。为了在未来的发发展潮流中占占据有利的战战略地位,世世界各国都
57、纷纷纷加紧了网网格研究的步步伐。 一些些发达国家和和跨国公司已已为此投下了了巨资。在具具体实施中,IIBM全球服服务部和其业业务合作伙伴伴一起,共同同提供各种与与网格有关的的服务,包括括一个网格创创新工作室(用于帮助企企业在其业务务中实施网格格)以及专业业化的行业专专用课程。在在产品方面,IIBM eSServerr产品线也形形成了一个可可以用来设计计和开发网格格解决方案、甚甚至管理整个个网格的坚实实平台;其 DB2产品品和工具也支支持网格计算算解决方案,使使得能快速、方方便地建设复复杂的数据基基础设施。(4)数据仓库库、联机系统统的发展根据长久以来的的经验,计算算机的软硬件件发展一直是是互相
58、促进、互互为动力的。以以上所述的未未来高性能计计算机、Innterneet2、网格格技术等等已已经为我们勾勾勒出了一幅幅美好的画面面。更强大的的计算工作站站、惊人的信信息传输速度度、更优化的的网络协调机机制,这些无无疑都给未来来软件业的发发展带来了更更广阔的施展展空间。就如如同现在的PPC机使用的的内存,比110年前硬盘盘的存储容量量还大一样。许许许多多现在在认为不可能能实现或相当当复杂的工作作,对那时的的计算机系统统来说不过是是小儿科而以以。到那时对对一个包含55千万条记录录的DW作一一次完整分析析,也仅仅需需要几秒钟的的时间。所以我们有理由由相信在新一一代的应用系系统中,数据据仓库将在一一
59、开始便被纳纳入系统设计计的考虑,联联机分析会应应用于普遍的的事务处理系系统之中。在在数据管理上上,联机事务务处理和数据据仓库在应用用中相对独立立,使联机事事务处理系统统本身更加简简洁高效,同同时分析统计计也更为便利利。面向行业业的数理统计计学向更为普普遍的应用发发展,并集成成到应用系统统的数据仓库库解决方案中中。它们将立立足于数据仓仓库提供的丰丰富信息,更更好地为业务务决策服务。1.7建设数据据仓库的必要要性企业建立数据仓仓库是为了填填补现有数据据存储形式已已经不能满足足信息分析的的需要。数据据仓库理论中中的一个核心心理念就是:事务型数据据和决策支持持型数据的处处理性能不同同。企业在它它们的事
60、务操操作收集数据据。在企业运运作过程中:随着定单、销售记录录的进行,这这些事务型数数据也连续的的产生。为了了引入数据,我我们必须优化化事务型数据据库。处理决决策支持型数数据时,一些些问题经常会会被提出:哪哪类客户会购购买哪类产品品?促销后销销售额会变化化多少?等,事务型数数据库可以为为这些问题作作出解答,但但是它所给出出的答案往往往并不能让人人十分满意。在在运用有限的的计算机资源源时常常存在在着竞争。在在增加新信息息的时候我们们需要事务型型数据库是空空闲的。而在在解答一系列列具体的有关关信息分析的的问题的时候候,系统处理理新数据的有有效性又会被被大大降低。另另一个问题就就在于事务型型数据总是在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年物流服务外包合同:电商平台与物流公司
- 律师行业安全工作总结
- 产科助产士的产前产后护理工作总结
- 2024年度供应链金融担保合同协议书3篇
- 2025版软件开发与采购系统集成合同3篇
- 2024年离职研究者专利权让与合同
- 幼儿园工作总结播撒爱心收获阳光
- 2025版建筑工程居间合同范本3篇
- 物流行业的保安工作总结
- 2024年纺织行业供销合同样本
- 中医备案诊所污水、污物、粪便处理方案及周边环境情况说明
- 2021-2022学年山东省济宁市高一上学期期末考试英语试题(解析版)(不含听力音频)
- T-PPAC 402-2022 企业专利密集型产品评价方法
- 配电自动化终端运行维护管理规定
- 监护人考试试题
- 中医医疗技术相关性感染预防与控制
- 2024年工贸重点企业有限空间作业专家指导服务专题培训
- 2024年注册安全工程师考试题库及参考答案【完整版】
- 第十二章 全等三角形 作业设计-2023-2024学年人教版八年级数学上册
- 建筑结构荷载规范DBJ-T 15-101-2022
- 制药专业毕业设计开题报告
评论
0/150
提交评论