版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、ORACLE数据仓库建设自20世纪90年代以来,运算机技术进展迅猛,各通信商逐步开发出新的BI系统。实现给通信领域提出了充分利用数据仓库技术,将现有的海量数据构造成为可用、可控、可扩展的数据组织,以适应通信领域各级主管和业务人员的分析需要。在本论文中从数据仓库需求分析包括参与成员、各个成员所起到的作用;逻辑模型建设通过软件设计,确定表之间的关系;物理模型建设中对表和过程进行详细的审核,用来支持所提出的需求;数据仓库设计以ODS、DWD、DWA为层次,采纳横向分层纵向分域的理念,进行具体的实施建立,并在后期提供了错误的应急措施、数据仓库的爱护和优化。关键词:数据仓库,物理模型,爱护和优化Engl
2、ishabstractSincethenineteenninties,computertechnologyisdevelopingrapidly,thecommunicationbusinessgraduallydevelopedanewBIsystem.Realitytocommunicationfieldispresentedforfullyusingdatawarehousetechnologytoexistingdatastructuresbecomeavailable,controllable,scalabledataorganization,toadapttothefieldofc
3、ommunicationatalllevelsofmanagersandbusinessanalysis.Inthispaperfromthedatawarehouserequirementanalysisincludestheparticipationofmembers,eachmemberoftheroleplayedby;logicmodelconstructionthroughsoftwaredesign,todeterminetherelationshipbetweentables;physicalmodelconstructionprocesstableanddetailedaud
4、it,usedtosupporttheproposedrequirement;datawarehousedesignwithODS,DWD,DWAlevels,thehorizontallystratifiedlongitudinaldomainconcept,specificimplementationoftheestablishment,andinlatestageprovideserroremergencymeasures,datawarehousemaintenanceandoptimization.Keywords:datawarehouse,physicalmodel,mainte
5、nanceandoptimization名目TOC o 1-5 h z HYPERLINK l bookmark2 第一章数据仓库概述0. HYPERLINK l bookmark4 本论文采纳数据仓库的目的0 HYPERLINK l bookmark6 1.2数据仓库的定义和特点0. HYPERLINK l bookmark8 1.3数据仓库与数据库1.1.5元数据21.5.1技术元数据业务元数据2. HYPERLINK l bookmark10 1.5.3元数据的作用3. HYPERLINK l bookmark12 1.6数据仓库进展方向4. HYPERLINK l boo
6、kmark14 1.6.1数据仓库的产生和进展4 HYPERLINK l bookmark16 数据仓库进展趋势6. HYPERLINK l bookmark18 数据集市、集市群行业的进展方向7 HYPERLINK l bookmark20 1.6.4基于Internet2、光处理器运算机和GGG技术的DW10 HYPERLINK l bookmark22 1.7建设数据仓库的必要性1.3 HYPERLINK l bookmark24 第二章数据仓库需求分析1.4 HYPERLINK l bookmark26 需求分析缘故1.4 HYPERLINK l bookmark28 需求分析时期1.
7、4 HYPERLINK l bookmark30 需求分析成员确立1.5 HYPERLINK l bookmark32 2.2.2需求会议1.7 HYPERLINK l bookmark36 第三章数据仓库总体设计1.8 HYPERLINK l bookmark38 3.1数据仓库实施环境1.8 HYPERLINK l bookmark40 确定数据仓库开发的生命周期18 HYPERLINK l bookmark42 通讯数据仓库设计原则2.4 HYPERLINK l bookmark44 确定数据仓库系统的结构及各部分的要紧功能25 HYPERLINK l bookmark46 第四章数据仓
8、库详细设计3.0 HYPERLINK l bookmark48 逻辑模型设计3.0 HYPERLINK l bookmark50 物理模型设计3.1第五章数据仓库实现3.3 HYPERLINK l bookmark52 ODS层建设335.1.1接口数据抽取3.3 HYPERLINK l bookmark54 5.1.2数据抽取策略3.4 HYPERLINK l bookmark56 ODS层的作用3.5 HYPERLINK l bookmark58 DWD层建设35 HYPERLINK l bookmark60 DWD定义35 HYPERLINK l bookmark62 5.2.2实体选取
9、的原则3.5 HYPERLINK l bookmark64 5.2.3字段选取的原则3.6 HYPERLINK l bookmark66 5.2.4数据转换3.6 HYPERLINK l bookmark68 5.2.5数据加载技术及策略37 HYPERLINK l bookmark70 DWA汇总层建设38 HYPERLINK l bookmark72 DWA衍生层建设39 HYPERLINK l bookmark76 第六章数据仓库后期运维4.1 HYPERLINK l bookmark78 数据仓库测试4.1 HYPERLINK l bookmark80 分析源文件41 HYPERLIN
10、K l bookmark82 开发策略和测试打算4.1 HYPERLINK l bookmark84 测试的开发与执行4.2 HYPERLINK l bookmark86 数据仓库后期爱护4.2 HYPERLINK l bookmark88 数据仓库数据清理4.2 HYPERLINK l bookmark90 数据仓库模型更换4.3 HYPERLINK l bookmark92 数据仓库性能优化4.3 HYPERLINK l bookmark94 调整数据库服务器的性能43 HYPERLINK l bookmark96 调整内存分配4.3 HYPERLINK l bookmark98 使用OR
11、ACLE的数据完整性约束44 HYPERLINK l bookmark100 使用数据库触发器4.4使用储备过程4.5应用程序调整4.5 HYPERLINK l bookmark102 总结4.6 HYPERLINK l bookmark104 致谢4.7 HYPERLINK l bookmark106 参考文献4.8第一章数据仓库概述本论文采纳数据仓库的目的当前,通信行业(以联通为例)内部差不多积存了大量的业务处理数据,然而这些数据分布在各级机构、各个部门中,而且数据的操作平台各异,有DOS的、有Windows的、有Unix的、有Solaris的;数据的来源复杂,有储备在硬盘上的,也有储备在
12、磁带、光盘上的;数据的文件格式多样,有各种不同数据库的,也有文本文件型的,还有多媒体文件型的。这些数据是通信行业决策的宝贵信息资源,在构造新的系统时必须要善加利用。数据仓库技术为解决充分有效的利用超大容量、多平台数据资源那个问题提供了方法和手段,能够充分利用现有的海量数据资源,并从中找出对通信的运作和决策有价值的信息。数据仓库的定义和特点数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中猎取信息的问题。数据仓库的特点在于面向主题、集成性、稳固性和时变性。(1)数据仓库是面向主题的操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定
13、的主题域进行组织。主题是指用户使用数据仓库进行决策时所关怀的重点方面,一个主题通常与多个操作型信息系统相关。(2)数据仓库是集成的数据仓库的数据有来自于分散的操作型数据,将所需数据从原先的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库。(3)数据仓库是不可更新的数据仓库要紧是为决策分析提供数据,所涉及的操作要紧是数据的查询。(4)数据仓库是随时刻而变化的传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳固的数据以只读格式储存,且不随时刻改变。(5)汇总的操作性数据映射成决策可用的格式。大容量时刻序列数据集合通常都专门大。非规范化的DW数据能够是而
14、且经常是冗余的。元数据将描述数据的数据储存起来。数据源数据来自内部的和外部的非集成操作系统。数据仓库与数据库数据库差不多在信息技术领域有了广泛的应用,我们社会生活的各个部门,几乎都有各种各样的数据库储存着与我们的生活息息相关的各种数据。作为数据库的一个分支,数据仓库概念的提出,相关于数据库从时刻上就近得多。美国闻名信息工程专家William博士在90年代初提出了数据仓库概念的一个表述,认为:“一个数据仓库通常是一个面向主题的、集成的、随时刻变化的、但信息本身相对稳固的数据集合,它用于对治理决策过程的支持。”那个地点的主题,是指用户使用数据仓库进行决策时所关怀的重点方面,如:收入、客户、销售渠道
15、等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。集成,是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是通过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。随时刻变化,是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个时期的信息。通过这些信息,能够对企业的进展历程和以后趋势做出定量分析和推测。二者的联系:数据仓库的显现,并不是要取代数据库。目前,大部分数据仓库依旧用关系数据库治理系统来治理的。能够说,数据库、数据仓库相辅相成、各有千秋。二者的区别:动身点不同数
16、据库是面向事务的设计,数据仓库是面向主题设计的。储备的数据不同数据库一样储备在线交易数据,数据仓库储备的一样是历史数据。设计规则不同数据库设计是尽量幸免冗余,一样采纳符合范式的规则来设计,数据仓库在设计是有意引入冗余,采纳反范式的方式来设计。(4)提供的功能不同数据库是为捕捉数据而设计,数据仓库是为分析数据而设计。(5)差不多元素不同数据库的差不多元素是事实表,数据仓库的差不多元素是维度表。(6)容量不同数据库在差不多容量上要比数据仓库小的多。(7)服务对象不同数据库是为了高效的事务处理而设计的,服务对象为企业业务处理方面的工作人员,数据仓库是为了分析数据进行决策而设计的,服务对象为企业高层决
17、策人员。1.5元数据元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据能够关心数据仓库治理员和数据仓库的开发人员专门方便地找到他们所关怀的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(TechnicalMetadata)和业务元数据(BusinessMetadata)。1.5.1技术元数据技术元数据是储备关于数据仓库系统技术细节的数据,是用于开发和治理数据仓库使用的数据,它要紧包括数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;业务系统、数据仓库和数据集市的体系结构和模式。汇总用
18、的算法,包括度量和维定义算法,数据粒度、主题领域、集合、汇总、预定义的查询与报告。由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取操纵)。1.5.2业务元数据业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层。业务元数据要紧包括以下:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的;具体包括以下:企业概念模型这是业务元数据所应提供的重要的,它表示企业数据模型的高层、整个企业的业务概念和相互关系。多维数据模型这是企业概念
19、模型的重要组成部分,确定业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。那个地点的数据立方体表示某主题领域业务事实表和维表的多维组织形式。(3)业务概念模型和物理数据之间的依靠业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所表达。1.5.3元数据的作用描述哪些数据在数据仓库中。定义要进入数据仓库中的数据和从数据仓库中产生的数据。记录依照业务事件发生而随之进行的数据抽取工作时刻安排。记录并检测系统数据一致性的要求和执行情形。衡量数据质量。元数据治理的要紧任务有两个方面:一
20、是负责储备和爱护元数据库中的元数据;二是负责数据仓库建模工具、数据猎取工具、前端工具等之间的消息传递,和谐各模块和工具之间的工作。我们了解到元数据几乎能够被称为是数据仓库乃至商业智能(BI)系统的“灵魂”,正是由于元数据在整个数据仓库生命周期中有着重要的地位,各个厂商的都提到了关于对元数据的治理。但遗憾的是关于元数据的治理,各个解决方案都没有明确提出一个完整的治理模式;它们提供的仅仅是对特定的局部元数据的治理。与元数据相关的数据仓库工具大致可分为四类:数据抽取工具把业务系统中的数据抽取、转换、集成到数据仓库中,如Ardent的DataStage、CA(原Platinum)的DecisionBa
21、se和ETI的Extract等。这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。前端展现工具包括OLAP分析、报表和商业智能工具等,如MicroStrategy的DSSAgent、Cognos的PowerPlay、BusinessObjects的BO,以及Brio等。它们通过把关系表映射成与业务相关的事实表和维表来支持多维业务视图,进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数据与技术元数据相对应的语义层。建模工具为非技术人员预备的业务建模工具,这些工具能够提供更高层的与特定业务相关的语义。如CA的ERwin、Sysbase的PowerDesigner以及Ration
22、al的Rose等。元工具元数据通常储备在专用的数据库中,该数据库就如同一个“黑盒子”,外部无法明白这些工具所用到和产生的元数据是如何储备的。还有一类被称为元数据知识库(MetadataRepository)的工具,它们独立于其它工具,为元数据提供一个集中的储备空间。包括微软的Repository,CA的Repository,Ardent的MetaStage和的WCC等。1.6数据仓库进展方向1.6.1数据仓库的产生和进展现在基于业务数据的决策分析一一联机分析处理(OLAP),比以往任何时候都显得更为重要。假如说传统联机事务处理(OLTP)强调的是更新数据库一一向数据库中添加信息,那么OLAP确
23、实是从数据库中猎取信息、利用信息。事实上,将大量的业务数据应用于分析和统计原本是一个专门简单和自然的方法。但在实际的操作中,人们却发觉要获得有用的信息并非如想象的那么容易:第一,所有OLTP强调的是密集的数据更新处理性能和系统的可靠性,并不关怀数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一个数据库在理论上都难以做到两全。第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设。第三,业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适合非运算机专业人员进行业务上的分析和统计。能够这么说,往常查询不到信息是因为数据太少
24、了,而今天查询不到则是因为数据太多了。针对这一问题,人们设想专门为业务的统计分析建立一个数据中心,它的数据从OLTP系统中来、从外部数据源来、从历史业务数据中来那个数据中心是一个联机的系统,它是专门为分析统计和决策支持应用服务的,通过它可满足决策支持和联机分析应用所要求的一切。那个数据中心就叫做数据仓库。数据仓库确实是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题确实是从数据库中猎取信息的问题。与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程性,因而在技术上能够依照它的工作过程分为:数据的抽取、储备和治理、数据的
25、表现以及数据仓库设计的技术咨询四个方面。(1)数据的抽取数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据储备介质中导入数据仓库。数据抽取能够定时进行,但多个抽取操作执行的时刻、相互的顺序、成败对数据仓库中信息的有效性则至关重要。(2)储备和治理数据仓库的真正关键是数据的储备和治理。数据仓库的组织治理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采纳什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。如何完成对大量数据的储备和治理并行处理能力针对决策支持查询的优化支持多维分析的查询模式,这也是关系数据
26、库在数据仓库领域遇到的最严肃的挑战之一。(3)数据的表现数据表现是数据仓库的门面。那个地点说的要紧是多维分析、数理统计和数据挖掘方面。(4)数据仓库设计的技术咨询数据仓库绝不是简单的产品堆砌,它是一个综合性的解决方案和系统工程。在数据仓库的实施过程中,技术咨询服务至关重要,是一个不可缺少的部分,它甚至于比购买产品更为重要。就目前的进展来看,建立数据仓库有两个差不多条件:建立数据仓库的行业有较为成熟的OLTP系统,它为数据仓库提供客观条件;行业面临市场竞争的压力,它为数据仓库的建立提供外在的动力。另外建立大型数据仓库,成本也是较高的,因此对企业的经济实力也是个考查。因此数据仓库的概念一经显现,就
27、第一被应用于金融、电信、保险等行业。1.6.2数据仓库进展趋势数据仓库规模不断增长所有企业的数据仓库规模都将呈指数增长,数据源的增长以及企业对数据更好的猎取能力推动了这种增长。另外储备成本也越来越廉价,因此企业能够储存更长期的数据。但数据增长也将使企业面临一些新问题,包括数据仓库的可升级性以及可能显现的性能问题。数据集市的整合客户数据集成许多企业现在专门想跨过产品线、业务单位、渠道和地理各方面来综合地得到一个关于客户的单一视图,一种称之为客户数据集成(CDI)的解决方案应声而出,其核心部分由数据仓库和相关技术构成。客户数据集成提供了对客户数据360的全方位视图,并使企业能够从任何一个接触点上对
28、客户进行认识和做出反应。开发商的整合由于企业都想得到完备的产品套件,数据仓库和商务智能开发商因此将越来越多的功能融合到他们的产品中去。EAI和ETL工具的集成快速反应的决策支持电子商务的不断增长促使着企业去查找共享数据和对机会快速反应的方法,尽管真正的实时决策支持差不多是不可能的,但数据仓库技术的进步却使快速反应的决策支持得以实现。在数分钟或数秒钟内对数据进行分析和对事件做出反应的能力有助于企业在各方面的行动,比如供应链治理、客户服务和商务性能治理等。非结构化信息的增长企业正面临着非结构化和半结构化数据的增长,包括图像、声音、视频、XML以及其它的数据类型。同时,相关的技术也在不断显现,使企业
29、能够采纳跟往常处理传统的结构化数据资源的方式,来储备和挖掘这些数据。越来越了解如何对“成功或失败”问题做出正确分析知识治理在企业仓促着手建立数据仓库或其它分析型知识库时,数据质量或元数据这些重要问题经常被忽视,其后果确实是,专门多企业现今发觉他们的行动成功性打了许多折扣,因为他们不能确定“成功或失败”问题。数据质量问题和元数据的缺乏会严峻阻碍用户对数据仓库的同意程度,也只能得到悲伤的分析结果和不正确的决策。这是一个相当复杂的问题,需要花费时刻和精力去确定他们。强调应用程序VS数据仓库对大多企业来说,数据仓库不再是单独的一件事。需要确定投资回报率。数据仓库项目跟往常一样是必需的,但可能会尽量跟应
30、用程序联系起来以便于运算投资回报率和调整项目成本。越来越注重盈亏问题艰巨的经济环境迫使企业除了收入增长外,还得认真考虑收益率问题。这种不断增加的对盈亏问题的注意力阻碍到了IT项目,其中包括数据仓库,最终导致各级水平上的成本削减。新的数据仓库项目仍将不断进行,然而企业可不能再妄图一步登天去做那些对盈利没有直截了当阻碍的事;它们还想有一个明确的商业案例,明确的投资回报率和更短的回报周期。数据集市、集市群行业的进展方向在数据仓库产品方面,微软是以其关系数据库SQLServer作为它数据仓库核心的。微软的OLAP走的是ROLAP的路子,与其数据转换一样,属于常规的解决方案;而并行处理和决策支持扩展则不
31、是SQLServer的强项。因此,整个解决方案仍面向中低端,价格取胜是关键。为此,微软在数据仓库市场中倡导了另一个概念一一数据集市(DataMart)。所谓数据集市确实是一个面向部门应用的、小型的数据仓库;所采纳的技术与数据仓库相似,但储备的内容更加专题化。关于数据集市如此的规模,微软的解决方案便可成为理想的选择。尽管微软是许多IT人士“憎恨”的对象,但我们不得不承认,它在市场定位方面的工作一直专门成功。其所坚持的走大众化、平民化道路的理念,从操作系统中的windows,办公软件里得Office到数据库领域的SQLSever等等,无一不是成功的案例。在这次数据仓库的较量中,微软又打起了数据集市
32、的大旗。就目前情形而言,能够建立大型数据仓库的企业如何说还局限于有雄厚实力的大型公司。而占市场相当比重的中小企业,一方面难以同意建立数据仓库高昂的成本,另一方面使用大型数据仓库来解决他们少量的工作也显得有些白费。而现在数据集市则成了他们不错的选择。表1-1数据集市与数据仓库的区别数据仓库数据集市数据来源OLTP、遗留系统、外部数据数据仓库范畴企业级部门级、工作组级主题企业主题部门或专项主题数据粒度最细粒度较粗粒度数据结构3NTF星型、雪片型历史数据大量历史数据适度历史数据优化处理海量数据、数据探究便于访问分析、快速查询索引高度索引高度索引数据集市能够分为两种类型:独立型数据集市和从属型数据集市
33、。独立型数据集市直截了当从操作型环境猎取数据,从属型数据集市从企业级数据仓库猎取数据。作为快速解决企业当前存在的实际问题的一种有效方法,独立型数据集市成为一种既成事实。独立型数据集市是为满足特定用户的需求而建立的一种分析型环境,它能够快速地解决某些具体的问题,而且投资规模也比数据仓库小专门多。但独立数据集市也存在一些问题:冗余数据。随着独立数据集市数量的增长,数据冗余量也不断增长,这种冗余是由于每个独立数据集市都有一个整体数据的备份而引起的,但这些数据中有许多通常并不是必需的。冗余流程。数据仓库的体系结构能够对所有数据集市的共同活动进行集中化,没有数据仓库,这些流程就必须为每个数据集市进行复制
34、,这将大大增加爱护DSS所需的职员数量。较低的可伸缩性。独立数据集市直截了当读取运作系统的文件或表,这极大限制了DSS的伸缩能力。非集成。独立数据集市是由自成体系的团队建立的,而且一样是为不同的部门建立的,导致这些数据集市没有进行集成,而且没有一个会包含了整个企业的视图。因此,假如CEO让信息部门提供一个获利能力最强的客户列表,那么从每个数据集市分析到的答案都将是不同的。独立型数据集市的存在会给人造成一种错觉,看起来能够先独立地构建数据集市,当数据集市达到一定的规模再直截了当转换为数据仓库。实际上多个独立的数据集市的累积,是不能形成一个企业级的数据仓库的。假如企业最终想建设一个全企业统一的数据
35、仓库,想要以整个企业的视图分析数据,独立型数据集市可能不是合适的选择。现在的业内人士普遍认为,从属型数据集市在体系结构上比独立型数据集市更稳固,能够作为数据集市以后建设的要紧方向。从属型数据集市只是是在数据仓库与最终用户之间又增加了一套聚拢、优化系统。如此的设计也许对提高整个系统的反应速度方面有一定关心,但却削弱了数据集市相当重要的一项优势廉价。其成本甚至超过了单一数据仓库系统,不利于此类技术的大众化、平民化进展。另一种比较理想的方式是,企业先就其最急需的领域建立独立型数据集市,而后随着需求的变化、实力的增强逐步建立更多的数据集市。这些数据集市之间保持一种高度的统一与和谐机制,构成一个完整的群
36、体,我把它称作数据集市群。数据集市群的优势要紧表现在以下几方面:成本低廉初始成本为初始数据集市的成本加上集市群操纵器的成本。尽管比只有几个数据集市的成本高,但与数据仓库相比依旧廉价专门多。而且其投入产出比也更容易推测。冗余度低由于加入了集市群操纵器,各数据集市中的数据被统一调度,统一规划。从而排除了数据集市件容易发生的数据冗余、不一致等问题。后期爱护容易当集市群因某种需求而要加入新的数据集市时,所要考虑的问题仅是新的模块需要那些数据,原有集市群能提供那些数据。依照这两点去设计新的数据集市,而不必对原有集市群做什么调整。数据集市群策划和设计数据集市群的建立需要前期的精心策划、设计和标准化的接口设
37、计。只有解决好这些问题,才能保证以后新建的集市能够与原先的群顺利实现对接及整体成效最佳。目前看来这依旧一项相当复杂的工程,但其一旦实现,给数据仓库行业带来的震动将是难以想象的。1.6.4基于Internet2、光处理器运算机和GGG技术的DW(1)Internet21996年由一些大学和高科技公司组成的联盟开发的,旨在提供超高速的连接速度,该项目的目标是领先于商用互联网3-4年的时刻。目前的Internet2差不多是第三代了,今年早些时候,其骨干网的数据传输速率差不多升级为lOGbps。目前大部分的公共互联网使用2.5Gbps,些运营商正在将它们的连接升级至10Gbps。P2P应用、高清晰视频
38、会议、实验室设备的远程操作、分布式运算等应用都能够在Internet2上运行。目前,由于受带宽的限制,这些应用的大规模部署还专门缓慢,而Internet2则能够满足这些应用对带宽的需求。通过Internet2进行的音乐会转播每秒钟能够发送250GB的数据,这比标准的拨号连接要快4000倍,比有线电视连接要快800倍。研究人员仍旧在研究如何进一步提高Internet2的效率和速度的问题。研究人员还在开发新的中间件技术,使通过网络的协作更无缝更安全。在目前的互联网上,应用程序本身必须提供中间件所提供的识别、授权、安全等服务。通过语言标准化和兼容性,中间件将大大提高先进网络应用的易用性。在过去的15
39、年中,互联网的速度每年都会翻一番。研究人员相信,这种每年增长100%的趋势在以后还会连续下去。Internet2的研究人员差不多在研究新一代的超高速网络。速度为10Gbps的Abilene网络的平均运行速度为lGbps-2Gbps。另外在高等教育领域,用户对带宽的需求的增长将呈几何级数增长,因此新应用的需求将超过目前的公共IP网络的带宽也是专门自然的。(2)以后高性能运算机按照摩尔定律,每过18个月,微处理器硅芯片上晶体管的数量就会翻一番。随着大规模集成电路工艺的进展,芯片的集成度越来越高,也越来越接近工艺甚至物理的上限,最终,晶体管会变得只有几个分子那样小。以摩尔速度进展的微处理器使全世界的
40、微电子技术专家面临着新的挑战。尽管传统的、基于集成电路的运算机短期内还可不能退出历史舞台,但旨在超越它的超导运算机、纳米运算机、光运算机、DNA运算机和量子运算机正在跃跃欲试。与传统硅芯片运算机不同,光运算机用光束代替电子进行运算和储备:它以不同波长的光代表不同的数据,以大量的透镜、棱镜和反射镜将数据从一个芯片传送到另一个芯片。从上个世纪80年代起,光子运算机就成为新一代运算机的进展方向。2003年10月底,全球首枚嵌入光核心的商用向量光学数字处理器由以色列一公司研发的Enlight在美国波士顿军事通信展览会上露面,引起了业界莫大的关注。因为,它的显现预示着运算机将进入光学时代。以光速进行运算
41、,运行速度达到每秒8万亿次这相当于一台超级运算机的运算能力。但超级运算机动辄采纳上千个处理器同时工作,才能实现如此的运算速度。以去年问世的“地球模拟器”为例,这台号称全球运算速度最快的超级运算机峰值运算速度为35.86万亿次,而那个速度是由它的5120个处理器共同制造出来的。由于Enlight强大的性能,能够被广泛运用在大型多媒体广播系统、机场安全检查系统和医学数据库系统等方面。比如在移动通信领域,采纳Enlight进行多用户检测,即通过重复运算一系列方程式,能解除同一基站内用户间的相互干扰。一枚单独的Enlight就能够同时支持2000个用户,并幸免相互干扰。而在生物科技方面,Enlight
42、强大的运算能力,能够大大缩短生物技术运算必需的基因数据配对和基因与多基体配对过程。“光子运算具有庞大的潜力,能够做常规运算无法办到的事。”德国达姆施塔特大学的科尔内利娅登茨博士长期致力于光运算研究。她表示,采纳光学技术不但能够极大地提升运算机的运算速度,而且能够让运算机系统模拟人脑的思维活动,同时比人脑的处理速度快上数千倍,从而实现真正的人工智能。科学家的推测不是没有依据的。到2020年,硅芯片的运算速度和微型化进展都将止步不前。而与此同时,网络和其他行业进展带来的海量数据运算需要和更快的传输需求,将迫使人们不得不寻求革命性的变革。网格技术网格运算因为在结构上酷似电力网络而得名。在九十年代中期
43、,网格作为一种共享运算的方法被正式提出,并第一在科研领域应用。后来,为了降低成本,专门多企业也打算利用闲置的资源,网格开始逐步进入商业市场,并由此为许多产业带来了新的机遇。网格技术是一种趋势,这是毋庸置疑的。就像运算机最初是大型主机,进展到更加通用的小型机,现在则又有了更多的选择。这其中有成本的缘故,有硬件技术的进展,也说明大伙儿都在期待一个更加开放的平台。网格技术正是这种趋势进展的一个必定。尽管网格的进展还面临专门大的困难,有业内人士说,“网格的处境就看起来10年前的Internet和3年前的Linux一样,正在从技术运算进入商业运算。”然而,曾经价格高昂的网格运算差不多进入各个组织机构及跨
44、国公司,广泛应用到金融和工程仿真,医学研究和石油勘探领域,发挥着庞大的作用:汽车制造商们正实施更多的模拟程序以使汽车更安全;娱乐公司更细致地描画数字人像以求逼确实成效对企业来说,网格无疑是极具价值的工具,以后几年,将会有更多的网格进入市场。为了在以后的进展潮流中占据有利的战略地位,世界各国都纷纷加紧了网格研究的步伐。一些发达国家和跨国公司已为此投下了巨资。在具体实施中,IBM全球服务部和其业务合作伙伴一起,共同提供各种与网格有关的服务,包括一个网格创新工作室(用于关心企业在其业务中实施网格)以及专业化的行业专用课程。在产品方面,IBMeServer产品线也形成了一个能够用来设计和开发网格解决方
45、案、甚至治理整个网格的坚实平台;其DB2产品和工具也支持网格运算解决方案,使得能快速、方便地建设复杂的数据基础设施。数据仓库、联机系统的进展依照长久以来的体会,运算机的软硬件进展一直是互相促进、互为动力的。以上所述的以后高性能运算机、Internet2、网格技术等等差不多为我们勾勒出了一幅美好的画面。更强大的运算工作站、惊人的信息传输速度、更优化的网络和谐机制,这些无疑都给以后软件业的进展带来了更宽敞的施展空间。就如同现在的PC机使用的内存,比10年前硬盘的储备容量还大一样。许许多多现在认为不可能实现或相当复杂的工作,对那时的运算机系统来说只是是小儿科而以。到那时对一个包含5千万条记录的DW作
46、一次完整分析,也仅仅需要几秒钟的时刻。因此我们有理由相信在新一代的应用系统中,数据仓库将在一开始便被纳入系统设计的考虑,联机分析会应用于普遍的事务处理系统之中。在数据治理上,联机事务处理和数据仓库在应用中相对独立,使联机事务处理系统本身更加简洁高效,同时分析统计也更为便利。面向行业的数理统计学向更为普遍的应用进展,并集成到应用系统的数据仓库解决方案中。它们将立足于数据仓库提供的丰富信息,更好地为业务决策服务。1.7建设数据仓库的必要性企业建立数据仓库是为了填补现有数据储备形式差不多不能满足信息分析的需要。数据仓库理论中的一个核心理念确实是:事务型数据和决策支持型数据的处理性能不同。企业在它们的
47、事务操作收集数据。在企业运作过程中:随着定单、销售记录的进行,这些事务型数据也连续的产生。为了引入数据,我们必须优化事务型数据库。处理决策支持型数据时,一些问题经常会被提出:哪类客户会购买哪类产品?促销后销售额会变化多少?等,事务型数据库能够为这些问题作出解答,然而它所给出的答案往往并不能让人十分中意。在运用有限的运算机资源经常常存在着竞争。在增加新信息的时候我们需要事务型数据库是闲暇的。而在解答一系列具体的有关信息分析的问题的时候,系统处理新数据的有效性又会被大大降低。另一个问题就在于事务型数据总是在动态的变化之中的。决策支持型处理需要相对稳固的数据,从而问题都能得到一致连续的解答。数据仓库
48、的解决方法包括:将决策支持型数据处理从事务型数据处理中分离出来。数据按照一定的周期(通常在每晚或者每周末),从事务型数据库中导入决策支持型数据库既“数据仓库”。数据仓库是按回答企业某方面的问题来分“主题”组织数据的,这是最有效的数据组织方式。第二章数据仓库需求分析2.1需求分析缘故需求分析的成败直截了当阻碍到数据仓库的成败实施。关于一个严格完整的数据仓库项目来说,需求分析应该属于数据仓库项目的第二个过程,第一时期属于数据仓库项目定义时期,对项目范畴、项目评估、可行性研究分析和投资回报等相关进行定义,也是一个不容忽视的时期。第一数据仓库失败的典型表现形式:图2-1数据仓库失败图示1)项目超过预算
49、2)没有在规定的时刻内完成3)没有实现要求的功能4)用户不中意5)系统性能不满足要求2.2需求分析时期在进入需求分析的初级时期时必须要先确立数据仓库项目组人员(其中包括公司接口规范人员、接口人员、数据开发人员、ETL调度人员、稽核人员、页面展现人员等),对局方联通进行接洽商讨等相关工作。2.2.1需求分析成员确立(1)接口规范人员:用来确定当前经分能否支撑局方提出的需求,通过商讨,判定当前拥有的接口是否满足需要,或是重新确定新的接口,来支撑项目的实施。如图,例如对联通融合业务进行商讨,判定接口是否能够实施。ilr+EEjjlK連.一MrII足酉AW吐爭II卜:务部和蚯需4-弁柿需求业弼那门辛按
50、n局方审様卜-亚片卍可;担汀I垃七!軒.XllilJ,.L-气.jt-N-jAL亚专工申1冲旳叵*现心律1立詡冋JS反ErSj姐片(打-3件G-决測试Rir-T-JtV,ll图2-2接口规范制定流程接口人员:负责承接省分上传的数据,进行初步的稽核,确认是否需要迟传、通报等,并通过ETL调度,调起节点。判定ETL能否成功调起,所承担的负载最大值等。t文件矗nr?有新文件到诂文件解析嫁術咸功文件格式校验文件入库工生咸.回执文件数提质灵校验不箱合按则先殴%J林合异常处理心丈件益沂规則定直仗件解祈规则定兔-丸件恪乱枕验规躬足爻丈件人库规則定义让敎据质童枕峻规则定丈屆拭龙停現则定爻心任务提告內容定义*异
51、常处理规则定义图2-3接口入库流程数据库开发人员:进行项目的开发和实施,通过与局方商量,依照需求估量项目实施周期。通过Powerdesigner、PL/SQL等工具,进行设计开发。ETL调度人员:在开发人员脚本成功开发后,由ETL统一并行调度,保证及时触发节点,并实时监控。产晶域全业島产晶数据盍程(H)产老笑倍且r:ods?编母披表H:建严W艾i?叶图2-4ETL调度实例(5)稽核人员:实时的对数据进行详细的稽核校验,确保数据无误,能够及时准确的上传至页面。专门是对重要字段进行反复校验,及时通过邮件反馈。(6)页面展现人员:当稽核人员确定数据无误时,由页面展现人员进行页面展现,供局方人员使用,
52、确保数据的实时准确。有些情形下还会有项目和谐和会议记录等人员参加。2.2.2需求会议在做需求分析之前,一样需要对局方进行接口的确定,以保证总部和省分以统一的接口进行上传和接收,并通过接口规范来得到双方的确认,会议的目的确实是公司与局方在各个方面达成一致,启发局方提出更贴近数据仓库的需求,具体想要得到哪些数据,期望得到哪些结果。需求会议一方面是为了排除局方在进行需求确认时的数据仓库的盲区,更重要的一方面是让局方明白建设数据仓库开发的过程和困难,还有一方面确实是能够得到局方配合来完成项目及时准确的实施。第三章数据仓库总体设计数据仓库实施环境数据库以ORACLE为基础,POWERDESIGNER进行
53、数据模型的确定加工,PL/SQLDEVELOPER软件进行具体的过程开发。确定数据仓库开发的生命周期由于数据仓库最佳结合了业务惯例和信息系统技术,因此,一个成功的数据仓库实施需要这两方面的不断和谐,以均衡其所有的需要,要求,任务和成果。数据仓库项目有3个轨道(tracks):数据轨道,技术轨道和应用层轨道。当在整理任何数据库项目打算时,建议以这三个轨道为模板来治理和同步活动。数据库生命周期治理方法(Discover,Design,Develop,Deploy,DaytoDay,Defend,Decommission),昵称“7D法。数据仓库的构建从来可不能真正终止。不像传统的数据库在部署后的一
54、段时刻里保持相对的不变,数据仓库始终处于不断的变化之中,以应对它所服务的业务环境的变化。当今的业务环境更加复杂,并涉及比以往任何时候都要快的变化。处理这种几乎是不断的变化是企业的最大挑战之一。这确实是什么缘故数据仓库团队中的每一个人,包括技术决策者(TDMs)和业务决策者(BDMs),都必须处在同一阵线上,使用同一种生命周期治理方法,以使他们的认识完全得到统一。只有如此,才有可能对已实施的数据仓库、企业的构想和宗旨进行调整。挖掘任何规模和领域的数据库项目离开了开始的挖掘时期都将失败。那个时期也被称为“需求分析和定义”,挖掘时期需要以业务为中心,专门是数据仓库项目,因为数据仓库的输出需要支持组织
55、的目标。挖掘这一步实质上确实是调查,应该不断地问六个差不多问题(什么,如何,在何处,谁,何时和什么缘故),记录好答案,并把这些答案包含在您起草的解决方案中。在“7步”的前3步(挖掘,设计,开发)中,必须对业务主和技术专家进行集中的和谐,项目经理(PM)应该促成这一进程。项目经理作为一个独立的专业人员,要紧关怀项目的及时上线、预算在操纵范畴内,有预期的运行成效;项目经理在得到各方的反馈意见后,负责制定严格的路线,里程碑和成功指标。假如项目里没有PM,这些将成为您的工作。在挖掘时期,PM必须收集三个轨道的信息,即技术轨道,数据轨道和应用层轨道。在其他任务中,PM必须确定利益相关者和用户,必须明白得
56、他们各自的角色和相应的数据/视图需求。PM必须明白本组织的绩效治理策略:目标是什么,倡议什么以及跟踪业务和项目健康状况的支撑度量标准/关键绩效指标。假如上述策略的任何部分遗漏了,该项目专门有可能失去最终用户的评分,这可能会导致低的采纳通过率和以后资金的丢失。换句话说,该项目将失败,而不管项目任务执行得有多么完美。(2)设计设计这一步的要紧活动是定义描述数据仓库的语义和概要模型。这些模型必须解决企业用户的治理信息系统(MISs)和商务智能(BI)分析需要。关于数据仓库项目,能够为关系型数据仓库创建概念和逻辑数据模型,为表示多维立方体创建三维模型。能够使用决策矩阵,以关心确定每个三维模型需要包含些
57、什么;沿Y轴方向列出被数据仓库支持的关键业务流程,沿X轴方向列出建议的维。那个矩阵将作为当前开发、以后扩展和跨组织集成的向导。在设计时期建立的模型必须反映第一时期收集的六个问题的答案。标识数据仓库相关的所有数据源(内部和外部的),业务/交易数据库和展平文件是个好注意。同时应该明确说明哪些数据将被导入数据仓库,哪些只会简单地作为外部数据源引用。通常,技术轨道有自己的PM,但仍旧可能需要填补那个角色。数据仓库能够增长为专门大的内容和十分广泛的范畴,因此有必要在数据仓库部署之前恰当地规划其大小。第一在纸上估量其大小,如此您就能够大致把握当数据仓库投入产品应用时所需的处理器速度和磁盘容量。同时需要估算
58、一天的业务终端用户数量以及他们使用的应用(例如,对立方体做一个专门分析,或者从关系数据仓库中取出缓存的报告),也要估算数据仓库一年中将会储备的数据量。只是因为数据仓库是一个进展中的工作,可能会需要两年和五年推测,同样,其处理能力和数据储备需求将随着时刻的推移不断增加。数据仓库设施包括各种硬件,通信和软件解决方案,所有这一切都必须协同工作,为终端用户提供一个工作的数据仓库。如此需要足够的时刻来打算和测试将如何整合所有这些不同的组成部分。跟技术轨道一样,应用轨道可能有自己的PM或由一个主导的软件开发人员充当这一角色。假如你的工作是与此人和谐以同步任务。假如不是,那工作描述会扩大。应用层包括猎取从数
59、据仓库收集到的输出,通常是MIS报告和BI分析结果。MIS报告常是屏幕显示,外表板,和打印副本的形式,它们关心企业治理者做出运行日常业务所需的战术决策。这些输出相对比较容易界定、编码和被一系列标准化的进程抓取,这些进程运行在可预定环境中。应用层的BI部分是一组查询和响应,以关心执行治理作出战略决策,推动商务运营。BI解决方案往往是非结构化的,专门难预定义,因为他们倾向于用一种专门的方式探究数据。记分牌,图形和数据透视表是BI的应用例子,它们能刺激更多的数据探究,而这可能导致公司内部战略方向的改变。在那个时期许多方法要求原型或试点项目。“7D法”不需要。至多,作为应用层的设计活动中的一部分,能够
60、做一个“点击模式”-一种输入/输出屏幕的快速出现模型,不涉及或只有极少的代码但却能给利益攸关方可视化的概念,同时又可不能吃掉宝贵的时刻和资源。假如试点或原型是必要的,那么选择其中的一个切片(slice)作为试点,完成“7D法”的每一步。“7D法”不区分试点,原型和产品系统-它们都被视为项目。假如按照“7D法”设计了一个原型,同时最终进入了产品(大多数原型差不多上如此),然后要选择比第一个切片更认真地选择第二个切片。假如这些切片不能成功地集成在一起,假如他们不支持我们在挖掘步骤发觉的企业宗旨和意图,那么整合彼此只会遇到困难,在某些情形下,甚至全然不可能。开发数据轨道开发步骤要紧有两个部分:第一个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 淋球菌性尿道炎病因介绍
- 泌尿生殖系统真菌病病因介绍
- (麦当劳餐饮运营管理资料)M008-三好六增创造价值
- 《工程精细化管理A》课件
- 开题报告:职业教育现场工程师培养的过程追踪与路径优化研究
- 中小学加固改造施工组织设计
- 2024-2025学年高一上学期《正确使用手机的科学建议》主题班会课件
- 开题报告:学前课程改革循证决策提质研究
- 开题报告:新时代加大国家语言文字推广力度实施战略研究
- 2024届内蒙古北重公司第三中学高三下学期第二次验收考试数学试题试卷
- 【MOOC】国际交流学术英文写作-湖南大学 中国大学慕课MOOC答案
- 【课件】第21课《小圣施威降大圣》课件2024-2025学年统编版语文七年级上册
- 《管理的实践》读后感
- 专升本数学知到智慧树章节测试课后答案2024年秋江苏财会职业学院
- 《技术的含义及作用》课件
- 全新药店劳动合同(2024版):员工福利、社会保险及假期规定2篇
- 《声波的反射和折射》课件
- 山西省2024年中考物理试题(含答案)
- 《忆读书》说课稿
- 国家职业技术技能标准 6-28-01-03 汽轮机运行值班员 人社厅发202226号
- 高空抛物安全宣传教育课件
评论
0/150
提交评论