(计算机应用技术专业论文)数据仓库存储edr系统的研究与实现.pdf_第1页
(计算机应用技术专业论文)数据仓库存储edr系统的研究与实现.pdf_第2页
(计算机应用技术专业论文)数据仓库存储edr系统的研究与实现.pdf_第3页
(计算机应用技术专业论文)数据仓库存储edr系统的研究与实现.pdf_第4页
(计算机应用技术专业论文)数据仓库存储edr系统的研究与实现.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)数据仓库存储edr系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 数据仓库实质是对大量的、多种类的企业数据的集成,目的是为了更好的 利用已有的信息,从而实现“数据一信息一知识”的过程,为企业的管理层提供决 策支持。传统的数据库技术与数据仓库有很大的不同,在对决策支持系统方面 有几点不足,首先各种来源的数据在定义和组织方式上不同,为决策者统一调 用数据和进行不同系统的比较带来了困难,数据仓库提供了数据融合技术,将 不同来源、不同定义的数据统一定义和管理:数据库提供的数据是事务性的、 操作性的,数据仓库的设计是面向主题的,通过数据联机分析o l a p 将数据转 化为信息;数据库中保存的是当前数据,无法进行历史趋势分析,数据仓库同 时提供当前数据和历史数据,并可作出历史趋势变化分析。 本文以香港国际货运码头h i t ( h o n g k o n gi n t e r n a t i o n a lt e r m i n a l ) 和深圳盐田 国际集装箱码头y i c t ( y a n t i 8 1 1i n t e r n a 畦o n a lc o n t a i n e rt e r m i n a l ) 的数据仓库项目 为背景,主要阐述e d r 系统的原理和实现机制。e d r ( e n t e r p f i s e d a t a r e p e r t o r y 企业数据仓库存储) 系统主要功能就是如何在收集各种数据和信息的基础上,对 数据进行提取、清理、转换和合成,将各种源数据经e d r 系统处理后存储到数 据仓库中。 本系统包含客户端和服务器端两个部分。客户端功能是实时监控系统运行状 况,设置系统运行参数。服务器端程序是一系列在后台运行的线程,负责维护 连接源数据库和目标数据库的连接,从数据源中抽取数据,根据数据仓库的设 计要求,对数据进行重新组织和加工,加载到数据仓库的内部数据库中。本文 详细论述了服务器端程序的实现原理和解析了实现代码,以及相关的数据库结 构,讨论了e d r 系统的安全机制,并结合h i t 和y i c t 的实际应用,简要介绍 了数据仓库技术在企业中的应用。 本系统对码头的业务管理、资源的合理分配使用等起到了关键作用,为决策 者提供各种类型的分析数据。对企业决策者起到了决策支持智囊团的作用。 关键字:数据仓库,数据库,决策支持系统,o l a p 武汉理工大学硕士学位论文 a b s t r a c t t h ee s s e n c eo fd a t aw a r e h o u s ei si n t e g r a t i o no fag r e a td e a lo f a n da l lk i n d so f e n t e r p r i s ed a t a ,i t sm a i na i mi sb e t t e ru s i n gt h eo l di n f o r m a t i o n ,t oi m p l e m e n tt o t r a n s f o r md a t at oi n f o r m a t i o n ,a n dt ot r a n s f o r mi n f o r m a t i o nt ok n o w l e d g e ,t os u p p l y d e c i s i o n s u p p o r t f o rt h e e n t e r p r i s em a n a g e r t r a d i t i o n a ld a t a b a s et e c h n o l o g yi s d i f f e r e n tc o m p l e t e l yf r o md a t aw a r e h o u s e ,w h i c hi s d e f i c i e n c yt od e c i s i o ns u p p o r t s y s t e m f i r s t ,t h ed i f f e r e n c eo f d e f r u i t i o na n do r g a n i z a t i o no fa l lk i n d so fs o u r c ed a t a c a u s ed i f f i c u l tt oc a l lt h ed a t a u n i f o r m l ya n dc o m p a r et o a n o t h e rs y s t e m d a t a w a r e h o u s e s u p p l yt h es y n c r e t i s mt e c h n o l o g y , d e f i n ea n dm a n a g e t h ea l lk i n d so fa n d d i f f e r e n td e f i n e dd a t a s e c o n d ,t h ed a t ao fd a t a b a s ei sb u s i n e s s l i k ea n d m a n i p u l a t i o n , w h i l et h ed e s i g no fd a t aw a r e h o u s ei s s u b j e c t - o r i e n t e d ,t o t r a n s f o r mt h ed a t at o i n f o r m a t i o nb yo n - l i n e da n a l y z e dp r o c e s s i n g a tl a s t ,t h ed a t a b a s ei st os a v et h e c u r r e n td a t aa n dn o tf o rh i s t o r yt r e n da n a l y z e ,w h i l et h ed a t aw a r e h o u s ei sn o to n l y s u p p l y t h eh i s t o r yd a t ab u ta l s ot h ec u r r e n td a t a , a n d c 觚a n a l y z e t h e h i s t o r yt r e n d t h i s p a p e rm a i n l ye x p l a i n st h ep r i n c i p l ea n di m p l e m e n t a t i o nm e c h a n i s m o f e d r s y s t e m ,e n t e r p r i s e d a t a r e p e r t o r y , b a s e d o nt h ed a t aw a r e h o u s e p r o j e c t o f h o n g k o n g i n t e r n a t i o n a lt e r m i n a la n dy a n t i a ni n t e r n a t i o n a lc o n t a i n e rt e r m i n a l e d r s y s t e mm a i n f i m c t i o ni sh o wt oe x t r a c t ,i x a n s f o r m , c l e a na n di n t e g r a t et h ed a t ab a s e d o n c o l l e c t i n ga l lk i n d so f d a t aa n di n f o r m a t i o n , t os a v et h ea l lk i n d so fs o u r c ed a t at o d a t aw a r e h o u s ea f t e rh a n d l e d b y e d r s y s t e m t h es y s t e mi n c l u d e st w op a r t s :c l i e n ta n ds e r v e r t h ef u n c t i o no fc l i e n ti st o m o n i t o rt h es y s t e mr e a l t i m er u n n i n gs t a t u s ,a n dt os e t u ps y s t e mr u n n i n gp a r a m e t e r s n es e r v e rp r o g r a mi sas e r i e so f t h r e a d sr u n n i n gb a c k g r o u n d ,a n dt ot a k ec h a r g et o c o n n e c tt h es o u r c ed a t a b a s et ot a r g e td a t a b a s e ,a n de x t r a c tt h ed a t af r o ms o r r c e d a t a b a s e ,r e o r g a n i z ea n d h a n d l et h ed a t ab a s e do nt h er e q 她e n to f d e s i g no f d a t a w a r e h o u s e ,s a v et h ed a t at ot h ed a t a b a s eo f d a t aw a r e h o u s e t h ep a p e rd i s c u s s e st h e s e r v e r - s i d ei m p l e m e n t a t i o np r i n c i p l ea n de x p l a i n st h ep r o g r a mc o d e ,a n dr e l a t i v e d a t a b a s es t r u c t u r e t h ep a p e ra l s od i s c u s s e st h es e c u r i t ym e c h a n i s mo fe d r s y s t e m a n dt h e a p p l i c a t i o no f d a t a w a r e h o u s ei nt h ee n t e r p r i s e 1 1 武汉理工大学硕士学位论文 t h e s y s t e m c o n t r i b u t e so nt h e o p e r a t i o nm a n a g e m e n t o ft e r m i n a l ,a n d a s s i g n m e n tr a t i o n a lt h er e s o u r c e e d rs y s t e ms u p p l i e sa l lk i n d so fa n a l y t i cd a t af o r m a n a g e r k e y w o r d s :d a t a w a r e h o u s e ,d a t a b a s e ,d e c i s i o ns u p p o r ts y s t e m ,o l a p 1 1 1 武汉理工大学硕士学位论文 1 1 课题来源 第1 章绪论 本课题主要研究数据仓库存储( d a t a r e p o s i t o r y ) ,即如何将企业的业务数据 库经过清洗、转化、存储为数据仓库的数据。本课题来源于香港国际货运码头 h i t ( h o n g k o n gi n t e r n a t i o n a lt e r m i n a l s ) 和深圳盐田国际集装箱码头y i c t ( y a n t i a n i n t e r n a t i o n a lc o n t a i n e rt e r m i n a l s ) 的新代码头管理系统n g e n ( n e x tg e n e r a t i o n t e r m i n a lm a n a g e m e n t s y s t e m ) 的子系统e d r ( e n t e r p r i s e d a t a r e p o s i t o r y 企业数据 仓库存储) 。 n g e n 是码头的核心管理系统,与之交户的还有g u i d e r 、t o p s 、e x p r e s s 等 子系统,每日的数据吞吐量都很大,不同的部门为了获取自己相关的数据,数 据的抽取和访问错综复杂,不可避免的产生诸如数据分析的结果缺乏可靠性、 数据处理效率低下、难以将数据转化成信息等问题。为此有必要将用于业务处 理的操作环境和用于数据分析的信息环境分离开,为此开发了e d r 系统形成数 据仓库,为企业的决策者提供支持信息。 1 2 课题的研究意义 中国拥有绵长的陆地海岸线和众多的港口,港口经济发展潜力巨大。港口经 济作为对内、对外的双向开放型经济,在我国经济的发展中占有至关重要的地 位。随着世界经济一体化和外贸经济的迅速发展,集装箱运输逐渐成为当今航 运的发展方向,集装箱业务在港口业务中增长最快、利润率最高。 盐田国际目前的吞吐量是处理四十多万标箱每月,而且吞吐量还在逐渐递 增,码头管理的难度不断加大,包括闸口通过能力不足、堆场密度过大、泊位 不够的问题。需要通过流程创新、提高资源的利用率加以解决。为了给管理决 策层提供可供决策支持的信息,以便合理安排资源,提高资源利用率,数据仓 库技术可以在这方面一展所长。 随着数据库技术的广泛应用,企业的运营环境逐渐转化为以数据库为中心的 运营环境。由于以数据仓库为基础的商业智能系统在实际应用中能带来高利润 武汉理工大学硕士学位论文 的回报,所以数据仓库近年来在诸多领域得到了越来越广泛的应用。 如何将用于事务处理的数据环境和用于数据分析的数据环境相分离,将企业 的日常业务处理的数据库转化为以利于数据分析,提供决策依据的数据仓库。 是本课题e d r 要完成的核心任务。 数据仓库应用具有从多个分散的部门级系统中捕捉大量的共享信息的能力。 它们可以将机构的原始数据有效地转化为有用的知识信息,于是这些知识信息 就可以被用来进行战略决策支持,从而提高质量、增加产量、节约开支,提高企 业收入。在一个先进的数据仓库应用的帮助下,企业管理者可以从质量、区域收 入和产量等基本面上对他的机构性能进行跟踪,并基于这些可靠的信息采取快 速、明智的行动。 1 3 数据仓库及其发展状况 1 3 1 数据仓库的概念 数据仓库概念创始人w h i n m o n 在 b u i l d i n g t h ed a t aw a r e h o u s e ) ) 一书中 对数据仓库的定义是:数据仓库就是“面向主题的、集成的、不可更新的( 稳定 性) 、随时间不断变化( 不同时间) 的数据集合,用以支持经营管理中的决策制 定过程”1 2 】。该定义指出了数据仓库面向主题、集成、稳定、随时间变化这四个 主要的特征。 数据仓库中的数据面向主题,而传统数据库面向应用。主题是一个在较高层 次上将数据归类,每一个主题基本对应一个宏观的领域,基于主题组织的数据 被划分为各自独立的领域,每个领域有自己的逻辑内涵互不交叉。因此,在数据进 入数据仓库之前,必然要经过加工与集成,将原始数据结构做一个从面向应用 到面向主题的大转变。对应某个主题的数据的集中存放,可以方便地在数据仓 库中的特定领域检索包含某个主题的所有数据,这样就实现了每一个主题对应 一个宏观的分析领域。 数据仓库的集成特性是指在数据进入数据仓库之前,必须对数据进行清洗和 转化,这是建立数据仓库的关键步骤,要统一原始数据中的矛盾之处,比如要解决 数据格式不一致、名称混乱、测量单位不同等问题。 数据仓库的稳定性是指数据仓库反映的是历史数据的内容,而不是日常事务 武汉理工大学硕士学位论文 处理产生的数据,因为许多分析方法必须以大量的历史数据为依托,没有历史数 据的详细分析是难以把握数据的变化趋势的。数据仓库可以看成是一个虚拟的 只读数据库系统,数据经加工和集成进入数据仓库后是极少或根本不修改的。 数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足 进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。由时 间维和各个主题域一起可以构成多维数据。数据仓库通常存有关于各个主题的 不同时间的综合信息,一般为5 1 0 年。与此不同的是,业务数据库通常只保存有用 事务数据3 0 - 9 0 天。数据经集成进入数据仓库后是极少或根本不更新的。因此, 常用操作是追加操作和历史查询。 总之,数据仓库并非是一个仅仅存储数据的简单信息库,实际上是一个“以 大型数据管理信息系统为基础的、附加在这个数据库系统之上的、存储了从企 业所有业务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经 过处理后的有用信息的应用系统”僻】。如果说传统数据库系统的重点是快速、准 确、可靠地将数据存进数据库中的话,那么数据仓库的重点就是能够准确、可 靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进 行分析使用。 1 3 2 数据仓库的发展状况 市场需求是技术发展的源动力。当年数据库技术的发展是伴随着o l t p ( o n l i n et r a n s a c t i o np r o c e s s 联机业务处理) 应用需求的推动,o l t p 最主要的技术要 求是快速响应。数据库技术,特别是关系数据库,将数据集分成了少冗余的实 体,然后通过关系把实体联系起来组成一个有机的整体,比较完美的解决了 o l t p 的应用需求。 然而,应用在不断地进步,当联机事务处理系统应用到一定阶段的时候,单 靠拥有联机事务处理系统已经不足以获得市场竞争的优势,用户要从大量业务 数据中探索业务活动的规律性,市场的运作趋势,并从中为其参与市场竞争作 出重要决策。专门为分析统计和决策支持应用服务,通过它可满足决策支持和 联机分析应用的数据中心就是做数据仓库。 数据组织技术的发展大致经历了以下几个阶段: 1 ) 人工管理阶段( 5 0 年代) 2 ) 文件系统阶段( 6 0 年代) 武汉理工大学硕士学位论文 3 ) 集中式数据库阶段和分布式数据库阶段( 7 0 _ 8 0 年代) 4 ) 数据仓库和数据集市阶段( 9 0 年代初至今 企业对数据的应用是分层次的,而数据在不同的层次也有不同的意义:为 基层人员提供基本业务信息;为中层管理者提供管理信息;为高层管理者提供 决策信息。以前的数据组织大多是为底层人员服务的,无法进行高层决策。数 据仓库技术填补了这一空白。 随着全球范围内市场经济竞争的日益激烈,越来越多的企业将视线转移到数 据仓库技术。数据仓库可以帮助企业更好的了解客户和业务运作,为企业提供 准确的决策支持依据,庞大的信息库中存储着财富,将信息转化为资产从而在 竞争中立于不败之地。通过数据仓库技术的帮助,企业可以向用户提供他们所 期待的个性化产品和服务,这将大大提高企业与用户之间的相互信任。因此可 以预见,这一技术的应用范围将越来越广,其发展前景令人乐观。 从i t 厂商的角度看,经过长期发展,联机事务处理系统的市场至9 0 年代中 期出现饱和迹象,其增长速度明显减慢。这导致各大数据库厂商的传统业务增 长面临严峻挑战,寻求新的业务增长点成为他们的当务之急。数据仓库的兴起 无疑为数据库产品创造了巨大的市场,它成为2 0 世纪末到2 1 世纪初数据库市 场的一个新的增长点。 数据仓库技术在国际上的应用十分广泛,尤其在金融、保险、通信、能源等 领域和政府部门大都采用数据仓库加上联机分析处理( o l a p ) 进行市场分析和 决策分析随着国际市场竞争的日益激烈,数据仓库的应用会越来越广泛。采用数 据仓库的企业有两个前提条件:一是企业处在竞争的环境中,二是企业存在大 量数据。 作为数据管理市场的热点,近年来有很多公司投入数据仓库市场的角逐。其 中比较有代表性的产品有: 1 ) i n f o r m i x 公司推出数据仓库服务器i n f o r m i xr e db r i c kd e c i s i o ns e r v e r ,支持 s q l 的标准。与传统关系数据库兼容此外,i n f o r m i x 公司的决策前沿解决方案 套件通过一套集成的软件包,提供了一个完整的解决方案该方案套件具体包 括: a r d e n td a t a s t a g e 一个可以从多种数据来源抽取数据并将其装载到数据 仓库的功能强大、性能可靠的工具; i n f o r m i xe n t e r p r i s ed c c i s i o ns e r v e r 和i n f o r m i x r e db r i c kd e c i s i o ns e r v e r 4 武汉理工大学硕士学位论文 全球最强大的数据仓库引擎和数据集市引擎: m e t a c u b er o l a p 选件快速高效地从数据中找出决策信息 企业需要数据仓库和数据集市,但他们都不愿耗费时间和精力解决在建立 过程中遇到的问题i n f o r m i x 决策前沿解决方案套件可以完成大部门功能。 2 ) s y b f l s e 的数据仓库解决方案q u i c k s t a r t d a t a m a r t ,包括s y b a s ei q 、 c a l e t o np a s s p o r 、b r i o q u e r y 、c o n o sp o w e r p l a y 等一系列软件,支持d b 2 、 m s 、v s a m 、s y b a s e 、o r a c l e 、i n f o r m i x 等关系型数据库,还有文本格式的 数据。它能够同时处理几十个即席查询,其b i t w i s e 技术和垂直数据存储技术使 系统只访问特定的少量数据,使得查询速度比传统的关系型数据库管理系统快 很多。 3 ) p l a t i n u mt e c h n o l o g y 公司的数据仓库解决方案为企业提供完整、一致的数 据,以保持商业决策的及时、正确性。p l a t i n u mt e c h n o l o g y 的数据仓库解决方案 包括数据抽取和提炼、数据分布、元数据管理、数据存取和分析( o l a p 、e i s 、 报表) 、保险、销售和营销决策支持等几个方面。它提供的数据仓库工具包括异 构数据库之间数据双向复制的应用系统开发工具i n t op u m p 和功能强大灵活的 关系型o l a p 工具i n f o b e a c o n 等;提供的数据仓库前端业务智能解决方案工具 包括使用户能够快速建立和使用的图形化企业信息系统应用的基于w m d o w s 的 查询和报表工具f o r e s t & t r e e s ,可以利用多个大型数据库在桌面机或服务器上 生成报表的企业级报表的工具i n f o r e p o r ts ,使用户在服务器上生成在用户端制 作的企业报表的工具i n f o r e p o r ts e r v e r 。这些工具使用户不需编程即可查询关系 数据库、数据仓库或数据文件的数据,具有很强的实用性。 展望数据仓库的发展未来,其发展趋势是: 1 ) 在不久的将来,数据仓库不仅包括文字、数字等信息,还将把声音、图 像等多媒体信息包含近来,例如可以将数据模型以图像的形式直接展示出来, 便于用户的理解和使用。 2 ) 未来的数据仓库系统将向智能化方向转变。现在的数据仓库的数据分析 往往是根据用户的需求来进行的,即由用户提出分析问题借助数据仓库来回答 这些问题,未来的智能型数据仓库不仅能回答问题,而且还可以提出问题。 3 ) 会出现更加个性化的数据仓库。现有的数据仓库的构建是面向所有用户 的,不同的用户提出的需求是不同的,因此未来数据库应向能根据用户各自需 求来设计的趋势发展。 武汉理工大学硕士学位论文 1 4 论文的研究内容 论文研究基于数据仓库的存储系统,以h i t 和y i c t 的企业数据仓库存储 e d r 系统为项目背景。 首先,论文给出课题来源和研究意义,简要介绍数据仓库的基本概念,分析 了数据仓库的发展状况。 论文第二章从宏观的角度论述了建设数据仓库要注意的原则及建设方法并 详细论述了e d r 系统实现的基本原理,工作流程和用到的相关技术。 论文第三章详细论述了e d r 系统实现的细节,分析主要的程序代码,结合 深圳盐田国际集装箱码头y i c t 使用e d r 系统作为实际例子,详细阐述其实现 过程。 论文第四章论述了e d r 系统的安全机制和实现方法。 论文第五章简单介绍y i c t 如何利用其数据仓库资源。 论文主要工作是综合面向对象技术、数据库技术、网络技术、基于j a v a 语 言设计实现了一个完整的自动高校的数据仓库存储系统。 1 5 论文的体系结构 论文第一章分析并提出问题,第二章从理论上论述了e d r 系统的工作原理, 第三章详细阐述e d r 系统的设计和实现细节,第四章讨论了该系统的安全问题, 第五章简单介绍一下实际应用中,用户如何利用数据仓库资源。 1 6 小结 本章阐述了课题来源和研究意义,以及数据仓库的基本概念,概述了论文的 主要研究内容和所涉及的相关技术,给出了全文各章的逻辑关系。 武汉理工大学硕士学位论文 第2 章e d r 系统的原理 企业数据仓库的建设是以现有企业业务系统和大量业务数据的积累为基础, 数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他 们作出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息 加以整理、归纳和重组,并及时提供给相应的管理决策人员和数据分析人员, 是数据仓库的根本任务。 因此,从工程的角度来讲,数据仓库建设是一个工程,是一个过程,这就是 企业对整个系统建设提出一个全面清晰的远景规划及技术实施蓝图将这个项目 的实施分阶段进行,这样不仅可以从当前投资中获得收益,而且可以在已有的 基础上,结合其他已有的业务系统,逐步构建起完整健壮的数据仓库系统。 2 1 数据仓库建设的基本原则 在为企业建立数据仓库系统时,应遵循正确的建设原则,总的来说,要注意 以下三点: 1 ) 循序渐进 不要一上来就要完成一个大规模的企业范围的数据仓库,这样会陷入逻辑、 行政和财政的混乱中。数据仓库的建设投资大、风险大、时间长,不可能一次 建成,不可能一开始就建立一个庞大的全局性的数据仓库,也不能简单地把企 业现有的数据信息全部装入数据仓库。 建设数据仓库时要从大处考虑,但要从小处开始实施。数据仓库的有效性不 是以规模来衡量的,应由简单到复杂,从单一部门逐渐发展到全局性的规模, 要从较小的、需求明确的主题入手,由局部到全局的循序渐进的实施。 2 ) 可伸缩性 数据仓库的规模随主题的增多而不断扩大,就某一个主题而言也会随着数据 逐渐增加而动态变化,因此在建设数据仓库时必须在数据体系结构、数据存储、 数据处理等方面体现出可伸缩性。 武汉理工大学硕士学位论文 要认识到数据仓库每年甚至每天都会增长。同时要认识到,用户和系统的管 理者不可能非常准确地预料到系统上的初始和未来负载的情况。这种固有精确 度的缺乏就需要系统的软件和硬件具有可伸缩性,即能够容纳更多的客户、进程 和存储的发展。这种性能必须在设计的开始就被考虑进去。否则,就可能因过大 而超过系统的适用范围,白白将投资浪费掉。 3 ) 管理层的支持和认可 管理层的支持和认可是建设数据仓库系统成败的关键。管理层本人就是数据 仓库系统的重要用户,在了解数据仓库应用需求的时候,主要对象应该是企业 的决策部门和管理部门。因为数据仓库中涉及到信息的共享,这必然会由于 所影响的部门的数据所有者的人为因素造成失控。在数据所有权和数据存放等 问题上的内部纷争很容易给数据仓库带来进程上的滞延和失败。这种数据上的 “割据”必须在项目的开始就立即加以解决。管理层的支持有助于打破各个部门之 间形成的数据保护。 2 2 数据仓库建设的基本方法 数据仓库作为一种解决问题的方案,它不是一个可以买到的现成产品,不同企 业会有不同的数据仓库实现方案,因此数据仓库并没有严格的数学理论基础,它 的实现是一个不断往复前进的工程从总体上看,实现数据仓库的基本步骤大致 如下: 1 ) 确定用户的需要,确定系统主题,为数据仓库中存储的数据建立模型。通 过数据模型,可以得到企业完整而清晰的描述信息。数据模型是面向主题建立的, 同时又为多个面向应用的数据源的集成提供了统一的标准。数据仓库的数据模 型一般包括:企业的各个主题域、主题域之间的联系,描述主题的码和属性组。 2 ) 数据库的逻辑设计。在确定主题后,需要对主题包含的信息进行详细定义, 并对事实表和维表的关系详细定义。 3 ) 数据库的物理设计。物理设计主要考虑数据的存储方式,使得系统有较 好的性能。对于记录庞大的事实表,可以考虑分区存放。而记录很少的维表则可 以集中存放于某一表空间,甚至可以让其数据在首次读取时驻留在系统内存中, 以加快数据存取速度。索引的建立也在物理设计中完成,索引是一把双刃剑,能 武汉理工大学硕士学位论文 提高读取速度,也会使数据更新速度降低,并占用大量磁盘空间。 4 ) 利用现有系统的信息,确定从源数据到数据仓库的数据模型所必须的转 化逻辑。这涉及到应该合并转化多少数据;是综合所有的数据文件还是综合发生 变化的操作文件:转化过程应该多长时间执行一次等问题。决定数据转化与更新 频率是重要的商业事件。无论数据仓库的更新是采用事件驱动还是时间驱动,都 必须让数据仓库知道当某种事件发生时就需要更新数据。 5 1 源数据获取、清洗、整理及装载设计。数据仓库的数据总是来自前台作 业系统、业务部门的计划数据。这些数据并非照搬过来就行,而是要按照前面提 到的步骤以统一定义的格式从各个系统抽取出来,经过清洗,再经过数据装载 和整理程序进入数据仓库。 6 ) 设计终端用户应用软件,以便终端用户从数据仓库中获取所需的信息。 2 3 数据仓库建设要注意的问题 2 3 1 保证数据的一致性 在数据仓库的设计中,一定要特别注意,一个业务查询,无论以何种方式向系 统提交。所得到的结果应该是一致的。也就是说,提交查询的方式可能有所不同, 但只要其语义是唯一的,那么,系统所返回的结果可能因用户的要求而在表现 形式上有异,可能是报表、示意图,或别的形式,但它们的语义也是唯一的。这是对 数据仓库设计的一个基本要求,也是对数据仓库的数据库的一个基本要求。 为了达到这个要求,最重要的一点是要保证数据仓库的数据库中的数据是 一致的。因此,需要在把源数据装载到数据仓库前,对源数据进行整理、检验, 清除有问题的数据,使得数据进入数据仓库的数据库时是一致的。 2 3 2 提高查询处理速度 数据仓库的用户数量虽然不多,但是,由于数据仓库系统包含的数据量非常 大,而业务分析和决策过程所使用的查询往往涉及大量的数据,要进行复杂的 数据运算,因此,查询处理的效率也是数据仓库系统所必须考虑的一个重要方 面。 使用索引( i n d e x ) 是提高查询效率的主要手段之一。在传统数据库系统中,由 9 武汉理工大学硕士学位论文 于插入、删除和更新操作频繁,而索引会影响这些操作的效率,所以经常需要作 一些权衡考虑,对索引的使用采取比较谨慎的态度。而在数据仓库系统中,由于 在日常使用中一般没有交互式的插入、删除和更新操作,所以数据仓库的数据库 中广泛采用索引,提高查询速度。 2 3 3 提高数据装载效率 在数据仓库系统中,最关键的操作是查询处理,最耗时的操作却是数据装载。 由于数据仓库中包含了大量数据,如何及时迅速地从数据源中把新数据装载到 数据仓库系统中,并把过时的老数据进行汇总转存,不影响数据仓库系统的日常 应用。是数据仓库中数据库设计要考虑的又一关键问题。 e d r 系统的做法是对于源数据库n g e n d a t a b a s e 中的表,做了一个与实际表一 一对应的视图或者快照,然后e d r 系统从这些视图中的数据全部抽取出来存入数 据仓库系统的临时表中,临时表以t e m p 开头,然后后续的操作都在t e m p 表中进 行。这也就是说e d r 系统第一步就是集中全部资源做数据抽取,这样可以提高 效率。 2 4 数据仓库的体系结构 一个数据仓库一般来说包含以下主要组成部分: 1 ) 数据源;数据仓库的数据来源,如各种业务处理数据库、外部数据源等 都可以作为数据仓库的数据源。 2 ) 数据抽取、转换和装载工具:数据进入数据仓库的过程一般都要经过抽 取( e x t r a c t e d ) 、转化( t r a n s f o r m e d ) 和载入( 1 0 a d e d ) 三个过程,这个过 程被简称为e t l 。从数据源中抽取数据,根据数据仓库的设计要求,对 数据进行重新组织和加工,装载到数据仓库的内部数据库中。 3 ) 数据建模工具:用于建立信息模型。 4 ) 目标数据库:存储经整理、加工实际存储到数据仓库中的数据。 5 ) 数据访问和分析工具:用于业务分析和决策人员访问数据仓库作数据分 析。 6 ) 数据仓库管理工具:为数据仓库的运行提供管理手段。 l o 武汉理工大学硕士学位论文 在一个数据仓库中,源数据来源于已有的业务操作系统,是操作型数据,数 据源可以是各种数据库管理系统,也可以是各种格式的数据文件或外部的数据 源。因此,在实际工程中,面对的数据源可能千差万别。 数据进入数据仓库之前,必须经过检验,排除数据中可能隐藏的错误,然后 才装载到数据仓库的数据库中,所有以上这些工作都是由数据抽取和转换工具 来完成的,数据仓库中装入数据的数据库称为数据仓库的目标数据库。 在数据仓库的运行过程中,需要不断监控数据仓库的状态,包括系统资源的 使用情况、用户操作的合法性、数据的安全性等多个方面,为此,在数据仓库 系统中专门由数据仓库管理工具来负责向数据仓库管理员和数据仓库的数据库 管理员提供有关的管理功能。 为了使数据仓库用户能有效地使用数据仓库中的信息,数据仓库系统要向用 户提供一挨套数据访问和分析工具。数据访问和分析工具不但要提供如查询、 汇总、统计等一般的数据访问功能,还要提供对数据的深入分析功能,即数据 挖掘的功能,如数据的比较、趋势分析等。 2 5 数据仓库的开发 1 ) 确定数据仓库的数据源。由上所述数据源可以来自数据库、数据文件或其 他地方。 2 ) 确定进入数据仓库的方法。数据仓库是通过应该一个数据泵把数据从数据 源中抽取出来,并将其转化为数据仓库的全局模式和模式,目前常用的工具有 o r a c l e 、s y b a , s c 、s q l s e r v e r 等。 3 ) 对进入数据仓库的数据进行整理。数据仓库根据数据的不同) j 口- r 处理程度 将数据分层,其过程为数据首先进入当前详细信息层,在一定时刻,转入历史 性详细信息层,同时当前详细信息数据经过分析总结,进入总结数据库,最后 进入高级决策信息层。 4 1 最后将数据存储到数据仓库的相应数据表中。 5 ) 提供前端工具,供用户访1 o l 管理数据仓库。 数据仓库要把企业分散的日常业务数据转化为集中统一的信息,而数据源的 不同,他们可能没有相同字段的定义,或缺少同样程序的可靠性,因而要进行 武汉理工大学硕士学位论文 转换和重构数据。数据整理和变换主要负责从外部数据获得的数据进行处理, 使用户最容易理解和使用的方式把数据组织和存放起来,主要包括:记录及记 录字段的调整、字段值格式的统一、填补缺漏值、检查数据完整性和相容性, 给原始数据和导出数据加时间戳等。 h i t & y i c t 所设计的e d r 系统有其自身特点,都是围绕集装箱码头业务设 计,e d r 系统的主要作用就是完成上述的功能。 2 6e d r 的体系结构 如图1 所示,n g e n 是码头的核心管理系统,关于码头业务的各种操作均可 在n g e n 中直接进行,但由于其系统的复杂性,一般不建议终端用户直接在n g e n 系统上直接进行业务操作。终端用户一般使用与其配套的外围系统进行各项业 务处理,如t o p s 系统负责船舶的停靠计划安排,o m s 系统负责码头运营的实 时监控,t r a c s 系统负责各种码头设备q c 、y c 等操作时与n g e n 的实时交互, g u i d e r 系统负责船舶的集装箱配载和装船卸船的计划安排等。 外围系统都有自身的数据库,存储自身特有的业务操作数据,但相关的业务 数据都会传回核心管理系统n g e n ,并存入n g e n 的数据库中,使核心管理系统 能够反映码头各个部门的实际业务处理情况。 从图1 可以看出,e d r 的数据来源主要有三个:一个是n g e n 的数据库中的 数据,这是来自业务操作系统中的操作型数据;一个是存为数据文件的来自外 部系统的数据;一个是来自企业旧系统如t m o s 等系统的数据。e d r 系统不直 接从t a b l e 中直接取数,从与t a b l e 相关的视图v i e w 和快照s n a p s h o t 中取出数据, 再由e d r 系统进行整理转换等操作存入数据仓库。来自外部系统的数据文件放 在一个指定的f t ps e r v e r 上,e d r 会定期自动在f t ps e r v e r 上取出数据文件, 然后分析出数据存入数据仓库中。 1 2 武汉理工大学硕士学位论文 图1 系统架构图 快照( s n a p s h o t ) 为来自其他数据库的一个表或表的子集的最新拷贝。创建和 维护快照的sql 语句通常从远程服务器的数据库中读数据。在分布式环境中, 出于以下一个或两个原因定义快照:当有一个表的本地只读拷贝时,为改善响 应时间而创建快照,这比直接从远程数据库读数据要快很多倍;一旦对某个远 程数据库建立了快照,当此含有远程数据库的节点不可用时,还可以继续使用 此快照而无需访问已卸下的数据库。假定在a 服务器上创建了一个快照,其数 据来自服务器b 。若b 的服务器关机了,a 服务器上的用户仍然可以访问驻留 在a 上的快照。 保持快照数据更新的方法是指定刷新间隔。在定义快照时,d b a 说明时间 间隔o r a c l e 管理从定义快照的表上定时向快照中读入数据。 实体化视图( m a t e r i a l i z e dv i e w ) 存储来自一个分散数据库表中一个或多个对 武汉理工大学硕士学位论文 象的查询结果,是快照的同义词,在o r a c l e 系统中关键词m a t e r i a l i z e dv i e w 和 s n a p s h o t 能相互交换使用。由于复制涉及表数据的传播以及对远程节点的数据更 改,这些视图在进行复制时特别方便。o r a c l e 数据库管理系统建立和使用实体化 视图主要用于决策支持或者数据仓库,在这种情况下,用户进行日常活动时频 繁地访问这些预先计算的结果和聚集( 通常亦称为汇总数据) 。当使用实体化视图 去增强数据仓库的可操作性时,优化器将通过确认和决定使实体化视图被启用。 2 7 数据仓库的主题划分 与传统数据库面向应用进行数据组织的特点相对应擞据仓库中的数据是面 向主题进行组织的。主题是一个抽象的概念,是在较高层次上将企业信息系统中 的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一 宏观分析领域所涉及的分析对象。面向主题的数据组织方式,就是在较高层次上 对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象 所涉及的企业的各项数据,以及数据之间的联系。 由于数据仓库是按照主题来组织数据的,所以需要将操作型数据库n g e n d a t a b a s e 中的数据映射到分析型数据库即数据仓库中来。 对于一个集装箱码头来讲,所有业务的重心是围绕着集装箱c o n t a i n e r 展开 的,因此c o n t a i n e r 很明显是码头关注的主题之一。集装箱存放于码头的堆场y a r d 中,内部拖车i n t e r n a lt r a c t o r 将集装箱从一个y a r d 运送到另一个y a r d ,或者运 到码头的岸边装船,因此i n t e r n a lt r a c t o r 也是码头关注的主题之一。码头操作的 重要的设备是各种吊车,在y a r d 内用于调整集装箱的位置的y c ,在岸边装船 卸船的q c 也是码头关注的主题。由于码头是开展对内对外的运输业务,有些进 出口的集装箱需要海关c u s t o m 的验箱和放行,因此c u s t o m 也是主题之一。由 于集装箱要运到世界各地,运载工具船v e s s e l 也是码头关注的对象之一,所以 c v l ( c o n f m - n e dv e s s e li n f o r m a t i o n ) 也是主题之一。 从图2 所示的e d rj o bf l o w 中可以看出,数据仓库的主题分为q c ( q u e y c r a n e 岸吊) 、y c ( y a r dc r a n e 龙门吊) 、i n t e r n a lt m c t o r ( p t j 部拖车) 、c o n t a i n e r ( 集装箱) 、c v i ( c o n f i r m e dv e s s e li n f o r m a t i o n 已确认的船舶信息) 、o a t e ( f _ q 口验 箱) 、c u s t o m ( 海关) 、b e r t i l ( 船舶停靠) 等十一个主题。 1 4 武汉理工大学硕士学位论文 图3 显示了整个e d r 系统的各个主题之间的关系,刻画了各个主题所包含的数 据表以及表之间的依赖关系。 呻_ 【 事。eo。酗。曲n囤 性帮掣扑卅隧扑kh副醛僖 武汉理工大学硕士学位论文 2 8e d r 中依赖关系的维护和管理 n g e n 数据库中的数据是按照关系型数据库理论组织的,代表一种或一类业 务对象的实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论