(计算机软件与理论专业论文)分布式数据仓库中数据调度机制的研究与设计.pdf_第1页
(计算机软件与理论专业论文)分布式数据仓库中数据调度机制的研究与设计.pdf_第2页
(计算机软件与理论专业论文)分布式数据仓库中数据调度机制的研究与设计.pdf_第3页
(计算机软件与理论专业论文)分布式数据仓库中数据调度机制的研究与设计.pdf_第4页
(计算机软件与理论专业论文)分布式数据仓库中数据调度机制的研究与设计.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分布式数据仓库中数据调度机制的研究与设计 分布式数据仓库中数据调度机制的研究与设计 摘要 随着对国内各厂商对经营分析和决策支持重视程度的加剧,作为 经营分析、决策支持、数据挖掘等方面的基础,数据仓库的建设越 来越引起人们的重视,数据仓库建设的好坏,直接影响到经营分析、 决策支持、数据挖掘的效果。为了更好的支持不同级别、不同业务 的经营分析,数据仓库的建设逐渐由集中式转向了分布式。目前, 分布式数据仓库建设中存在着很多问题:规则调度、数据传输、一 致性维护、即席查询、数据冗余、模型设计,如何更好的解决这些 问题,是目前分布式数据仓库设计与实施的重点。 分布式数据仓库调度分为全局数据仓库规则调度和局部数据节 点规则调度两个方面,每个方面的建设过程又包括数据采集、e t l 、 数据展现三个过程,全局数据仓库和局部数据节点之间、过程内部、 过程之间存在着复杂的关系。如何设计一个数据调度的方法,如何 在保证数据调度正确性的前提下尽可能的提高系统效率,实现并行 性,尽可能的利用分布式系统带来的效率优势,是分布式数据仓库 调度所要解决的问题。 作者在三年的数据仓库建设中,深入研究了u b i s ( u n i t e d b u s i n e s si n f o r m a t i o ns y s t e m ) 系统规则调度的设计过程,提出了信 息与控制分离的设计方案,基于m v c 设计模式,作者把整个算法 分成了3 个部分,模型、视图和控制,有效地实现了信息与控制的 分离,模型、视图和控制之间相互联系又相互独立,各个模块的改 变并不影响到其它模块,使得整个算法更加灵活,更容易维护。 接下来,作者对u b l s ( u n i t e db u s i n e s si n f o r m a t i o ns y s t e m ) 系 统一致性维护过程进行了深入的研究,归纳和总结了现阶段u b i s 致性维护的整个流程,分析了整个流程的利弊。之后,作者提出 了一种基于s t r o b e 的分布式数据仓库一致性维护算法,描述了更新 检测、操作控制、更新控制、错误处理等关键性问题。为解决分布 式数据仓库建设中存在的问题提供了参考。 北京邮电大学硕士研究生论文第i 页共i v 页 分布式数据仓库中数据调度机制的研究与设计 关键词:分布式数据仓库一致性维护调度m v cs t r o b e 北京邮电大学硕士研究生论文第i i 页共i v 页 分布式数据仓库中数据调度机制的研究与设计 a b s t r a c t a st h eb a s eo fb u s i n e s sa n a l y s i s 、d a t as u p p o r ts y s t e m 、d a t a m i n i n g ,t h ec o n s t r u c t i o no fd a t aw a r e h o u s ew i l lb em o r ea n dm o r e r e g a r d e db yp e o p l e t h eq u a l i t yo fd a t aw a r e h o u s ee f f e c t t h er e s u l to f b u s i n e s sa n a l y s i s 、d a t as u p p o r ts y s t e m 、d a t am i n i n gd i r e c t l y i no r d e r t os u p p o r td i f f e r e n tl e v e l 、d i f f e r e n t j b u s i n e s so f b u s i n e s sa n a l y s i s ,t h e c o n s t r u c t i o no fd a t aw a r e h o u s et u m e dc e n t r a l i z ed a t aw a r e h o u s et o d i s t r i b u t ed a t aw a r e h o u s e n o w ,t h e r ea r em a n yp r o b l e m si nt h e p r o c e s s o ft h ec o n s t r u c t i o no fd i s t r i b u t ed a t aw a r e h o u s e ,s u c ha s m a p p i n gs c h e d u l i n g s c h e m e ,d a t at r a n s f o r m 、m a i n t e n a n c eo f c o h e r e n c e 、t h ed a t ar e d u n d a n c y 、m o d e ld e s i g na n ds oo n h o wt o r e s o l v et h e s ep r o b l e m si st h ee m p h a s i so fd e s i g na n di m p l e m e n to ft h e d i s t r i b u t ed a t aw a r e h o u s e t h ed i s t r i b u t ed a t aw a r e h o u s es c h e d u l i n gs c h e m ei n c l u d et w op a r t s , o n ei st h ew h o l ed a t aw a r e h o u s es c h e d u l i n gs c h e m ea n dt h eo t h e ri st h e p a r td a t aw a r e h o u s es c h e d u l i n gs c h e m ea n de v e r yp a r t sc o n t a i n st h r e e p r o c e s s e s ,s u c ha sd a t ac o l l e c t i o n 、e t la n dd a t ap r e s e n t a t i o n t h e r ea r e m a n yc o m p l i c a t e dr e l a t i o n s m n o n gt h e s ep a r t s 、t h e s e p r o c e s s e s a n d i n s i d et h e m h o wt od e s i g nab e t t e rs c h e d u l i n gs c h e m ew h i c hn o to n l y e n s u r e sd a t ac o r r e c t n e s sb u ta l s ob o o s t su pt h ee f f i c i e n c yo fs y s t e ma n d c a nb e n e f i tf r o mt h ed i s t r i b u t es y s t e mi st h eq u e s t i o nb yd a t aw a r e h o u s e 北京邮电大学硕士研究生论文第i i i 页若i v 页 分布式数据仓库中数据调度机制的研究与设计 s c h e d u l i n g d u r i n gt h et h r e ey e a r sc o n s t r u c t i o no f t h ed a t aw a r e h o u s e ,t h ew r i t e r s t u d i e dc o n s t r u c t i o no fd a t aw a r e h o u s eo fu n i t e db u s i n e s si n f o r m a t i o n s y s t e m ( u b i s ) d e e p l na n dt h e np r o p o s e dad e s i g ns c h e m eo fd a t a w a r e h o u s es c h e d u l i n gw h i c hs e p a r a t e dt h ei n f o r m a t i o na n dt h ec o n t r o l , t h ew r i t e rs e p a r a t et h ea r i t h m e t i ct ot h r e ep a r t s ,s u c ha sm o d e l 、v i e wa n d c o n t r o lw h i c hb a s eo nt h ed e s i g np a t t e r no fm v c e v e r yp a r t sc o n t a c t 谢t he a c ho t h e ra n da tt h es a m et i m et h ep a r t so fm o d e l 、v i e wa n dt h e c o n t r o li si n d e p e n d e n c e ,t h ec h a n g eo fe v e r yp a r t sd i d n te f f e c to t h e r p a r t s t h ew h o l ea r i t h m e t i cw i l lb em o r ea g i l i t y a f t e rt h a tt h ew r i t e rs t u d i e dc o n s t r u c t i o no f m a i n t e n a n c e c o h e r e n c eo fd a t aw a r e h o u s eo fu n i t e db u s i n e s si n f o r m a t i o ns y s t e m ( u b i s ) d e e p l y ,s u m m a r i z et h ew o r kf l o wo ft h e m a i n t e n a n c e c o h e r e n c e ,a n a l y s i st h ea d v a n t a g ea n dd i s a d v a n t a g eo ft h ew o r kf l o w a n dt h e nt h ew r i t e rp r o p o s et h ea r i t h m e t i co fm a i n t e n a n c ec o h e r e n c eo f t h ed i s t r i b u t ed a t aw a r e h o u s eb a s eo nt h es t r o b ea n dd e s c r i b et h e p r o b l e ms u c ha su p d a t ed e t e c t 、o p e r a t i o nc o n t r o l 、u p d a t ec o n t r o l 、d e a l w i mt h ew r o n g t h ew r i t e ro f f e r sar e f e r e n c ef o rr e s o l v i n gt h ep r o b l e m s o fd a t aw a r e h o u s es c h e d u l i n g k e yw o r d s :d i s t r i b u t ed a t aw a r e h o u s em a i n t e n a n c ec o h e r e n c e s c h e d u l i n gs c h e m e m v cs t r o b e 北京邮电大学硕士研究生论文第i v 页共i v 页 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加咀标注和致谢中所罗列的内容咀外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材 料。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢 意。 申请学位论文与资料若有不实之处 本人签名: 物二垒 本人承担一切相关责任。 日期矽堕歹三7 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 扬二壬 导燧名:轴珏。 日期:鲨堑三:二z 日期: 立吐毕 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其 它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 分布式数据仓库中数据调度机制的研究与设计 1 1 论文背景 第一章绪论 我国正式加入w t o 以后,随着国内电信行业改革和重组的不断深化,国 内电信业务的市场环境将渐趋合理,竞争将日益加剧。国内的电信运营企业迫 切要求在经营理念、管理模式方面能有一个较高层次的飞跃,以求在电信运营 业日益残酷的国际化竞争中立于不败之地;同时,也要求国内电信运营企业传 统的以产品为中心,以营业窗口为基础的运营模式,逐步向以客户为中心、以 数据为中心、以信息为基础的模式转变。如何制定灵活多变的市场营销策略, 为客户提供更具有针对性的满意服务;同时最大限度使自己的资源得到合理配 置和优化,降低运营成本,以增强企业的核心竞争力,成为当前迫切需要解决 的问题。在此过程中,市场策略的应对速度是保持竞争力的重要手段,而市场 应对策略的制定需要丰富、真实、及时的经营信息提供支持。为了充分支持企 业的决策分析,需要将业务数据按照决策分析处理的要求进行重组,建立单独 的经营信息分析处理环境。数据仓库正是为了构建这种新的分析处理环境而出 现的一种数据存储和组织技术,同时作为一个面向主题的、集成的、相对稳定 的、反映历史变化的数据集合,用于支持企业的管理决策制定过程。 目前,中国联通和中国移动已在各省分公司建立了综合业务运营支撑系统, 并在该业务系统基础上构建了集中式数据仓库,实现了经营信息的省分统一管 理。各地市中心制定个性化营销方案需要进行本地化经营分析,而省分的集中 式数据仓库却难以满足地市中心市场分析人员和业务管理人员获取和分析经营 信息的需要。为了实现企业“地市中心个性化营销、经营信息省分统一管理” 的运营模式,有必要将集中的数据仓库系统分散化,使各地市中心独立管理本 地数据,针对本地化需求开展经营信息分析。 而中国电信的运营模式不同于中国移动和中国联通,其业务系统主要以地 市( 本地网) 为单位进行建设。现有的业务支撑系统主要包括:“9 7 工程”、计 费帐务系统、客服系统、决策支持系统及网管系统等。这种以本地网为单位的 运营模式形成了业务生产系统分散在各地市中心的现状,由于没有进行全省范 北京邮电大学硕士研究生论文第1 页共4 9 页 分布式数据仓库中数据调度机制的研究与设计 围内业务支撑系统体系结构的统一规划,各地市中心的业务处理流程不一致, 业务系统的信息模型不一致,所采纳的技术实现方案也不相同,系统间出现了 功能重叠、数据重叠等问题。为了解决异构业务系统间数据一致性问题,实现 企业各类信息系统的整合和数据的共享,本文提出了电信分布式数据仓库的体 系架构,灵活有效的支持电信企业的经营信息分析。 此次研究主要涉及到分布式数据仓库中抽取调度、数据一致性、视图一致 性的问题。其背景基于中国网通南方2l 省分布式数据仓库的构建。根据对中 国联通总部一一省份这种模式下的分布式数据仓库的研究,指出其中的不足, 并且提出自己的观点看法和解决方案。本次研究,既考虑到分布式系统所具备 的模块性( 不会因为模块的增减影响到调度算法) ,又考虑到分布式数据仓库的 并行性( 尽最大可能让整个系统并行进行) ,并且采用全局一局部调度的方案, 整个调度方案很好的贯彻了w i l l i a mi i 1 1 1 2 0 1 1 提出的典型的分布式数据仓库系统 的思想。 1 2 论文工作及主要成果 作者在三年的数据仓库设计和实施过程中,积累了大量的数据仓库相关理 论和实践的经验。参与了中国联通统一经营分析系统、北京移动决策支持系统、 辽宁电信经营分析系统的建设。在系统建设的初期,主要面对的是集中式的数 据仓库系统建设,随着运营商在全国各个省分经营分析系统的建成,由总部到 省分的分布式数据仓库系统逐渐形成,在整个分布式数据仓库的建设过程中, 作者碰到了很多问题,为了更好设计和实现经营分析系统( 分布式数据仓库) , 充分利用分布式数据仓库带来的好处,作者做了以下相关工作: ( 1 ) 认真学习和研究数据仓库基础理论和相关知识,总结了在实际数据仓库 建设的实施经验。结合学习成果,分析和总结了实际数据仓库实施中存在的问 题。 ( 2 ) 认真学习和研究分布式数据仓库以及分布式的相关理论和知识,总结了 现阶段分布式数据仓库建设实旋过程中存在的问题,提出了自己的设想,并在 实验环境下实现部分功能。 ( 3 ) 研究和探讨了各种基于各种模式下的分布式数据仓库调度算法的设计, 并提出了基于m v c 设计模式下的分布式数据仓库的调度,提出了几种设计方 北京邮电大学硕士研究生论文 第2 页共4 9 页 分布式数据仓库中数据调度机制的研究与设计 案,对比各个方案的优缺点,并给出最终的设计方案。 ( 4 ) 研究了数据一致性和视图一致性维护的问题,并提出了相应的算法。 ( 5 ) 参与了中国联通统一经营分析系统( 天津、黑龙江、福建、广东) 的系统 建设,负责部分经营分析系统的集中式数据仓库调度的设计和实现。参与了北 京移动决策支持系统的系统建设,负责辽宁电信数据仓库项目的建设。 本文所取得的成果主要包括: ( 1 ) 结合数据仓库的基本理论和3 年数据仓库建设中实施经验,分析和总结 了作者在数据仓库建设中存在的问题,为以后集中式数据仓库的建设提供一定 意义上的参考。 ( 2 ) 研究和分析了目前分布式数据仓库中数据调度的现状,总结了正常e t l 调度中存在的问题,进一步整理目前分布式数据仓库建设中正常e t l 调度的需 求,通过对需求的分析,提出了分布式数据仓库调度的设计思想,对基于m v c 设计模式下分布式数据仓库调度进行了详细的设计和部分实现,为分布式数据 仓库建设中e t l 调度模块的设计提供了参考。 ( 3 ) 研究和分析了目前分布式数据仓库一致性维护的几种需求,并根据目前 的环境和情况,针对分布式数据仓库建设中无冗余的数据一致性维护算法进行 了分析,研究了s t r o b e 算法,对满足强一致性的分布式数据仓库的一致性维 护提出相应的算法,为分布式数据仓库建设中数据一致性维护模块的设计提供 了参考。 ( 4 ) 总结和分析了论文工作的成果,并指出了论文中存在的问题,指明了下 一步工作的方向,为下一步研究提供了指导。 1 。3 论文结构 本文主要分为五个部分: 第一章绪论 主要介绍了论文的背景,作者论文工作的内容以及主要成果。 第二章电信业分布式数据仓库的概述 本章介绍了数据仓库的基础理论知识,以中国联通构建集中式数据仓库为 背景( 中国联通统一经营分析系统各省分系统) 剖析了电信业集中式数据仓库 的总体架构,归纳总结出构建集中式数据仓库的特点。接下来以中国联通统一 北京邮电大学硕士研究生论文第3 页共4 9 页 分布式数据仓库中数据调度机制的研究与设计 经营分析系统全国集中为背景,结合即将实施的中国网通南方2 1 省经分的实施 现状,分析研究并提出了电信业分布式数据仓库的系统架构。介绍了构建电信 分布式数据仓库的背景,阐述了该系统构建的必要性,并且根据系统现状提出 了省分局部数据仓库和总部全局数据仓库构成的电信分布式数据仓库系统架 构。最后从位置分散和功能分散两个视角剖析了该系统的体系架构,并归纳总 结了其特点。 第三章基于m v c 设计模式的分布式数据仓库调度 在分析现有分布式数据仓库调度需求的情况下,提出了基于m v c 模式下 的分布式数据仓库的调度。本章首先研究了目前分布式数据仓库调度模块建设 的现状,并在此基础上整理了分布式数据仓库调度的需求,接下来研究了设计 模式的各个要素,并在众多的设计模式中选取了适合分布式数据仓库调度设计 的m v c 模式。接下来阐述了m v c 设计模式的思想以及在分布式数据仓库调度 中基于m - v c 模式哦可行性,然后提出了基于m v c 模式下分布式数据仓库调度 设计思想,最后,对其主要模块和内外部接口进行了设计与实现。 第四章分布式数据仓库一致性维护 提出了基于s t r o b e 算法的数据一致性更新调度算法。本章首先分析了分 布式数据仓库一致性维护的几种情况,并根据目前状况分析了无冗余的分布式 数据仓库数据一致性维护的需求,接下来研究了视图一致性级别,并根据经验 和实际情况提出分布式数据仓库所需要满足的一致性级别,接下来对s t o r b e 算法进行了阐述和分析,最后对其主要模块和内外部接口进行了设计和实现, 并对最终结果进行了分析。 第五章结束语 对整个论文的研究和实践工作进行总结,进一步提出下一步研究工作的重 点,并对实际工作中可能存在的问题提出设想。 北京邮电大学硕士研究生论文 第4 页共4 9 页 分布式数据仓库中数据调度机制的研究与设计 第二章电信业数据仓库概述 2 1 数据仓库的概念 2 1 1 数据仓库的概念及其定义 数据仓库的提出是以关系数据库、并行处理和分布式等技术的飞速发展为 基础,用以解决当前实际中拥有海量数据,但是缺乏统一信息管理的一种综合 解决方案,顾名思义,数据仓库就是用来存储数据的仓库,在存放这海量数据 的同时又能象仓库一样有效的管理起来,主要侧重于海量数据的组织管理,结 合部分分析工具,提供有效的数据访问。 从数据仓库的概念出现以来,不同的专家学者从不同的方面为数据仓库下 了不同的定义: i n f o r m i x 公司负责研究与开发的公司副总裁t i ms h e l t e r 定义数据仓库为: 数据仓库讲分布在企业网络中不同信息岛中的业务数据集成在一起,存储 在一个单一的集成的数据库中,利用这种集成信息,可方便用户对信息的 访问,可使决策人员对一段时期内的历史数据进行分析,研究事务发展的 走势。 s i l b e r s c h a r z 发表的数据库研究:面向2 1 世纪的机遇与成就中把数据仓 库定义为:来自一个或多个数据库中的数据库拷贝。 现在业内普遍认同的数据仓库的定义是拥有“数据仓库之父,之称的w i l l i a m i n m o n 博士在2 0 世纪9 0 年代提出的:数据仓库( d a t aw a r e h o u s e ) 是一个 面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定( n o n v o l a t i l e ) 、 随着时间变化的( t i m ev a r i a n t ) 的数据集合,用于支持管理决策制定过程。 对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于 支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其 次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重 组,并包含大量的历史数据,而且存放在数据仓库中的数据一般不再修改。 北京邮电大学硕士研究生论文第5 页共4 9 页 分布式数据仓库中数据调度机制的研究与设计 2 1 2 数据仓库的特点 根据w i l l i a m i n m o n 博士对数据仓库定义的含义,数据仓库拥有以下四个特 点,它们也是数据仓库与传统操作型信息系统的主要区别: 面向主题的: 主题是在一个较高层次上将数据进行综合、归类并进行分析利用的抽象。 面向主题的数据组织方式,就是在较高层次上对分析对象的数据的完整、一致 的描述,能统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间 的关系。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自 分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的 概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与 多个操作型信息系统相关。例如电信业务支撑系统中的操作型信息系统有营业 系统、帐务系统、结算系统、客服等系统,而数据仓库中包含的主题会是业务 收入、业务发展、业务使用等内容,业务收入主题涉及营业系统中的客户信息、 帐务系统和结算系统中业务收入信息。 集成的: 由于各种原因,数据仓库的每个主题所对应的数据源在原有的分散数据库 中通常会有许多重复和不一致的地方,而且不同联机系统的数据都和不同的应 用逻辑绑定,所以数据在进入数据仓库之前必须统一和综合,这一步是数据仓 库建设中最关键、最复杂的一步,面向事务处理的操作型数据库通常与某些特 定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数 据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整 理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整 个企业的一致的全局信息。 相对稳定的: 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。而数 据仓库的数据主要供企业决策分析之用,其数据反映的是一段相当长的时间内 历史数据的内容,所涉及的数据操作主要是数据查询,一旦某个数据进入数据 仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操 作,数据不做修改操作。 随时间变化的: 数据仓库系统必须不断捕捉o l t p 数据库中变化的数据,并在经过统一集 北京邮电大学硕士研究生论文第6 页共4 9 页 分布式数据仓库中数据调度机制的研究与设计 成后装载到数据仓库中。同时,数据仓库中的数据也有存储期艰,会随时间变 化不断删去旧的数据,只是其数据时限远比操作型环境的要长,比如根据需要 可保存1 0 年内的历史数据。 总之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型 的物理实现,并存放企业战略决策所需要的信息,数据仓库也常被看作一种体 系结构,通过将异种数据源中的数据集中起来,支持结构化的专门查询、分析 报告和决策制定,因此数据仓库能够很好的支持决策支持系统和联机分析系统。 2 1 3 数据仓库的体系结构 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业 内部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和 各类文档数据。外部信息包括各类市场信息、竞争对手信息和各种手工收集的 信息等等。 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是 数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同 时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据 仓库的核心,则需要从数据仓库的技术特点具体需求着手分析。针对现有各业 务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库 按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库( 通常称为数 据集市) 。 o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织, 以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、 m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中: m o l a p 基本数据和聚合数据均存放于多维数据库中;h o l a p 基本数据存放于 r d b m s 之中,聚合数据存放于多维数据库中。 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘 工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主 要针对o l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库。 2 2 分布式数据仓库的概念 北京邮电大学硕士研究生论文第7 页共4 9 页 分布式数据仓库中数据调度机制的研究与设计 2 2 1 分布式数据仓库的定义 数据仓库环境有单一中央集成和分布式两种类型。随着企业应用的发展和 数据仓库技术的发展,在某些特定得场合建立分布式数据仓库环境可能更能满 足需求,获取更高得经济效益。但在分布式数据仓库环境下,数据范围的界定, 协调,数据模型,元数据,局部映射,数据传输,数据访问,数据调度等技术 问题都比较复杂,目前这一领域得研究还相对较少,基本处于起步阶段。 w i l l i a m i l l f n o r l 在文献( 1 ) 中论述了分布式数据仓库,他所描述的典型形 式存在着局部数据仓库与全局数据仓库之间数据冗余,全局数据存储不明等问 题,与分布式系统有着较大的区别。 2 2 2 分布式数据仓库的特点 图2 - 1 分布式数据爸库的开发方法 根据w i l l i a m i n r l l o n 在文献 1 1c 9 提出了分布式数据仓库应该具有以下几个特点: 模块性 分布式数据仓库中的节点仓库形成相对独立的模块,通过互联网络的联系, 多个节点仓库构成单一的系统,模块在一定范围内增减,替换都不至于影响分 布式数据仓库的整体性,这一点和w i l l i a m i i - 1 l l o 1 博士提出的分布式数据仓库的 模型是一样的。 并行性 分布在不同节点的节点仓库可以并行解决同一个事情,实现全局的决策, 实现时间的重叠和资源的重复等不同的形式的并行性。 自治性 分布式数据仓库的节点是高度自治的,节点之间不存在主辅关系,也就是 北京邮电大学硕士研究生论文第8 页共4 9 页 分布式数据仓库中数据调度机制的研究与设计 说各节点仓库是对等的,尽量减少节点间的数据通信量,这体现了分布式系统 的特点一任务分配。 2 2 3 分布式数据仓库的体系结构 图2 - 2 分布式数据仓库组织结构图 局部数据节点: 分布式数据仓库的一个组成部分是局部数据仓库。局部数据仓库仅包含对局 部层有意义的数据。局部数据仓库除了存储的数据是局部的外,具有其他任何 数据仓库的相同功能。即,局部数据仓库包含的是在局部站点上的历史的和集 成的数据。局部仓库间的数据或数据结构不必要协调一致。比如,我们可以为 分公司a 和分公司b 各自建立一个局部数据仓库,他们可以自主的采用不同的 实现技术,两个局部数据仓库只包含自己分公司的数据,不会出现数据重叠的 情况。 全局数据仓库: 全局数据仓库的范围涉及整个企业或组织。它内部的每个局部数据仓库也 都有各自服务的局部站点范围,全局数据仓库的范围是该企业。从图粤一3 可以 看到,全局数据仓库的数据除了从局部数据仓库中抽取之外,还可以从总部的 业务数据中抽取。 全局数据仓库中包含的是企业内部公共的和集成的数据。由于各局部数据 仓库的结构不尽相同,所以分布式数据仓库环境成功的关键就是如何将局部操 作型系统中的数据映射到全局数据仓库中的数据结构。这种映射决定被集成到 北京邮电大学硕士研究生论文第9 页共4 9 页 分布式数据仓库中数据调度机制的研究与设计 全局数据仓库的数据、数据的结构以及数据的转换等。通常,总部可以建立一 个全局数据仓库的数据结构规范,各局部数据仓库向全局数据仓库传送数据之 前,先按照总部统一的规范做数据转换,这样就在全局数据仓库中屏蔽了局部 数据仓库的异构性。 2 3 电信业分布式数据仓库的现状及特点 2 3 1 电信业分布式数据仓库的特点 分散性: 所谓分散性不仅指数据在物理上分散存储在多个地点,而且强调了不可重 叠数据内容,也就是分散的( d e c e n t r a l i z e d ) 。 从数据存储的这个视角看来,中国电信以地市为运营的模式,使得其业务 生产系统位于各个地市中心,而这些业务数据恰恰是数据仓库的数据源,这就 形成了数据源分散的局面,从而可以在地市中心建立起单元数据仓库,仅存储 包含对该地市有意义的数据。换句话说,这种地市级的数据仓库包含的是在各 个地市的历史的和集成的数据。 从数据内容的角度来看,由于电信业务种类繁多和各个地市的独具特色, 每个地市中心开展的业务类型是不同的,在数据类型和编码上,就决定了数据 的不可重复性。比如,一个具有地方特色的业务,在地市a 开展了,而地市b 没有这个需求,就不会存在这样的业务数据,所以这也就构成了数据的分散性。 异构性: 所谓异构性主要是指单元数据仓库的数据结构和数据模型是不同的,存储 数据的数据库的类型不同、数据区提供的接口不同,也就是异构的 ( h e t e r o g e n e o u s ) 。 由于存在业务类型不同、建设机制和历史遗留等问题,地市中心的业务生 产系统集成商对业务模式、业务流程及其管理体制和经营体制的理解存在偏差, 从而使得业务生产系统的数据模型、系统结构和系统配置原本就是异构的。在 这种前提条件下,如果在省中心建立一个统一集中的数据仓库,一方面需要搜 集、传递、整合各个地市操作型的业务数据,针对地市中心不同的业务生产系 统建立一个统一的数据模型来提供各地市的本地化要求,另一方面业务的扩展 北京邮电大学硕士研究生论文第1 0 页共4 9 页 分布式数据仓库中数据调度机制的研究与设计 使得本地化的需求不断变化,仅依靠该模型是难以实现的。而电信业务的数据 是海量的,即便建立起了一个省中心的集中型数据仓库,但是当地市人员进行 业务分析时,仍旧需要从省中心获取该地市的分析数据。因而产生了这样的现 状:在地市中心针对各个地市的需求、各自的业务特点,不同的生产业务模型 而建立单元数据仓库。 独立性: 所谓独立性是指各个数据仓库之间可以不存在信息共享,在数据的构成、 数据仓库的管理及运作等方面是自治的( a u t o n o m o u s ) 。 在电信业务的种类繁多,每个地市开展的业务类型肯定是存在差异的,从 而其数据特征具有分散性。与此同时,以地市为单位的建设模式使得地市中心 在运营和管理上具备较强的自主性。这样以来,在地市中心建立的单元数据仓 库的范围只涉及到各自服务的地市中心,其数据源原本就具有独立性,这就可 能因为地域业务类型的不同而不存在信息共享,是独立性一个方面的表现。伴 随着在省分公司集中构建运营支撑系统的实施,以及省分管理模式的加强,从 数据仓库的搭建、管理和运行角度来看,各省分公司构建的局部数据仓库也是 相互独立运行的数据仓库。 层次性: 所谓层次性是指系统的整个体系结构是多层的,而且数据仓库的构建也逐 步实现的,也就是层次化的( h i e r a r c h i c a l ) 。 电信分布式数据仓库的层次性从如下几个方面体现出来。 体系结构。由于企业经营架构分为集团总部、省分公司和地市中心三层, 所以整个电信分布式数据仓库的架构也是围绕着电信企业的经营架构提出的, 分为地市的单元数据区,省中心的局部数据仓库和总部的全局数据仓库。 数据存储。数据的粒度是从地市级的最低粒度的细节数据,再到省级的轻 度汇总数据,最后构成企业最高粒度的数据,这样层层存放的。 数据抽取。为了获取不同范围内的数据,抽取功能也是逐步实现的,在地 市中心单元数据区实现对地市用户标识的数据进行汇总,在省分实现对地市级 数据的汇总,在全局区实现对整个企业业务层面上的数据汇总。 联邦性: i 所谓联邦性是指数据仓库的信息模型的设计不仅将一定程度上集成了异构 的数据源,而且还会将单元数据仓库中的数据映射到的集中的数据模型中,也 北京邮电大学硕士研究生论文第1 1 页共4 9 页 分布式数据仓库中数据调度机制的研究与设计 就具有了联邦性( f e d e r a t i v e ) 。 电信分布式数据仓库的联邦性可以从两个视角看出。一方面,地市中心的 单元数据仓库从生产系统获取业务数据时,需要将异构的数据源的数据进行整 合,按照本地化的分析需求组织,映射到数据模型中;另一方面,省分的局部 数据仓库中也体现出来联邦性,局部数据仓库不仅将整合集成各个单元数据仓 库的数据模型,它还将完成从单元数据仓库到局部数据仓库的数据映射。 综上,分散性、异构性、独立性、层次性和联邦性都在电信分布式数据仓 库系统的不同组成部分中得到了体现。整个系统集成了业务生产系统异构的数 据源,提供了统一的商业元素、度量和维度,构建了一个统一的平台来提供功 能分析的基础和环境,便于企业在异构环境下开展业务分析和决策支持。 2 3 2 电信业分布式数据仓库建设现状 在信息产业飞速发展的新时期,作为成长型的企业,要想成功实践中国通 信企业“做大、做强”的可持续发展战略,就必须在激烈和复杂的市场环境下 提升企业核心竞争力、建立高质高效的企业共享信息服务支撑体系、加强企业 内控、进行精细化管理,迅速应对市场变化。同时,各个运营商上市后,要求 及时、准确、一致的信息披露。通过对数据的智能化加工和处理,为企业经营 决策提供一致、及时、准确、可共享的信息,逐步建立基于分析的企业运营管 理体系,支持企业核心竞争力的提升,这些迫切的要求使得经营分析的全国集 中实旆迫在眉睫。 目前中国联通统一经营分析系统已经实现由省分的经营分析系统向联通总 部统一经营分析系统的集中。实现了w i l l i a m i l l o - o n 博士提出的分布式数据 仓库的体系结构。 中国移动各省分的集中式数据仓库的建设已经完毕,为了支持移动总部决策 的提出和推出,目前正在进行决策支持系统的全国集中。 为解决目前决策分析系统存在的问题、改善缺乏统一规划的局面和更准确的 了解企业的经营状况,提高管理水平,中国网通集团( 0 5 年到0 7 年) i t 整 体规划要求统一规划、规范管理决策系统建设,并组织制定“中国网通企 业级决策分析系统实施指导意见”,提出了中国网通企业级决策分析系统建 设的近、中、远期目标,明确了网通集团决策分析系统将按照集团级、省级 两级模式建设、集团级决策分析系统代管南方二十一省级决策分析系统、北 北京邮电大学硕士研究生论文 第1 2 页共4 9 页 分布式数据仓库中数据调度机制的研究与设计 方各省建立省级决策分析系统的建设思路。 图2 - 3 中国网通企业级决策分析系统系统建设模式 在电信业分布式数据仓库建设过程中,完全按照w i l l i a m i n l l l o n 教授提出的 流程进行设计和实施:先在各个省分实现局部数据节点的建设,节点仓库建设 完毕后定义全局数据模型,然后完成全局数据仓库的建设。由于前瞻性和设计 思路的缺陷,以致在分布式数据仓库建设完成后,发现了很多问题。 e t l 调度 整个分布式数据仓库的调度在设计阶段就被严格定义。:由于算法简单,全 局数据仓库更新的数据是局部数据节点2 天前的数据,实时性太差。由于流程 i灵活度不够,以致在数据源情况发生变化时( 迟传,重传,新增,删除) ,整个 系统的调度必须手工维护,成本过高。 系统一致性维护 目前整个系统的一致性维护基本由手工完成,当局部数据节点数据发生非 正常变化时( 例如:错单数据的重新抽取,迟传话单数据的重新抽取等) ,为了 保持局部数据节点和全局数据仓库数据的一致性,必须通过人工干预的形式完 成。目前系统一致性维护存在很多问题:灵活性,自动性太差,导致后期成本 过高。 系统查询机制 现有前端展现工具集成了报表、o l a p 等多种功能,但在数据查询方面却 。存在许多不足: 。 1 ) 没有就即席查询这一特定功能而设计,查询功能是在定义好的报表基础 上实现的,这样灵活性太差,不能满足灵活多变的报表需求。 北京邮电大学硕士研究生论文第1 3 页共4 9 页 分布式数据仓库中数据调度机制的研究与设计 2 ) 针对集中式数据仓库而设计,没有考虑到分布式数据仓库的特点,对电 信业分布式数据仓库建设中存在的问题没有相应得解决方案。 3 ) 兼顾了多种行业的应用,没有考虑到电信数据分散、数据量大等特征, 响应时间过慢,不利于分析查询的进行。 4 ) 大都价格昂贵,一般采用国外的报表工具,价格不菲、缺乏针对性。 数据冗余机制 现阶段电信业分布式数据仓库的建设中没有充分考虑到数据冗余的问题, 部分数据仓库是因为海量数据导致全局数据仓库的空间问题而没有冗余机制, 导致全局数据仓库与局部数据节点间的频繁交互,部分数据仓库采用全部冗余 的方式,由于投资成本的问题,数据冗余的时间非常短,并不能真正解决当前 存在的问题。 。 2 4 小结 根据对数据仓库,分布式数据仓库的理解和现阶段电信业分布式数据仓库 的现状认识,在系统调度和一致性维护方面存在的问题,严重影响到分布式数 据仓库的建设。如何解决分布式数据仓库系统调度所存在的问题,让整个调度 更加灵活,实时;如何让系统一致性维护更加自动化,是我们所要关注的焦点, 也是建设好完善的分布式数据仓库系统所要解决的难题。本文的以下章节就对 分布式数据仓库的调度和一致性维护两个方面进行探讨和研究,并给出一个初 步的建设方案。 北京邮电大学硕士研究生论文第1 4 页共4 9 页 分布式数据仓库中数据调度机制的研究与设计 第三章基于m v c 设计模式的分布式数据仓库调度 3 1 电信业分布式数据仓库调度现状分析 3 1 1 集中式数据仓库调度现状分析 相对分布式数据仓库而言,在集中式数据仓库中,数据源相对简单,规则 之间的关系并不复杂,一般采用某种单一的算法进行规则调度。目前,我们在 联通省分的统一经营分析系统( 集中式数据仓库) 建设中,就是采用的这种方 法,在程序,我们便根据对业务的理解、规则之间的关系等,限定了规则之间 的调度顺序,这样算法相对简单,易于编成实现。 整个调度分为e t l l 调度和e t l 2 调度: ( 1 ) e t l l 的调度分为抽取规则的启动和不同抽取规则之间的调度两部分。 规则启动是通过编写一个s h e l l 程序,不断扫描e t l l 抽取目录,如果有文件到 达,则调用抽取工具提供的调度命令启动相应的抽取规则;不同规则之间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论