




已阅读5页,还剩82页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库中olap的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
舫嫩学附僦文a 7 咖 摘要 一、f 数据仓库技术从w h i n m o n 提出以来,到现在,在各行各业 的淤策支持系统和统计分析系统中,已经得到了广泛的应用。数 据仓库的优点是,它能够将企业传统的操作型环境与分析型环境 分开,能够方便企业在全局范围内对信息进行分析,同时也能够 满足许多复杂的分析应用。 由于建立数据仓库能够带来巨大的经济效益所以数据仓库 技术不论在研究上,还是在应用上都已成为一大热点。各大数扼 库厂商,以及一些公司都提出了各自的数据仓库解决方案。同 时,国内、外的一些研究机构也在对数据仓库中的一些关键技术 进行深入的研究。 虽然数据仓库技术已日渐成熟,但构造数据仓库是一项复 杂,而又与实际结合非常紧密的工作。所以许多学者仍在对其进 行孜孜不倦的研究。目前,学术界对数据仓库的探讨主要集守在 数据仓库的建立、o l a p 、立方体的维护以及数据挖掘上河 本文结合铁路货运数据仓库系统的开发对数据仓库时相关技 术进行了讨论,重点研究了数据仓库的0 l a p 工具。 根据系统需要,我们实现了基于关系数据库的r o l a p 子系 统。首先,我们研究并实现了r o l a p 的基本算法,包括卷取、 钻取、切片、切块、旋转等算法,同时由于在本地实现了部分数 据库管理系统的功能,因此也简要讨论了涉及到的相关算法。其 次,为了提高r o l a p 的查询性能,一方面,我们改进了原有的 索引技术,提出了一种更快的索引结构一自适应树,并讨论了其 算法复杂度:另一方面,提出了子立方体的概念并实现了相关算 法如予立方体的物化算法,性能优化选择算法、简单维护算法 等。第三,研究并讨论了基于w e b 的o l a p 的实现,包括客户 端与服务器端的通信机制。 除了实现了基于关系数据库的o l a p 子系统,我们还对基于 多维数据库的m o l a p 进行了有益的探索。这罩,我们主要进行 了以下一些内容的实验:首先,实现了多维数组为基础的视图。 其次,讨论了o l a p 的基本操作在这一结构上的实现并给出了相 应算法。第三,提出了一种新的多维数组的压缩算法,并结合已 实现的r o l a p 子系统讨论了从关系数据库中得到的数据集向压 缩多维数组的转化。 在本文的最后,提出了今后要作的改进和研究内容。包括 r o l a p 的索引技术、o l a p 支持操作的扩展、基于多维数据库的 o l a p 、为数据挖掘提供接口、对分布式数掘库的支持等等。 北方交通大学碳十学仲沦文 关键词:数据仓库、。l a p 、r o l a p m o l a p , 予立穷一本、自适应树 f a b s t r a c t f r o mr i s eo f d a t aw a r e h o u s ec o n c e p tp r o p o s e db yw h i n m o n ,i t h a sa l r e a d yb e e nu s e di nt h ed e c i s i o ns u p p o r ts y s t e m sa n ds t a t i s t i c a l a n a l y s i sa p p l i c a t i o n s o fe v e r yw a l ko fl i f e h i g h r e s p o n s e o f i n v e s t i g a t i o nw a sg o tt h r o u g ht h eu s eo ft h i st e c h n o l o g y t h em a i n a d v a n t a g e so f ad a t aw a r e h o u s ea r et h a t i tc o u l ds e p a r a t et h e t r a d i t i o n a lo p e r a t i o n a le n v i r o n m e n tw i t ht h ea n a l y s e se n v i r o n m e n t , a n di tm a k e si tp o s s i b l ef o ra n a l y z e rt od oa n a l y s e so nt h eb a s eo f c o m p r e h e n s i v ei n f o r m a t i o nf r o mt h ew h o l eo r g a n i z a t i o n ,a n di t a l s o c o u l ds u p p o r ts o m ec o m p l i c a t e da n a l y s e sa p p l i c a t i o n s d a t aw a r e h o u s i n gh a sb e e nah i tb o t hi nr e s e a r c ha n di n a p p l i c a t i o n s ,b e c a u s ei tc a nm a k eg r e a te c o n o m i cb e n e f i t sf o rt h eo n e w h ou s e si t m a n yd a t a b a s ev e n d o r sh a v ec o m eu pw i t ht h e i rs o l u t i o n s f o rd a t aw a r e h o u s i n g a l s ot h e r ea l em a n yi n s t i t u t e s ,w h i c ha r e e n g a g e di nt h er e s e a r c ho fk e yt e c h n o l o g i e so f d a t aw a r e h o u s i n g t h e r ea r em a n ya v a i l a b l et e c h n o l o g i e sf o rd a t aw a r e h o u s i n g b u t b u i l d i n gad a t aw a r e h o u s ei sac o m p l i c a t e dw o r kt h a td e p e n d sm u c h o na c t u a lc o n d i t i o n s ot h e r ea r es t i l lm a n yr e s e a r c h e r sw h oa r ed o i n g r e s e a r c ho nd a t aw a r e h o u s i n g a tp r e s e n t ,t h er e s e a r c ho nt e c h n o l o g i e s o f d a t aw a r e h o u s ei sm a i n l yf o c u s e do nd a t am i n i n g ,b u i l d i n ga n d m a i n t e n a n c eo f d a t aw a r e h o u s e ,0 l a pa n ds oo n i nt h i sp a p e r w ed i s c u s sd a t aw a r e h o u s ea n ds o m er e l a t e d t e c h n o l o g i e s e s p e c i a l l y0 l a p w ed e v e l o pr o l a ps u b s y s t e mo fr a i l r o a dt i c k e td a t a w a r e h o u s e d u r i n gr & dp r o c e d u r e f i r s t w es t u d ya n dd e v e l o pa 1 1o f b a s i ca l g o r i t h m sf o rr o l a p ,s u c ha sr o l lu po p e r a t i o na l g o r i t h m ,d r i l l d o w na l g o r i t h ma n ds oo n i nt h em e a n w h i l e ,w ea l s od i s c u s ss o m e d b m sa l g o r i t h m su s e di no u rr o l a p s e c o n d ,i no r d e rt 0i m p r o v e p e r f o f i n a n c eo fr o l a p w ep u tu pw i t han e wi n d e xs t r u c t u r ef o r f a s t e rs e a r c h i n ga n dd i s c u s si t sc o m p l e x i t y a n o t h e r 、w ea l s op r o p o s ea n e wc o n c e p tc a l l e ds u b c u b ea n di t sr e s p o n d i n ga l g o r i t h m ss u c ha s s u b c u b em a t e r i a l i z a t i o na l g o r i t h m ,p e r f o r m a n c eo p t i m i z i n ga l g o r i t h m a n ds oo nf o rm a k i n gf u i lu s eo fq u e r yr e s u l ta n ds h o r t i n gn e wq u e r y r e s p o n d i n gt i m e t h i r d 。w ed i s c u s st h er e a l i z a t i o no fo l a pi nt h e w e b e s p e c i a l l yc o m m u n i c a t i o nt e c h n o l o g yb e t w e e nb r o u 7 s e ra n d s e r v e r 第一章结论 第一章绪论 1 1 数据仓库的产生背景 进入2 0 世纪9 0 年代,计算机得到空前广泛的应用,使得企 业的生产效率进一步提高,商业竞争也越来越激烈了。一个企业 要想在市场上生存下去,不仅要建立完善的计算机管理信息系统 来提高效率,而且要先子对手获得至关重要的决策信息。这样, 企业才能在未来的竞争中适应潮流、把握正确的发展方向。企业 对迅速而准确地获得决策信息的需求比以前大大增强了。对企业 来说,决策支持系统已不是可有可无的东西,企业需要实用而且 成本低廉的决策支持系统。 同时在这一时期,计算机及其网络技术的应用更为广泛,企 业管理信息系统逐渐由以内部管理为主转变为对整个供应链的 管理。企业之间的商务活动也从以前简单的电子数据传输转变为 全方位的合作,电子商务蓬勃兴起。企业之间的相互合作不仅可 以提高企业的生产效率、降低生产成本,也为企业获取大量的外 部数据带来了方便。这就为决策支持分析奠定了基础。另外,由 于数据库技术的发展和日益成熟,决策支持分析工具也渐渐丰富 起来。 经过摸索,人们最终体会到,问题的关键是要获得制定业务 决策所必须的对整个企业的综合的和集成的视图,要对外部经营 环境进行定量分析,如客户信息分析、市场分析。对企业多年积 累下来的数据进行汇总整理,提取有价值的关键信息,这要求在 更大范围内达到信息的一致。这些是旨在提高企业日常工作效率 的传统数据库技术所无法解决的。在实践中,人们丌发了些行 之有效的机制,它们被称为数据仓库。 企业的需求和技术的成熟最终导致了数掘仓库的产生。数据 仓库作为决策支持系统的一种有效、可行的体系化解决方案,包 括了三个方面的内容:数据仓库技术( d w ) 、联机分析处理技术 ( 0 l a p ) 、数据挖掘技术( d m ) 。 数据仓库的建立可使企业的信息环境划分为两大部分:操作 型环境和分析型环境。操作型环境负责数据的同常操作型应用, 当数据在操作型环境中不再使用时,若它对分析有用,就将其归 第一章绪论 到数据仓库中。数据仓库存储旧的、历史数据,用于分析型应用。 在分析型环境中,数据很少变动,因而数据仓库没有日常的增、 删、改等操作,只有存取和装入操作,专用于各种复杂分析,为 高层决策者服务。 1 2 数据仓库的体系结构 普遍认为数据仓库系统能够改善最终用户查询、报表生成和 d s s 能力,但其组织形式较为复杂,我们首先简要介绍其总体结 构。数据仓库的技术体系结构如下图: 一r t _ t 。 = 一“ 匕 一+ l 上j i t * * o 下 m * * * 入一 e i m # 口自h * l ; 图i 1 设计模块:用于设计数据仓库,定义元数据。 数据获取模块:用于从操作型数据库中获取数据,并进行 清洁、集成、转化,然后将它们加到数据仓库的事实表中。 管理模块:用于管理数据仓库的运行。 信息目录模块:提供有关数据仓库中的元数据及其含义信 息。 数据访问模块:用于为企业的最终用户提供访问和分析数 据仓库数据的工具。 数据传递模块:用于向其他数据仓库和外部系统中提供数 据仓库中的数据。 2 玛 一 一 垦一 筇一岢绪论 1 3 国内外数据仓库的应用与发展。 o l a p 和数据挖掘技术的不断成熟,为数据仓库应用市场的丌 拓打下了良好的基础。在欧荚发达国家,以数据仓库为基础的在 线分析处理和数据挖掘首先在金融、保险、证券、电信等传统数 据密集型行业取得成功。近年来随着电子商务和因特网的发展, 各大数据仓库产品提供商纷纷把目光投向电子商务市场,并且通 过数据仓库技术来构造商业智能( b i ) 平台。数据仓库技术在政府 税收部门的应用带来的效益也非常可观,例如,澳大利亚政府税 收部门将数据仓库技术用于支持税收业务,系统经过3 年的运行, 投入回报率达到1 :1 5 。 在国内,经过多年的数据库应用,金融、保险、电信等传统 数据密集型企业积累了大量的数据,为数据仓库打下了基础。加 入w t o 以后,国内的企业将面临更为严峻的竞争,从而迫使企业 的决策者改变旧的经营习惯,通过科学的决策手段来降低经营风 险,创造更高的利润。另外,电子商务的迅猛发展,要求商家为 用户提供更优质的服务,这必将促进数据仓库应用的发展。目前, 一些大型企业相继实施了数据仓库计划,涌现出了一些成功的数 据仓库应用范例。 从数据仓库的概念提出至今,数据仓库技术已经相对成熟。 众多公司都推出了自己的数据仓库解决方案。例如i b m 、o r a c e 、 s y b a s e “、c a 、n c r 、i n f o r m i x ”1 、m i c r o s o f t 和s a s ”“等知名公司。 另外,b o “1 和b r i o 等专业软件公司也在前端在线分析处理工具市 场上占有一席之地。下面针对这些数据仓库解决方案的性能和特 点做分析和比较。 i b m 公司提供了一套基于可视数据仓库的商业智能( b i ) 解 决方案,包括:v i s u a lw a r e h o u s e ( v w ) 、e s s b a s e d b 2o l a ps e r v e r 5 0 、i b m d b 2u d b ,以及来自第三方的前端数据展现工具( 如b o ) 和数据挖掘工具( 如s a s ) 。其中,v w 是一个功能很强的集成环 境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、 转换、装载和调度。e s s b a s e d b 2o l a ps e r v e r 支持“维”的定 义和数据装载。e s s b a s e d b 2o l a ps e r y e r 不是r o l a p ( r e l a t j o n a o l a p ) 服务器,而是一个( r o l a p 和m o l a p ) 混合的h o l a p 服务 器,在e s s b a s e 完成数据装载后,数据存放在系统指定的d b 2u d b 数据库中。 筇一章绪论 严格说来,i b m 自己并没有提供完整的数据仓库解决方案, 该公司采取的是合作伙伴战略。例如,它的前端数据展现工具可 以是b u s i n e s so b j e c t s 的b o 、l o t u s 的a p p r o a c h 、c o g n o s 的 i m p r o m p t u 或i b m 的q u e r ym a n a g e m e n tf a c i l i t y ;多维分析工 具支持a r b o rs o f t w a r e 的e s s b a s e 和i b m ( 与a r b o r 联合开发) 的d b 2o l a p 服务器:统计分析工具采用s a s 系统。 o r a c l e 数据仓库解决方案主要包括o r a c l ee x p r e s s 和 o r a c l ed i s c o v e r e r 两个部分。o r a c l ee x p r e s s 由四个工具组成: o r a c l ee x p r e s ss e r v e r 是一个m o l a p ( 多维o l a p ) 服务器,它利 用多维模型,存储和管理多维数据库或多维高速缓存,同时也能 够访问多种关系数据库;o r a c l ee x p r e s sw e ba g e n t 通过c g i 或 w e b 插件支持基于w e b 的动态多维数据展现;o r a c l ee x p r e s s o b j e c t s 前端数据分析工具( 目前仅支持w i n d o w s 平台) 提供了 图形化建模和假设分析功能,支持可视化开发和事件驱动编程技 术,提供了兼容v i s u a lb a s i c 语法的语言,支持o c x 和o l e ;o r a c e e x p r e s sa n a l y z e r 是通用的、面向最终用户的报告和分析工具( 目 前仅支持w i n d o w s 平台) 。o r a c l ed i s c o v e r e r 即席查询工具是 专门为最终用户设计的,分为最终用户版和管理员版。 在o r a c l e 数据仓库解决方案实施过程中,通常把汇总数据 存储在e x p r e s s 多维数据库中,而将详细数据存储在o r a c l e 关 系数据库中,当需要详细数据时,e x p r e s ss e r v e r 通过构造s 虬 语句访问关系数据库。但目前的e x p r e s s 还不够灵活,数据仓库 设计的一个变化往往导致数据库的重构。另外,目前的o r a c l e8 i 和e x p r e s s 之间集成度还不够高,o r a c l e8 i 和e x p r e s s 之间需 要复制元数据。如果o r a c l ed i s c o v e r e r ( 或b o ) 需要访问汇总 数据,则需要将汇总数据同时存放在o r a c e 和e x p r e s s 中,系 统维护比较困难。值得注意的是,刚刚问世的o r a c l e9 i 把o l a p 和数据挖掘作为重要特点。 s y b a s es y b a s e 提供的数据仓库解决方案称为w a r e h o u s e s t u d i 0 ,包括数据仓库的建模、数据抽取与转换、数据存储与管 理、元数据管理以及可视化数据分析等工具。其中,w a r e h o u s e a r c h i t e c t 是p o w e r d e s i g n e r 中的一个设计模块,它支持星形模 型、雪花模型和e r 模型;数据抽取与转换工具包括p o w e r s t a g e 、 r e p l i c a t i o ns e r v e r 、c a r e t o np a s s p o r t ,p o w e r s t a g e 是s y b a s e 提供的可视化数据迁移工具。 a d a p t i v es e r v e re n t e r p r i s e 是s y b a s e 企业级关系数据库, a d a p t i v es e r v e ri q 是s y b a s e 公司专为数据仓库设计的关系数 4 筇一章绪论 据库,它为高性能决策支持系统和数掘仓库的建立作了优化处 理,s y b a s ei q 支持各种流行的前端展现工具( 如c o g n o s i m p r o m p t u 、b u m n e s so b j e c t s 、b r i0q u e r y 等) ;数据分析与 展现工具包括p o w e r d i m e n s i o n s 、e n g l i s h w i z a r d 、i n f o m a k e r 、 p o w e r d y n a m o 等。p o w e r d i m e n s i o n s 是图形化的o l a p 分析工具, 它支持s 和多维缓存技术,能够集成异构的关系型数据仓库和 分布式数据集市,从而形成单一的、新型的多维模式。数据仓库 的维护与管理工具包括w a r e h o u s ec o n t r o lc e n t e r 、s y b a s e c e n t r a l 、d i s t r i b u t i o f ld i r e c t o r ,其中w a r e h o u s ec o n t r o l c e n t e r 是为数据仓库开发人员提供的元数据管理工具。 s y b a s e 提供了完整的数据仓库解决方案q u i c ks t a r t d a t a m a r t ,具有良好的性能,并支持第三方数据展现工具。从 q u i c ks t a r td a t a m a r t 的名称不难看出,它尤其适合于数据集市 应用。另外,s y b a s e 可以提供面向电信、金融、保险、医疗保健 这4 个行业的客户关系管理( c r m ) 产品,在这4 个产品中,有 8 0 的功能是共性的,有2 0 的功能需要s y b a s e 与合作伙伴针 对不同需求共同开发。 i n f o r m i xi n f o r m i x 于1 9 9 8 和1 9 9 9 年相继收购了国际上 享有盛誉的数据仓库供应商r e db r i c ks y s t e m 和数据管理软件 供应商a r d e n t ,并提供了完整、集成的数据仓库解决方案。该解 决方案还包括个“快速启动”咨询服务,能够帮助用户快速完 成数据仓库或数据集市的开发。i n f o r m i x 产品能够集成 m i c r o s o f ti i s 或n e t s c a p ee n t e r p r i s e f a s t t r a c k 服务器,从 而支持基于w e b 的数据仓库应用。 i n f o r m i x 没有提供自己的报表和数据挖掘工具,但他们与 b r i o 和s a s 公司建立了战略联盟,并推出了“i n f o r m i x 商务智 能联盟计划”。该计划以i n f o r m i x 为主,结合b r i 0 的前端数据 分析和报表功能,以及s a s 的数据挖掘功能,形成了一个“b i 中 心”打包方案。 m i c r o s o f tm i c r o s o f t 将o l a p 功能集成到m ic r o s o f ts q i 。 s e r v e r7 0 中,提供可扩充的基于c o m 的o l a p 接口。它通过 系列服务程序支持数据仓库应用。数据传输服务d t s ( d a t a r r a n s f o r m a t i o ns e r v i c e s ) 提供数据输入输出和自动调度功能, 在数据传输过程中可以完成数据的验证、清洗和转换等操作,通 过与m i c r o s o f tr e p o s i t o r y 集成,共享有关的元数据:m i c r o s o l t r e p o s i t o r y 存储包括元数据在内的所有中白j 数据:s q ls e r v e r o l a ps e r v i c e s 支持在线分析处理;p i v o t l 、a b l es e r v i c e s 提供 第一章绍论 客户端o l a p 数掘访问功能,通过这一服务,丌发人员可以用v b 或其他语言开发用户前端数据展现程序,p iv o t t a b es e r v i c e s 还允许在本地客户机上存储数据。m m c ( m i c r o s o f tm a n a g e m e n t c o n s o l e ) 提供同程安排、存储管理、性能监测、报警和通知的 核心管理服务。m i c r o s o f to f f i c e2 0 0 0 套件中的a c c e s s 和e x c e l 可以作为数据展现工具,另外s q ls e r v e r 还支持第三方数据展 现工具。 b u s i n e s so b j e c t sb u s i h e s so b j e c t s ( b o ) 是集查询、 报表和o l a p 技术为一身的智能决策支持系统。它使用独特的“语 义层”技术和“动态微立方”技术来表示数据库中的多维数据, 具有较好的查询和报表功能,提供钻取( d r i l l ) 等多维分析技术, 支持多种数据库,同时它还支持基于w e b 浏览器的查询、报表和 分析决策。虽然b o 在不断增加新的功能,但从严格意义上说, b 0 只能算是一个前端工具。也许j 下因为如此,几乎所有的数据仓 库解决方案都把b o 作为可选的数据展现工具。 虽然国内有很多大学和研究机构从事数据仓库技术的研究, 但到目前为止,国内基本上没有成熟的数据仓库解决方案。 1 4 数据仓库的发展趋势n 1 随着各种计算机技术,如数据模型、数掘库技术和应用丌发 技术的不断进步,数据仓库技术也不断发展,并在实际应用中发 挥了巨大的作用。i d c 在1 9 9 6 年的一次对9 0 年代前期进行的6 2 个数据仓库项目的调查结果表明:进行数据仓库项目丌发的公司 在平均2 7 3 年的时间内获得了平均为3 2 1 的投资回报率。使用 数据仓库所产生的巨大效益同时又刺激了对数据仓库技术的需 求,数据仓库市场正以迅猛势头向前发展:一方面,数据仓库市 场需求量越来越大,每年约以4 0 0 的速度扩张:另一方面,数扼 仓库产品越来越成熟,生产数据仓库工具的厂家也越来越多。数 据仓库技术及市场将向以下方向发展: 1 、并行化和可扩展性 为提高数据仓库的性能和可扩展能力,数掘仓库已趋向并行 化。在硬件层次上,已越来越明显地采用多处理器并行结构。在 数据库层次上,许多数据库厂商已推出并行产品,以适应数据仓 6 筇一章绪沦 库市场的需要。 2 、集中化 数据仓库项目将越来越大,g a r t n e r g r o u p 预测:到2 0 0 0 年, 约有7 0 的集中化信息管理将依赖于数据仓库市场。 3 、数据仓库与i n t e r n e t n t r a n e t 的集成 随着i n t e r n e t i n t r a n e t 技术的广泛应用和发展,数据仓库 将i n t e r n e t n t r a n e t 进行很好的集成,即f j 台是w e b 服务器, 后台是数据仓库系统。 4 、数据挖掘工具的成熟和广泛使用 数据挖掘工具和人工智能将是以后5 年推动决策支持演变 过程的主要力量。 5 、通用数据库 数据仓库将支持多媒体、支持结构化和非结构化数掘,即向 通用数据库发展,具有面向对象的能力。 6 、数据仓库打包应用 数据仓库将集成一些工具和应用,打包推向用户。 1 5 铁路货运数据仓库的研究背景及意义 1 5 1 铁路货运数据仓库的研究背景“ 目前,铁路货运部门基本实现了全路微机制票,货票信息从 基层车站到分局、路局。最后集中存放在部计算中心的中央货票 库中。因为路内货票格式不统一,铁道部规定了货票传输的标准 格式,使得到达中央货票库中的货票信息有统一的格式,方便分 析处理和信息共享。 中央货票库当前的情况是一方面数据量极大,一方面是没能 很好的利用。每天进入库中货票信息十土:万批左右,多达数百兆 数据。目前已经积累起了海量的历史数据,这些数据函盖了铁路 货源、流向、运量各方面。这些数据不应该仅仅满足收入审核平 精密统计的同常需求,而且其中蕴涵的丰富信息可以成为铁道部 分析运营情况,制定长期计划的依据,更将为囡民经济的宏观决 策提供有力的支持。但是,由于历史原因,对中央货票库的丌发 利用仅仅停留在传统的操作型应用上,而将海量数据中蕴涵的:k 第一章绪论 贵信息资源束之高阁,这无疑是一种极大的浪费,也不符合建立 中央货票库的初衷。数据仓库无疑是解决以上问题的最好办法。 针对铁路货运的实际情况,围绕铁路决策感兴趣的主题从中央货 票库中抽取、集成数据,建立货运数据仓库。通过联机分析处理 工具实现对历史数据直观、高效、深入的分析,同时通过数据挖 掘工具从看似无序的数据中提取其内在联系和规则,从而为铁路 决策部门提供科学可靠的统计分析和决策计划支持。 1 5 2 铁路货运数据仓库的意义 随着我国铁路运输事业的迅速发展和t m i s 系统的全面投入 运行,铁路管理进入了一个崭新的时代。业务和管理人员逐步摆 脱了繁重的制表业务和数据处理,日常的运营、计划、财务与统 计等管理工作进一步规范化,许多业务得到了联机事务处理系统 的支持。 然而,面对当今竞争日趋激烈与瞬息万变的市场经济,各级 管理人员都需要面对不同层次的大量信息迅速作出抉择。这就要 求他们能够从大量复杂的业务数据中获取各自权限内的决策信 息,及时把握市场变化的脉搏,作出正确有效的判断和抉择。特 别是随着t m i s 的逐日运行,数据的堆积将越来越庞大,这种需 求就比以往任何时候都更加迫切。从各级决策者的角度来看,数 据处理的重点应该从传统的业务过程扩展到对业务数据的联机 分析处理( o l a p ) ,并从中得到面向各种管理主题的统计信息和 决策支持信息。 部统计中心承担着铁道部各种信息的统计与分析工作,尤其 与货运有关的统计与分析工作涉及的数据量大、统计条目繁多。 目前,统计部门使用的基础信息需要经过较长的延迟时间,并且 存在信息不全等问题,因而统计工作的准确性、实时性和灵活性 受到一定程度的限制。部计算中心已成功开发了统一的货票信息 管理系统。如何更好地利用这些原始数据,并且从中提取出有用 的统计和决策支持信息,以指导和宏观调控铁路运输,是一项具 有巨大的潜在经济效益的工程。 综上所述,建立以数据仓库为核心,以联机分析处理为基础, 以数据挖掘为关键技术的系统化货运决策支持系统,可以充分发 挥货票数据库系统中的以及来自其它方面的庞大数据资源的潜 在效益,提供及时的、科学的统计分析和决策支持信息,使铁路 各级决策部门及时掌握货运的实际状况,以便及时制定出正确的 决策。 1 6 论文的组织安排 第一章结论 本文的主要内容安排如下: 第一章绪论。介绍了数据仓库的产生和发展,国内外研究 现状,以及我国铁路货运信息系统的现状及建立铁路货运数据仓 库的意义。 第二章数据仓库系统综述。这一章较为详细的讲述了数据 仓库的概念、数据仓库的概念模型、数据仓库的数据组织( 包括 两种,其一是基于关系型数据库的数据仓库;另一种是基于多维 数据库的数据仓库) 。然后讲述了基于数据仓库的决策支持系统, 也详细讨论了两种主要的支持系统即基于数据仓库的联机分析 处理( o l a p ) 和基于数据仓库的数据挖掘( d m d a t am ir l i n g ) 。 最后介绍了数据仓库的开发流程。 第三章铁路货运数据仓库。这一章主要介绍我们自主开发 的铁路货运数据仓库的一些内容。包括铁路货运数据仓库的概念 模型、铁路货运数据仓库多维数据模型、铁路货运数据仓库扩展 多维数据模型。然后较为详细的介绍了铁路货运数据仓库及数掘 挖掘系统的各个功能模块,如c u b e 服务器、数据仓库模型定义 工具、o l a p 分析工具、数据仓库维护工具、数据集成工具、数据 挖掘工具等等。 第四章铁路货运数据仓库的o l a p 。这一章首先介绍了o l a p 的一些基本知识。然后详细讲解了铁路货运数据仓库o l a p 工具 的实现。尤其对o l a p 操作中的卷取和钻取进行了细致的研究和 探讨。最后,讲述了铁路货运数据仓库o l a p 向i n t e r n e t 的扩展, 即w w w 上的o l a p 的实现。 第五章铁路货运数据仓库中的r o l a p 和m o l a p 。由于我 们系统实现了基于关系数据库的数据仓库o l a p 后对基于多维 数据组织的o l a p 技术又进行了一定的研究。所以在这一章主要 介绍部分研究成果。 第六章讨论和展望。对铁路货运数据仓库的0 【。a p 工具今后 要做的工作进行了讨论和展望。 q 菊二二章数据仓库系统综述 第二章数据仓库系统综述 数据仓库的出现和发展是计算机应用到一定阶段的必然产 物。经过多年的计算机应用和市场积累,许多商业企业已保存了 大量原始数据和各种业务数据。这些数据真实地反映了商业企业 主体和各种业务环境的经济动态。然而由于缺乏集中存储和管 理,这些数据不能为本企业进行有效的统计、分析和评估提供帮 助。也就是说,无法将这些数据转化成企业有用的信息。7 0 年代 出现并被广泛应用的关系型数据库技术为解决这一问题提供了强 有力的工具。从8 0 年代中期_ 丌始,随着市场竞争的加剧,商业 信息系统用户已经不满足于用计算机仅仅去管理同复一日的事务 数据,他们更需要的是支持决策制定的信息。8 0 年代中后期,出 现了数据仓库思想的萌芽,为数据仓库概念的最终提出和发展打 下了基础。9 0 年代初期,w h i n m o n 在其里程碑式的著作建立 数据仓库中提出了“数据仓库”的概念,数据仓库的研究和应 用得到了广泛的关注。这对处于激烈竞争中的商业企业,有着非 同小可的现实意义。 数据仓库不是数据的简单堆积,而是从大量的事务型数据库 中抽取数据,并将其清理、转换为新的存储格式,即为决策目标 把数据聚合在一种特殊的格式中。 2 1 数据仓库的概念 随着市场竞争的加剧和社会需求的发展,从大量数据中提取 制定市场策略的信息就显得越来越重要了。这种需求既要求联机 服务,又涉及大量用于决策的数据,而传统的数据库系统已无法 满足这种需求。其具体体现在三个方面:首先,历史数据量很 大。其次,辅助决策信息涉及许多部门的数据,而不同系统的数 据难以集成。第三,由于访问数据的能力不足,它对大量数据的 访问性能明显下降。 随着c s 技术的成熟和并行数据库的发展信息处理技术的 发展趋势是:从大量的事务型数据库中抽取数据,并将其清理、 转换为新的存储格式,即为决策目标把数据聚合在种特殊的格 式中。随着此过程的发展和完善,这种支持决策的、特殊的数据 存储即被称为数据仓库( d a t a w a r e h o u s e ,d w ) 。 1 0 第。章数据仓库系统综述 w h i n m o n 对数据仓库的定义为:数掘仓库是个用来支持 企业或组织的决策分析处理的、面向主题的、集成的、非易失的 且随时间变化的数据集合。 1 、数据仓库的数据是面向主题的 与传统数据库面向应用进行数据组织的特点相对应,数据仓 库中的数据是面向主题进行组织的。什么是主题呢? 首先,主题 是一个抽象的概念,是在较高层次上对企业信息系统中的数据综 合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业 中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方 式就是在较高层次上对分析数据的完整、致的描述,它能完 整、统一地刻划各个分析对象所涉及的企业各项数据以及数据之 间的联系。所谓较高层次是相对面向应用的数据组织方式而言 的,是指按照主题进行数据组织的方式具有更高的数据抽象级 别。 2 、数据仓库的数据是集成的 数据仓库的数据是从原有的、分散的数掘库数据抽取来的。 操作型数据与d s s 分析型数据之间差别甚大。第一,数据仓库的 每一个主题所对应的源数据在原有的各分散数据库中有许多重复 和不一致的地方,且来源于不同的联杌系统的数据都和不同的应 用逻辑捆绑在一起;第二,数据仓库中的综合数据不能从原有的 数据库系统直接得到。因此,在数据进入数掘仓库之前,必然要 经过统一与综合,这一步是数据仓库建设中最关键、最复杂的一 步,其所要完成的工作有: ( 1 ) 要统一源数据中所有矛盾之处,如字段的同名异义、 异名同义、单位不统一、字长不致,等等。 ( 2 ) 进行数据综合和计算。数据仓库中的数据综合工作可 以在从原有数据库抽取数据时生成,但许多是在数据仓库内部生 成的,即进入数据仓库以后进行综合生成的。 3 、数据仓库的数据是不可更新的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操 作主要是数据查询。一般情况下并不进行修改操作。数据仓库的 数据反映的是一段相当长的时间内历史数据的内容,是不同时点 的数据库快照的集合,以及基于这些快照进行统计、综合和重组 的导出数据,而不是联机处理的数据。数据库中进行联机处理的 数据经过集成输入到数据仓库中,一旦数据仓库存放的数据已经 超过数据仓库的数据存储期限,这些数据将从当前的数据仓库中 删去。因为数据仓库只进行数据查询操作,所以数据仓库管理系 统相比数据库管理系统而言要简单得多。数据库管理系统中许多 第二章数据仓库系统综述 技术难点,如完整性保护、并发控制等等,在数据仓库的管理中 几乎可以省去。但是由于数据仓库的查询数据量往往很大,所以 就对数据查询提出了更高的要求,它要求采用各种复杂的索引技 术。同时由于数据仓库面向的是商业企业的高层管理者,他们会 对数据查询的界面友好性和数据表示提出更高的要求。 4 、数据仓库的数据是随时间不断变化的 数据仓库中的数据不可更新是针对应用来 兑的,也就是说, 数据仓库的用户进行分析处理时是不进行数据更新操作的。但并 不是说,在从数据集成输入数据仓库开始到最终被删除的接个数 据生存周期中,所有的数据仓库数据都是永远不变的。 数据仓库的数据是随时间的变化而不断变化的,这一特征表 现在以下3 方面: ( 1 ) 数据仓库随时间变化不断增加新的数据内容。数据仓 库系统必须不断捕捉o l t p 数据库中变化的数据,追加到数据仓 库中去,也就是要不断地生成o l t p 数据库的快照,经统一集成 后增;b n n 数据仓库中去。但对于确实不再变化的数据库快照,如 果捕捉到新的变化数据,则只生成一个新的数据库快照增加进 去,而不会对原有的数据库快照进行修改。 ( 2 ) 数据仓库随时间变化不断删去旧的数据内容。数据仓 库的数据也有存储期限,一旦超过了这一期限,过期数据就要被 删除。只是数据仓库内的数据时限要远远长于操作型环境中的数 据时限。在操作型环境中一般只保存有6 0 9 0 天的数据,而在数 据仓库中则需要保存较长时限的数据( 如5 1 0 年) ,以适应d s s 进行趋势分析的要求。 ( 3 ) 数据仓库中包含有大量的综合数据,这些综合数据中 很多跟时间有关,如数据经常按照时间段进行综合,或隔一定的 时间片进行抽样等等。这些数据要随着时间的变化不断地进行重 新综合。 因此,数据仓库的数据特征都包含时间项,以标明数据的历 史时期。 2 2 数据仓库的概念模型 数据仓库的数据概念模型是数据的多维视图,它直接影响到 前端工具、数据存储的设计和o l a p 的查询引擎。 在多维数据模型中,一部分数据是数字测量值( 如销售量、投 资额、收入等) ,它们是依赖于一组维”的,这些维提供了测量值 1 2 第章数据仓库系统综述 的上下文关系。例如销售量与城市、产品名称和销售的时间有关 这些相关的维唯一决定了销售量这个测量值。因此,多维数据视 图就是在这样一些由层次的维构成的多维空间中存放数字测量值 的。图2 1 中的小格内存储的数据可以假设为商品的销售量。 舳 墨 l i 膏、日麓罐 工生童年 ii 叩ff 一i vr 图2 1 数据仓库概念模型示意图 针对多维模型产生的o l a p 分析方法,一般有以下几种: ( 1 ) 旋转( p i r o t i n g ) 即将表格的横、纵坐标交换 ( x ,y ) 一( y ,x ) 。 ( 2 ) 卷取和钻取( r o llu po rd r i1 1d o w n ) 根据维的层次提升所 关心的数据或降低观察层次。 ( 3 ) 切片( s 1 i c ea n dd i c e ) 主要根据维的限定做投影、选择等 数据库操作从而获取数据。 2 3 数据仓库的数据组织 2 3 1 数据仓库的数据组织方式 数据仓库的数据组织方式可分为虚拟存储方式、基于关系表 的存储方式和多维数据库存储方式三种。 虚拟存储方式是虚拟数据仓库的数据组织形式。它没有专门 的数据仓库数据存储,数据仓库中的数据仍然在源数据库中,只是 根据用户的多维需求及形成的多维视图,临时在源数据库中找出 所需要的数据,完成多维分析。这种组织方式较简单、花费少、 使用灵活,但同时它也存在一个致命的缺点,即只有当源数据库 的数据组织比较规范、没有数据不完备及冗余,同时又比较接近 多维数据模型时,虚拟数据仓库的多维语义层才容易定义。而一 般数据库的组织关系都比较复杂,数据库中的数据又存在许多冗 余和冲突的地方,在实际中这种方式很难建立起有效的决策服务 数据支持。 】3 菊二:章数据仓库
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 药厂qa考试题及答案
- 安卓应用系统试题及答案
- 图书馆综合素养培养方法试题及答案
- 教师资格考试发展性评估题及答案
- 药剂行业职业素养试题及答案
- 系统规划与管理师笔试常见易错点试题及答案
- 心理学课程试题及答案
- 教师资格考试中的教学观察与反馈技巧试题及答案
- 激光技术考试备考资料
- 药物经济学分析考试试题及答案
- 幼儿园小班主题《春天的小花园》课件
- 消防救援队清洁用品配送服务投标方案(技术方案)
- 【MOOC】中央银行学-江西师范大学 中国大学慕课MOOC答案
- 橙色国潮风中国非物质文化遗产-剪纸主题
- 2024年中国抗静电阻燃非金属托辊市场调查研究报告
- 2024阀门检验和试验作业指导书
- 餐馆厨房经营权承包合同
- 专业洗车场施工方案
- TSXCAS 015-2023 全固废低碳胶凝材料应用技术标准
- 走进创业学习通超星期末考试答案章节答案2024年
- 2024年重庆住院医师-重庆住院医师泌尿外科考试近5年真题附答案
评论
0/150
提交评论