(计算机应用技术专业论文)数据仓库技术在电力辅助决策系统中的应用与研究.pdf_第1页
(计算机应用技术专业论文)数据仓库技术在电力辅助决策系统中的应用与研究.pdf_第2页
(计算机应用技术专业论文)数据仓库技术在电力辅助决策系统中的应用与研究.pdf_第3页
(计算机应用技术专业论文)数据仓库技术在电力辅助决策系统中的应用与研究.pdf_第4页
(计算机应用技术专业论文)数据仓库技术在电力辅助决策系统中的应用与研究.pdf_第5页
已阅读5页,还剩81页未读 继续免费阅读

(计算机应用技术专业论文)数据仓库技术在电力辅助决策系统中的应用与研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 决策支持系统( d s s ) 主要是针对管理信息系统无法提供有效决策支持这一 缺陷而提出的。它直接面向决策,用于支持和辅助管理者进行决策,因此对数 据的处理侧重于分析处理。传统的决策支持系统以数据库作为数据管理的手段, 而数据库系统主要用于事务处理,使得基于数据库的决策支持系统存在于事务 处理环境之中。虽然数据库技术在联机事务处理方面的应用获得了巨大的成功, 但鉴于事务处理和分析处理具有极不相同的性质,它对于分析处理的支持一直 不能令人满意。d s s 要在企业决策支持中发挥应有的作用,必须对数据库系统 中的原始数据进行再加工,形成一个综合的、面向分析的环境,以更好地支持 决策分析,数据仓库的出现正好满足了这一需求。数据仓库将原有数据库系统 中的原始数据组织成适合决策分析需要的分析型数据,从而提高了d s s 的决策 分析能力。伴随数据仓库技术出现的数据挖掘技术和联机分析处理( o l a p ) 技术 又为数据分析提供了强有力的支持。这样,数据仓库连同其相关技术形成了当 今新型的决策支持系统解决方案。基于数据仓库的决策支持系统的应用己慢慢 开始起步,对其进行理论上的研究将具有很大的实用意义。 本文首先介绍了决策支持系统的发展历程,提出了本文的课题背景和工作 内容。其次,文章利用二、三、四章分别阐述了数据仓库、联机分析处理和m s a n a l y s i ss e r v i c e s 的相关理论与技术。接着文章在五、六章分别论述了传统 d s s 系统架构和基于数据仓库的d s s 系统架构的构成及其特点。最后,文章结 合作者参与开发的云南电力集团辅助决策系统原型项目,从系统工程的角度分 析了项目需求和现有的管理信息系统状况。文章结合电力系统的需求,详细论 述了如何构建一个数据仓库来支持电力辅助决策系统,以及如何利用这个数据 仓库来进行数据分析以满足辅助决策的需要。 文章的重点在于结合实践,根据电力行业的实际情况,提出了一个在国内 电力领域合理可行的构建数据仓库的方法并在此基础上做了数据分析处理。 关键词: 决策支持系统,数据仓库,联机分析处理 a b s t r a c t d e c i s i o ns u p p o r ts y s t e m ( d s s ) w a s p u r e d f o r w a r du n d e rt h eb a c k g r o u n do f n o e f f e c t i v es u p p o r to nd e c i s i o n - m a k i n gp r o v i d e db y p r e s e n tm a n a g e m e n t i n f o r m a t i o n s y s t e m ( m i s ) d s so r i e n t st od e c i s i o n - m a k i n ga n di su s e df o rh e l p i n ga n da s s i s t i n g t h es u p e r v i s o r st om a k ed e c i s i o n s ,s oi t sd a t ap r o c e s s i n g h i g h l yf o c u s e so na n a l y t i c a l p r o c e s s i n g t h ed s s i s p l a n t e di nt h et r a n s a c t i o n p r o c e s s i n ge n v i r o n m e n tf o rt h e s a k eo fi t sd a t a m a n a g e m e n t b a s e do nt h et r a d i t i o n a ld a t a b a s et h a ti sm a i n l yu s e df o r t r a n s a c t i o np r o c e s s i n g a l t h o u g ht h ea p p l i c a t i o no fd a t a b a s et e c h n o l o g yo no n l i n e t r a n s a c t i o np r o c e s s i n g ( o l t p ) g a i n s g r e a t s u c c e s s e s ,i tg i v e sa nu n s a t i s f a c t o r y s u p p o r to na n a l y t i c a lp r o c e s s i n ga l la l o n gd u et o t h ed i f f e r e n tc h a r a c t e r sb e t w e e n t r a n s a c t i o n p r o c e s s i n ga n da n a l y t i c a lp r o c e s s i n g d s sw i l lp l a ya na c t i v er o l ei n e n t e r p r i s ed e c i s i o n m a k i n gb yr e c o m b i n i n gp r i m i t i v ed a t ai n t ot h ed a t a b a s e sa n d f o r m i n g a s y n t h e t i c a n d a n a l y s i s o r i e n t e d e n v i r o n m e n t ,w h i c h b r i n g s o nt h e e m e r g e n c eo fd a t a w a r e h o u s e d a t aw a r e h o u s em e e t st h e r e q u i r e m e n t s o ft h e d a t a b a s e m a n a g e m e n ts u b s y s t e m o fd s sa n do r g a n i z e s p r i m i t i v ed a t ai nt h ee x i s t i n g d a t a b a s e st oa n a l y t i c a ld a t at h a ti ss u i t e dt oa d m i n i s t r a t i v ed e c i s i o n w i t ht h e e m e r g e n c e o fd a t aw a r e h o u s e ,d a t a m i n i n gt e c h n o l o g y a n do n l i n e a n a l y s i s p r o c e s s i n g ( o l a p ) t e c h n o l o g ya l s oc o m eo u t t h e s et w ot e c h n o l o g i e sp r o v i d et h e p o w e r f u la n de n e r g e t i cs u p p o r tf o rd a t aa n a l y s i s t h u s an e wp a t t e r no f d s sb a s e d o i ld a t a b a s ew a r e h o u s ea n di t sr e l a t i v et e c h n o l o g i e si sp r o p o s e d t h ea p p l i c a t i o no f d s sb a s e do nd a t aw a r e h o u s es t a n d sa ti t su n d e r w a ys t a g e ,s ot h e o r e t i c a lr e s e a r c h o nt h es y s t e mw i l lm a k es e n s ef o rp r a c t i c e f i r s t l y , t h i s t h e s i si n t r o d u c e st h ed e v e l o p i n gh i s t o r yo fd s s ,p o i n t so u tt h e b a c k g r o u n d a n dm e t h o do ft h er e s e a r c h i n gt a s k s e c o n d l y , i tc a s t s l i g h t o nt h e t e c h n o l o g i e s r e l a t e dt od s sw h i c hb a s e do nd a t a w a r e h o u s e ,i n c l u d i n g d a t a w a r e h o u s e ,o l a p a n dm s a n a l y s i ss e r v i c e st e c h n o l o g i e s t h e n ,t h ea r c h i t e c t u r e s a n dt h e o r i e so ft r a d i t i o n a ld s sa n dt h ed s sb a s e do nd a t aw a r e h o u s ea r ed i s c u s s e d r e s p e c t i v e l y l a s t l y , a c c o r d i n gt o ap r a c t i c a lp r o j e c t ,t h et h e s i si l l u s t r a t e sh o wt o b u i l dad a t aw a r e h o u s et os u p p o r te l e c t r i c a la s s i s t a n td e c i s i o ns u p p o r ts y s t e ma n d l i m a n i p u l a t ed a t aa n a l y s i st om e e tr e q u i r e m e n t s o fd e c i s i o n m a k i n gp r o c e s s - a c c o r d i n gt o c u r r e n ts i t u a t i o n o fe l e c t r i c a li n d u s t r y , t h e t h e s i s m a i n l y e m p h a s i z e s o n p u t t i n gf o r w a r d ar a t i o n a la n df e a s i b l em e t h o dt o b u i l dad a t a w a r e h o u s ei nd o m e s t i ce l e c t r i c a li n d u s t r yd o m a i na n di m p l e m e n t i n gr e l a t i v ed a t a a n a l y t i c a lp r o c e s s i n g k e y w o r d s : d e c i s i o ns u p p o r ts y s t e m ,d a t aw a r e h o u s e ,o n l i n ea n a l y t i c a lp r o c e s s i n g i l l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致 身 的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 i 确的说明并表示谢意。 签名:差丞日期:少。f 年牛剧。日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名知弘导师签名 日期:毋一年月肋日 电子科技大学硕士学位论文 1 1 决策支持系统的产生 第一章引言 当前,世界已经进入知识经济时代,信息化的浪潮正在席卷全球。为了适应 时代潮流,在更大程度上是为了提高社会的效率、减少资源的浪费、方便人们 的生活,各国政府积极推动社会的信息化进程,包括政府信息化、教育信息化、 企业信息化等内容。企业是社会经济的基本单元,是社会发展的保障,因此国 民经济信息化的重点是企业信息化;同时,企业实施信息化也是企业自身走向 现代化、在竞争中谋求不断发展的重要保证。 现在,企业所处的外部环境更加严峻,体现在:顾客需求日趋个性化、多样 化、流行化,生产趋于多品种和小批量:市场竞争日趋激烈,价格、质量、时 间、服务等都成为竞争的热点;顾客、对手、环境都在迅速变化,各种不可预 测因素时有发生。在这样的情况下,企业必须借助一些有力的、可靠的辅助工 具,为生产和管理提供支持,以便在竞争中取得优势。 传统的管理信息系统( m i s ) ,主要针对的是日常的结构化问题,以提高企业 的运营效率为主要目标,通过将大量的数据转换为有价值的信息来强化管理。 随着社会的进步和技术的发展,人们不再仅仅满足于获取多种信息和简单的使 用信息,而是想在深层次上利用这些信息为企业的决策提供帮助。因此,为了 弥补m i s 系统的不足,为了更好地进行市场预测、资源配置、人力优化和生产 管理,在管理科学、运筹学、数理统计、人工智能等新方法和新技术的推动下, 人们开始重视决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 的研究和应用。d s s 系统是一种基于计算机之上的信息系统,它以企业现有的m i s 系统为基础,主 要针对半结构化和非结构化问题的求解,目的是为管理者的正确、及时、全面 的决策提供帮助。近1 0 多年来新兴的数据仓库( d a t aw a r e h o u s e ,d w ) 技术、联 机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 技术和数据挖掘( d a t am i n i n g , d m ) 技术,为d s s 提供了多方面的支持,极大地推动了d s s 的发展。 1 2 信息系统的演变 有关信息系统的研究和应用是随着科学技术的发展、客观需求的变化而不断 电子科技大学硕士学位论文 发展变化的。早期的计算机只是单纯用于科学计算,在2 0 世纪5 0 年代开始用 于商业用途,应用范围逐步扩展到电子数据处理( e d p ) 、事务处理系统( t p s ) 和信 息报告系统( 瓜s ) ;在2 0 世纪6 0 年代,随着数据库技术的成熟,当人们可以即 时访问数据时,产生了管理信息系统( m i s ) 。 m i s 系统是利用数据库技术实现业务管理,在计算机上进行大量的事务处理 工作,其主要目的是提高企业的效率。在2 0 世纪9 0 年代以前,企业开发、实 施的m i s 系统只是一些简单的、初步的应f | ; j ,仅仅解决了部分复杂、繁琐的手 工操作,特点是分散开发、分散管理、单机作业。到了2 0 世纪9 0 年代前半期, m i s 系统开发的重点转为把分散的系统集中为统一的数据管理,成为实时性、 多用户、多任务的客户机服务器( c s ) 工作模式,实现了由基础作业层向管理控 制层的转变。2 0 世纪9 0 年代中期以后,随着网络技术的快速发展,i n t r a n e t 成 为i n t e r n e t 在企业m i s 系统内部的扩展,开始形成集计算机、网络、数据库、分 布式计算于一体的信息技术综合体,成为了新型的浏览器朋艮务i n ( b s ) 2 e 作模式, 使得信息交流更加方便、快捷和准确。当前,利用i t 技术实现企业信息化的主 流是:推进管理信息系统( m i s ) 、制造资源计划( m r p ) 和企业资源计划( e i u ) 的研 究和应用,对企业的供应管理、生产管理、过程控制、经营管理、销售管理及 客户关系管理实行全过程计算机管理。 随着信息技术的进一步发展,人们希望信息系统除了提高效率之外,还能够 提高效能,即在一定程度上提供可行的决策建议,于是,在2 0 世纪7 0 年代产 生了一种新型的信息系统决策支持系统( d s s ) 。d s s 系统综合了管理科学、 信息科学、系统科学、行为科学、运筹学和计算机科学的先进方法和技术,以 m i s 系统和数据库为基础,以模型求解为基本手段,通过人机交互活动为管理 决策提供支持。在竞争日益激烈的今天,如何进行正确、及时的决策是企业生 存和发展的关键,因此有关d s s 的研究日益成为信息系统的热门话题。 1 3 数据仓库系统的产生和发展 随着m i s 系统应用的发展,企业可以获得的内部和外部数据不断增长,但 是利用数据的效率并没有得到对应的提高,人们难以在海量的数据中发现真正 有价值的信息;同时,由于数据来源的广泛性,各种不同来源的数据在格式上 存在很大的差别,难以进行比较、衡量和利用,难以从这些不同的数据中得出 电子科技大学硕士学位论文 统一的结论,使得企业决策变得更加困难。 为了解决上述数据处理过程的难题,出现了数据仓库( d a t a w a r e h o u s e ,d w ) 。 被誉为数据仓库鼻祖的w h h l r n o n 于1 9 9 3 年在数据仓库( b u i l d i n gt h ed a t a w a r e h o u s e ) - - 书中,首次明确提出了数据仓库的概念。数据仓库是市场激烈竞争 的产物,它通过将大量的、不同来源的数据进行集成,能够把统一的、丰富的、 综合的信息提供给决策者,从而实现有效的辅助决策。数据仓库一般分为集成 数据、存储和管理数据以及展示数据三个阶段或部分。在数据仓库前端,可以 利用多种分析工具进行数据展示,例如数据挖掘( d a t am i n i n g ,d m ) 和联机分析 处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 能够充分展现数据仓库中的数据内涵, 发现数据之间潜在的关联,从而可以为企业决策提供更强大、更全面的支持。 d w 是2 0 世纪9 0 年代初提出的概念,到2 0 世纪9 0 年代中期已经形成了潮 流。d w 的价值在于帮助人们制定能够改进商业过程的决策,而不仅仅是实现商 业过程自动化。应用d w 技术,改善企业决策的支持模式、取得最大的投资回 报率( r 0 0 ,是当今大多数成功企业达成的共识。根据调查,财富( f o r t u n e ) 5 0 0 强中有8 5 的企业已经建成或正在建立数据仓库,d w 与i n t e m e t 一样正在成为 当前最快的i t 增长点和技术热点。目前,各个大型数据库厂商针对市场需求, 纷纷推出自己的数据仓库产品;已经建立和使用数据仓库的企业,也都取得了 明显的经济效益,在市场竞争中显示了强劲的活力。 1 4 国内外决策支持系统的研究情况 决策支持系统( d s s ) 的概念是在2 0 世纪7 0 年代由美国麻省理工的m i c h a e l s s c o t tm o r t o n 和p e t e rg w k e e n 首次提出的,是信息系统研究的一个新的发展 阶段。现在,d s s 系统已经有了很大的发展。 1 9 8 0 年s p r a g u e 提出了决策支持系统三部件结构( 对话部件、数据部件、模 型部件) ,明确了d s s 系统的基本组成,极大地推动了d s s 系统的发展。2 0 世 纪8 0 年代末9 0 年代初,d s s 系统开始与专家系统( e x p e r ts y s t e m ,e s ) 相结合, 形成智能决策支持系统( i n t e l l i g e n c e d e c i s i o ns u p p o r t s y s t e m ,i d s s ) 。2 0 世纪9 0 年代初期,d w 技术的出现为d s s 系统的发展提供了新的思路。 当莳,d s s 的研究和应用正在迅速发展。美国一家调研机构的调查表明,2 0 世纪末3 4 的美国公司中有2 0 的员工使用决策技术,1 3 的公司中有6 0 的员 电子科技大学硕士学位论文 工使用决策工具,8 6 的人认为企业对决策技术的投资增加了。在国外,d s s 的研究越来越受到人们的重视,相关学术活动十分活跃,新的学术团体、学术 刊物不断涌现,研究和应用都取得了很大的进展。 d s s 在我国的研究和应用始于1 9 8 5 年,相对来说还处于起步阶段。1 9 9 1 年 4 月全国首届d s s 学术交流会的召开以及全国首届d s s 专业委员会的成立,是 我国d s s 研究和应用走向正规化的重要标志。虽然起步比较晚,但是d s s 在我 国的应用发展速度是比较快的。例如,华中理工大学系统工程研究所开发的用 于资源分配与货运配车的d s s ,支持人口与经济发展战略决策的d s s ,在实际 应用中都取得了很好的效果;清华大学经济管理学院开发的基于知识的d s s 原 型系统,可以用于反通货膨胀政策决策支持、对台经济贸易政策决策支持、计 划决策支持和气候决策支持等多个方面;西安交通大学战略与决策研究所设计 开发的三峡工程d s s 原型系统,集数据处理、模型处理、a i 技术于体,能够 自动调度数据管理、模型管理或者决策专家子系统等模块,为用户提供多方面 的信息;天津大学系统工程研究所开发的城市交通宏观决策系统,具有预测、 评价、规划和决策四大功能。目前,关于d s s 的研究已经成为我国信息系统领 域的热点,受到人们的普遍关注。国内的d s s 研究和应用,正在向综合、集成、 多领域方向发展,这必将推动我国社会和经济的良性发展。 1 5 本文的课题背景 在我国电力行业,随着电力法及其配套法规的颁布,国家加快了对电力 工业的改革步伐,电力工业也进入了体制改革的关键阶段。云南省电力集团下 属各发电厂将实行“厂网分开,竞价上网”:各地、市局将成为省公司的分公司, 云南省电力集团实际上己成为电网经营企业。其主要职责有三方面:电网的建 设与改造、安全与经济运行、电力的营销和服务。电网的安全与经济运行始终 是供电企业的工作重点。上世纪九十年代以来,各供电企业分别进行了不同程 度的信息化建设,建立起了大大小小的m i s 系统和o a 系统来帮助完成日常工 作,显著的减少了人工劳动同时节约了生产成本。在当今信息化飞速发展的时 代,随着国家对电力工业政策的改变,各供电企业面临着如何更加充分地利用 现有的信息技术来帮助企业解决生产、经营等问题,如何科学有效的对生产工 作做出系统、客观、合理的预测和指导从而达到节约成本,降低生产过程中的 电子科技大学硕士学位论文 事故率的目的,最终提高企业的市场竞争力。 在国家电力工业改革的大环境下,云南省电力集团综合考虑上述情况,决定 进一步加快本省电力工业信息化的步伐。于是,作为云南省“电力生产管理系 统”基础和前期阶段的“电力技术监督信息系统”( e p i s ) 以及相应的电力辅助 决策系统的建设也就提到日程上来了。 作者在参与开发电力辅助决策系统过程中,结合云南省电力工业的信息化现 状构建了一个数据仓库原型并在此基础上开发了电力辅助决策系统。文章在该 项目基础上,理论结合实践,提出了一个合理可行的,能辅助支持电力工业技 术监督系统的决策支持系统解决方案。 1 6 本文的主要工作 2 0 0 3 年1 0 月,作者参与了云南电力集团电力辅助决策系统的开发工作,文 章依据项目的实际需求和作者在项目中的工作内容阐述了基于数据仓库的电力 辅助决策系统的研究和实现过程,为国内电力行业实施决策支持项目提供了一 定的参考。文章主要围绕以下几个方面展开工作: 1 ) 对电力企业当前管理信息系统及其企业决策需求进行详细调研分析; 2 ) 采用m i c r o s o f t a n a l y s i ss e r v i c e s 进行多维数据模型的建模; 3 ) 在原有m i s 系统基础上构建一个数据仓库原型; 4 ) 利用m i c r o s o f ta n a l y s i ss e r v i c e s 及e x c e l ,在多维数据立方体上作相关数据 分析,得出相应结论。 5 ) 应用a n a l y s i ss e r v i c e s 提供的a d om d 对象模型和m d x 语句并结合s p s s 统计软件开发了个数据挖掘分析工具,笔者主要完成和实现了该工具的 c o l m e c t 、m e t a d a t a 、r e s u l t s 和q u e r y f i l e s 模块。 电子科技大学硕士学位论文 第二章数据仓库( d w ) 理论及其技术 2 1 从数据库到数据仓库 计算机系统的功能从数值计算扩展到数据管理距今已有三十多年了。最初的 数据管理形式主要是文件系统,少量的以数据片段之间增加一些关联和语义而 构成层次型或网状数据库,但数据的访问必须依赖于特定的程序,数据的存取 方式是固定的、死板的。到了1 9 6 9 年,e e c o d d 博士发表了他著名的关系数据 模型的论文。此后,关系数据库的出现开创了数据管理的一个新时代。 近几十年来,大量新技术、新思路的涌现出来并被用于关系型数据库系统的 开发和实现:客户服务器系统结构、存储过程、多线程并发内核、异步i o 、代 价优化等等,这一切足以使得关系数据库系统的处理能力毫不逊色于传统封闭 的数据库系统。而关系数据库在访问逻辑和应用上所带来的好处则远远不止这 些,s q l 的使用己成为一个不可阻挡的潮流,加上近些年来计算机硬件的处理 能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。 整个2 0 世纪8 0 年代直到9 0 年代初,联机事务处理一直是数据库应用的主 流。然而,应用在不断地进步。当联机事务处理系统应用到一定阶段后,用户 便发现单靠拥有联机事务处理已经不足以获得市场竞争的优势,他们需要对其 自身业务的运作以及整个市场相关行业的情况进行分析,而做出有利的决策。 这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。在如今 这样激烈的市场竞争环境下,这种基于业务数据的决策分析,我们把它称为联 机分析处理,比以往任何时候都显得更为重要。如果说传统联机事务处理强调 的是更新数据库向数据库中添加信息,那么联机分析处理就是从数据库中 获取信息、利用信息。 事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的 想法。但在实际的操作中,人们却发现要获得有用的信息并非如想象的那么容 易,这主要表现在以下几点: 1 ) 所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不 关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一 个数据库在理论上都难以做到两全。 电子科技大学硕士学位论文 2 ) 业务数据往往存放于分散的异构环境中,不易统一查询访问,而且还有大量 的历史数据处于脱机状态,形周虚设。 3 ) 业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适合 非计算机专业人员进行业务上的分析和查询。 因此有人感叹二十年前查询不到数据是因为数据太少了,而今天查询不到数 据是因为数据太多了。针对这一问题,人们设想专门为业务的统计分析建立一 个数据中心,它的数据来自联机事务处理系统、异构的外部数据源和脱机的历 史业务数据。这个数据中心是一个联机的系统,它是专门为分析统计和决策支 持应用服务的,通过它可以满足决策支持和联机分析应用所要求的一切。这个 数据中心就叫做数据仓库。这个概念在9 0 年代初被提出来。如果需要给数据仓 库一个定义的话,那么数据仓库就是一个作为决策支持系统和联机分析应用数 据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取 信息的问题。 2 2 数据仓库的定义 按照业界公认的数据仓库概念的创始人b i l ll a m o n 的观点,数据仓库可以定 义为:是一种面向主题的、集成的、随时间不断变化的( 不同时间的) 、稳定的 数据的集合,用咀支持经营管理中的决策制定的过程。不难看出,数据仓库的 特点是: 1 ) 数据仓库的数据是面向主题的 主题是经营、管理过程中所面临的若干个抽象的概念,是一个较高层次的数 据归类标准,它是与传统数据库面向应用对应的,每一个主题基本对应一个宏 观的分析领域。比如电力技术监督各技术指标同一时期的情况;不同时期同一 设备的运行情况;一定时期内某个设备的预试完成情况等众所关心的问题,都 可作为主题。主题可用一个值来对应它。一个主题可能需要涉及到很多方面, 这些诸方面叫做主题的维度。在数据库设计中,涉及到主题值的只有一个表, 称为事实表( f a c tt a b l e ) ,两涉及到维度值的有多个表,称为维表( d i m e n s i o n t a b l e ) 。 2 ) 数据仓库的数据是集成的 包括经营管理过程中各种非单一的主题的集合。也就是说,数据仓库是由很 电子科技大学硕士学位论文 多主题构成的,考察的是问题的各个方面,而不是单一的、静止的、片面的, 它是综合各方面因素的集合体。原始数据( 操作型数据) 与分析型数据之间的 区别如下表2 - 1 所示: 表2 - 1操作性数据与分析型数据的比较 操作型数据分析型数据 细节的综合的或提炼的 在存取瞬间是准确的代表过去的历史数据 可更新的一般不更新,只是追加 同一时刻操作一个单元同一时刻操作一个集合 面向事务面向分析 一次操作数据量小一次操作数据量人 支持日常操作支持决策操作 从上表可以清楚地看到,操作型数据与适合于决策支持系统( d s s ) 应用的分 析型数据之间的差别很大。由于数据仓库要用到分析型数据,因此在数据进入 数据仓库之前,必须要通过加工与集成,首先要统一原始数据的格式,还要将 原始数据做一个从面向应用到面向主题的大转变。 3 ) 数据仓库的数据是随时间不断变化的 保存在数据仓库中的数据是长时涮以来各种业务数据的集合,是经过抽取后 的面向主题的数据。这些数据绝大部分是历史数据,主要用于查询统计分析, 作决策支持用。数据仓库中的数据不可更新是针对应用来说的,也就是说,数 据仓库的用户进行分析处理时是不进行数据更新操作的。但并不是说,在从数 据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓 库数据都是永远不变的。数据仓库的数据随时间变化的特征表现在以下几方面: 首先,数据仓库内的数据时限要远远长于操作型数据环境中的数据时限;其次, 操作型环境存储的是当前数据,即在存取一刹那是正确、有效的数据,而数据 仓库中的数据都是历史数据( 哪怕只是几分钟前的数据) ;最后,数据仓库中的数 据都是按照时间顺序追加的,它们都带有“时间”这一属性,标明了该数据的 历史时期。 4 ) 数据仓库的数据是稳定的 电子科技大学硕士学位论文 数据已经被转化、净化、抽取到数据仓库中心数据库后,就会保持相对的稳 定性,不应随意更改,这样才能保证决策的正确性。如果随意改变中心数据库 中的数据,就无异于在改变整个历史情况,所存储的数据就会变得不真实,不 符合实际情况。 2 3 数据仓库体系结构 i b m 、o r a c l e 等厂商都提出了自己的数据仓库结构,但严格说来,任何一 个数据仓库结构都是从一个基本框架发展而来,实现时再根据分析处理的需要 具体增加一些部件。其中斯坦福大学“w h p s ”课题组提出的一个基本的数据仓 库模型如图2 1 所示。 图2 - 1 数据仓库的基本体系结构 为了能够将己有的数据源提取出来,并组织成可用于决策分析所需的综合数 据的形式,一个数据仓库的基本体系结构中应有以下几个基本组成部分: 1 1 数据源( d a t as o u r c e ) 指为数据仓库提供底层数据的运作数据库系统及外部数据。 2 ) 包装器监视器( w r a p p e r m o n i t o r ) 该模块的包装器( w r a p p e r ) 部分负责把数据从原数据源使用的数据格式转化 为数据仓库使用的数据格式和数据类型,而监视器( m o n i t o r ) 部分负责感知数据源 发生的变化,并把这些变化上报给集成:器( i n t e g r a l o r ) 。 电子科技大学硕士学位论文 3 ) 集成器( i n t e g r a t o r ) 将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数据仓 库中。为了把新数据准确的集成到数据仓库中,集成器( i n t e g r a t o r ) 可能还要从原 来或相关的其它数据源中获取进一步的信息,图中向下的虚箭头表示这种行为。 4 ) 数据仓库a t aw a r e h o u s e ) 存贮已经按企业级视图转换的数据,供分析处理用。根据不同的分析要求, 数据按不同的综合程度存储。数据仓库中还应存储元数据,其中记录了数据的 结构和数据仓库的任何变化,以支持数据仓库的开发和使用。 5 ) 客户应用 供用户对数据仓库中的数据进行访问查询,并以直观的方式表示分析结果 的工具。 2 4 数据仓库的数据组织结构 从原始业务数据库中获得的数据在数据仓库中被分成不同的层次,一般数 据仓库数据组织结构如图2 2 所示。 综台 图2 - 2 数据仓库数据组织结构 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行 进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期 细节级。由此可见,数据仓库中存在着不同的综合级别,一般称之为“粒度”。 电子科技大学硕士学位论文 粒度越大,表示细节程度越低,综合程度越高。 数据仓库中还有一种重要的数据元数据( m c t a d a t a ) 。元数据是“关于数 据的数据”,如在传统数据库中的数据字典就是一种元数据。在数据仓库环境下, 主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数 据,包含了所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在 数据仓库中是用来和终端用户的多维商业模型前端工具之间建立映射,这种元 数据称之为d s s 元数据,常用来开发更为先进的决策支持工具。 2 5 数据仓库的数据组织方式 数据仓库的数据组织方式可分为虚拟存储方式、基于关系表的存储方式和 多维数据库存储方式三种。 2 5 1 虚拟存储方式 它没有专门的数据仓库储存数据,数据仓库中的数据仍然在源数据库中, 只是根据用户的多维需求形成多维视图,临时在源数据库中找出所需要的数据, 完成多维分析。这种组织方式较简单、花费少、使用灵活,但同时它也存在一 个致命的缺点,即只有当源数据库的数据组织比较规范、没有数据不完备及冗 余,同时又比较接近多维数据模型时,虚拟数据仓库的多维语义层才容易定义。 而一般数据库的组织关系都比较复杂,数据库中的数据又存在许多冗余和冲突 的地方,在实际中这种方式很难建立起有效的决策服务数据支持。 2 5 2 基于关系表的存储方式 它是将数据仓库的数据存储在关系型数据库的表结构中,在元数据的管理 下完成数据仓库的功能。这种组织方式在建库时有两个主要过程用以完成数据 的抽取:首先要提供一种图形化的点击操作界面,使分析员能对源数据库的内 容进行选择,定义多维数据模型:然后再编制程序把数据库中的数据抽取到数 据仓库的数据库中。这种方式的主要问题是在多维数据模型定义好后,从数据 库中抽取数据往往需要编制独立、复杂的程序,因此通用性差、很难维护。 2 5 3 多维数据库组织方式 它直接面向数据挖掘分析操作所需的数据组织形式,在数据仓库中对海量 数据从感兴趣的视角、抽象层次上进行概括,便形成了针对不同目标的多维数 电子科技大学硕士学位论文 据视图。它是对决策目标意义较为完整的描述,能够精确地为用户提出的问题 进行分析处理服务。多维数据视图一般包括一组对分析感兴趣的量度,如客户 和费用,每个量度包含一组具体化内容的维,如客户的类别、信用度等。多维 的层次划分,基本上确定了每个垂直的汇总路径,可形成关于任意路径的分析。 这种数据库产品也比较多,其实现方法不尽相同,其数据组织采用多维数组结 构文件进行数据存储,并有维索引及相应的元数据管理文件与数据相对应。 2 6 数据仓库的创建 数据仓库( d w ) 不是买来直接使用的产品,确切地说,d w 是一种解决方案, 这一点不同于数据库,它是对原始的操作数据进行各种处理,并转换成有用信 息的处理过程。用户可以分析这些信息从中做出策略性的决策,可以说,d w 是 以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作 为分析数据和提取信息的有效方法,以人工智能技术作为挖掘知识和发现规律 的科学途径。d w 的创建不能照搬传统的生命周期法( s d l c ) ,而采用类似于快 速原型法的开发方法。此法快速建立起系统原型,提交用户试用,然后根据用 户的反馈,对需求不断进行调整,使系统原型逐渐丰满,逐渐成熟。由于系统 建立在全新的体系结构上,配备功能完备的开发工具,能迅速满足各种用户提 出的不同变化需求。用户的参与在整个创建过程中是至关重要的,创建d w 的 指导思想应是边建、边用、边修改、边扩充。数据仓库f l 匀仓, j 建步骤如图2 3 所示。 i ;:。、 2 6 1 逻辑数据模型设计 图2 - 3 数据仓库创建步骤示意图 1 2 电子科技大学硕士学位论文 设计数据仓库的数据模型是建立数据仓库的第一个步骤。通过数据模型可 以得到关于企业完整而清晰的描述信息,数据模型是面向主题而建立的,同时 又为多个面向应用的数据源的集成提供了统一的标准。数据仓库的数据模型一 般包括:企业的各个主题域、主题域之间的联系、描述主题的键和属性值。 2 6 2 定义记录系统 数据仓库的数据来源于多个已存在的操作系统和外部系统,一方面各操作 系统的数据是面向应用的,不能完整地描述企业中的各个主题域;另一方面多 个数据源的数据存在许多不一致,如命名、数据结构和单位的不一致等等,甚 至连数据的内容也可能不一致,不同单位的同一数据可能会因为来自不同的数 据源而具有一定的误差。因此要从数据仓库的逻辑模型出发,结合主题的多个 表的关系模式,确定现有系统的哪些数据能较好地满足数据仓库的需要。 汜录系统( r e c o r ds y s t e m ) 是一个内容正确、在多个数据源间起决定作用的 操作型数据源。它的特点是:数据最完整、最准确、最及时,数据结构最适合 于数据仓库,并且与外部数据源晟为接近。数据仓库的数据由记录系统转换而 来。 2 6 3 物理数据模型设计 在逻辑数据模型的基础上进行一些修改,删除纯操作数据f 这些数据在进行 统计和分析是不会被使用到) ,在键中增加时间属性以便以后进行数据分析和趋 势预测,用人工关系替代参照完整性( 因为数据仓库的数据不更新或很少更新, 保留参照完整性意义不大,并且可能会影响系统的性能) ,生成导出数据,还包 括有关物理特性的设计。物理模型设计包括:确定数据的存储结构、索引策略、 数据存放位置和存储分配。 在这时应注意的是,进行数据仓库数据库设计之前,必须对系统的技术环 境进行评估和准备,如用于数据仓库的软件和工具、系统所需的d a s d 数目、 如何建立网络等。 2 6 4 建立记录系统和数据仓库的接口 当已经确定了数据仓库的数据模型,并在操作型环境中定义了记录系统之 后,接下来的工作是如何建立和设计两者之间的接口。接口程序和抽取程序不 同,抽取程序只是将两种数据源的数据进行简单转换。 电子科技大学硕士学位论文 在记录系统到数据仓库的转换过程中,面向应用的多个数据源的混乱状态 经过集成,生成了含有完整、准确、统一描述信息的主题域,并得到了一系列 的历史数据和导出数据。还有一个如何高效率地对操作型环境中的数据进行扫 描以便追加的问题。一般采用以下几种方法:对操作型数据加时标、建立“d e l t a ” 文件、使用系统日志或审计日志、修改程序代码、使用前映像或后映像文件。 在数据仓库建立过程中,大约有8 0 的工作量用于这一步骤。 在设计接口工作中,接口中不仅要包括数据的抽取,还应具有以下功能: 从面向应用或操作的环境生成完整的数据、数据的基于时间的转换、数据的凝 聚、对现有记录系统的有效扫描以便以后进行追加。 数据载入,即运行接口程序,将数据装入到数据仓库中。数据载入的主要 工作是:确定数据载入的次序、清除无效或错误的数据、数据“老化”、数据 粒度管理和数据刷新。 2 6 5 建立其它主题域 最初,只使用一部分数据来生成第一个主题域,原因在于只建立一个主题 域使得设计人员能够轻易且迅速地对己做工作调整,而且能够尽早的实施数据 仓库的应用。这样既可以在经济上最快地得到回报,又能够通过最终用户的使 用发现问题并提出新的需求,然后反馈给设计人员。设计人员继续对系统改建、 扩展,将更多的主题域加入到数据仓库中。经过这样一个不断反馈的过程,数 据仓库就建立起来了。 电子科技大学硕士学位论文 第三章联机分析处理( o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论